Alibaba Qwen Flash via Dashscope. Ultra-fast inference for latency-sensitive tasks. Lowest cost option in the Qwen family.
1M fenêtre de contexte
32K tokens de sortie max
Publié: 2025-07-28
Protocoles supportés:openaianthropic
Fournisseurs disponibles:Aliyun
Capacités:Function CallingPrompt CachingRecherche web
Tarifs
| Type | Prix |
|---|---|
| Tokens d'entrée | $0.022/M |
| Tokens de sortie | $0.22/M |
| Lecture cache | $0.0043/M |
| Écriture cache | $0.027/M |
| Recherche web | $0.01/R |
Exemples de code
from openai import OpenAIclient = OpenAI(base_url="https://api.ofox.ai/v1",api_key="YOUR_OFOX_API_KEY",)response = client.chat.completions.create(model="bailian/qwen-flash",messages=[{"role": "user", "content": "Hello!"}],)print(response.choices[0].message.content)
Modèles associés
Questions fréquentes
Qwen Flash sur Ofox.ai coûte $0.022/M par million de tokens d'entrée et $0.22/M par million de tokens de sortie. Paiement à l'usage, sans frais mensuels.
Qwen Flash supporte une fenêtre de contexte de 1M tokens avec un maximum de 32K tokens en sortie, permettant de traiter de longs documents et de maintenir des conversations prolongées.
Configurez simplement votre URL de base sur https://api.ofox.ai/v1 et utilisez votre clé API Ofox. L'API est compatible OpenAI — changez simplement l'URL de base et la clé API dans votre code existant.
Qwen Flash supporte les capacités suivantes : Function Calling, Prompt Caching, Recherche web. Accédez à toutes les fonctionnalités via l'API unifiée Ofox.ai.