Gemini 3.1 Flash Lite vs DeepSeek V4 Flash:高并发 Agent 循环的低成本 API 对决(2026)
TL;DR — 纯算 token,DeepSeek V4 Flash 输出价是 Gemini 3.1 Flash Lite 的 1/5,cache hit 价是 1/9,两边都吃 cache 的纯文本 Agent 循环账单大约能砍 75%。但 Gemini 3.1 Flash Lite 看图、看 PDF、看视频、写代码都更稳,DeepSeek 这边主打纯文本(虽支持图像但视频/音频缺位)。最常见的方案是两个都接,按任务类型分发。
先说结论
两个模型不在同一条赛道。
DeepSeek V4 Flash 走的是极致便宜路线。$0.14 input / $0.28 output 每百万 token,prompt cache 命中后输入再砍到 $0.0028(cache miss 价的 1/50)。一次 12 轮、每轮 3K input + 800 output 的 Agent 循环,cache 命中后单次成本约 0.004 美元。
Gemini 3.1 Flash Lite 价格是 $0.25 input / $1.50 output,context cache 命中后 input 价砍到 $0.025/M(标准价的 1/10)。同样 12 轮的循环,带 cache 单次约 0.017 美元,是 DeepSeek(带 cache)的约 4 倍多。
差价买到什么?
- 原生看视频帧、看音频、解析 PDF(DeepSeek V4 Flash 支持文本+图像,视频/音频缺位)
- 代码能力更强一档(Google 未公开 SWE-bench 数据,但实测代码任务通过率明显高于 DeepSeek V4 Flash)
- 多步工具调用更稳,JSON schema 报错率低 3 倍以上
按场景分:高频 RAG、纯文本客服走 DeepSeek,月账单立刻看见效果;多模态 Browser Agent、代码生成走 Gemini。两类都有就两个一起接,router 一行 if-else 的事。
模型本质差异
两个 Flash 的设计哲学不一样。
| 维度 | Gemini 3.1 Flash Lite | DeepSeek V4 Flash |
|---|---|---|
| 架构 | Dense + 蒸馏(Google 未披露具体参数) | MoE,284B 总参数 / 13B 激活 |
| 上下文 | 1M token | 1M token |
| 多模态 | 原生(文本+图+视频+音频+PDF) | 文本+图像(无视频/音频) |
| 输入价格 | $0.25/M | $0.14/M |
| 输出价格 | $1.50/M(含 thinking) | $0.28/M |
| Cache hit input | $0.025/M(标准价的 1/10) | $0.0028/M(cache miss 的 1/50,2026-04-26 调整) |
| 代码能力 | 未公开 SWE-bench 官方数据,社区评测优于 Flash-Lite 上代 | 未公开官方数据,社区测试与 Gemini 3.1 Flash-Lite 同档或略弱 |
| 发布日期 | 2026-03-03 | 2026-04-24 |
| ofox model id | google/gemini-3.1-flash-lite-preview | deepseek/deepseek-v4-flash |
DeepSeek 单次推理只激活 13B 参数,算力消耗比 Gemini 3.1 Flash Lite 低一个量级,这是它价格的物理基础。代价是工具调用 schema 遵守、长上下文细节召回、复杂代码生成这几项都要弱一截。
Gemini 3.1 Flash Lite 没披露参数量,从延迟和价格反推单次推理消耗大约是 DeepSeek 的 3-4 倍,多花的算力换来更稳的 instruction following 和原生多模态。
价格对决:跑一万次 Agent 循环要花多少
光看每百万 token 价格没意义,得套到真实工作负载里。
场景设定:一个客服 Agent,每个 session 平均 12 轮对话,每轮:
- input: 3,000 token(system prompt 1,500 + 工具定义 800 + 对话历史 + 当前消息 700)
- output: 800 token(思考 + 工具调用 + 回复)
- 跑一万个 session
不带 prompt cache:
| 项目 | Gemini 3.1 Flash Lite | DeepSeek V4 Flash |
|---|---|---|
| 单次循环 input | 36,000 token | 36,000 token |
| 单次循环 output | 9,600 token | 9,600 token |
| 单次 input 费用 | $0.0090 | $0.0050 |
| 单次 output 费用 | $0.0144 | $0.0027 |
| 单次总费用 | $0.0234 | $0.0077 |
| 一万次总费用 | $234 | $77 |
DeepSeek 已经便宜 3 倍。
带 prompt cache(system prompt + 工具定义 = 2,300 token 固定不变,每轮都命中缓存):
| 项目 | Gemini 3.1 Flash Lite | DeepSeek V4 Flash |
|---|---|---|
| 缓存命中 input/轮 | 2,300 token @ $0.025/M | 2,300 token @ $0.0028/M |
| 非缓存 input/轮 | 700 token @ $0.25/M | 700 token @ $0.14/M |
| 单次会话 input 费用 | $0.0028 | $0.00125 |
| 单次会话 output 费用 | $0.0144 | $0.0027 |
| 单次总费用 | $0.0172 | $0.0040 |
| 一万次总费用 | $172 | $40 |
差距拉到约 4.3 倍。两边 cache 都吃满后,DeepSeek 的优势主要来自输出价差($1.50 vs $0.28,5.4 倍)以及 cache hit 9 倍价差($0.025 vs $0.0028)。
换一个更典型的 Agent 工作流:system prompt 8K、工具定义 3K、RAG 注入 5K、对话历史 5K,每轮 21K input + 1.5K output,跑 12 轮一会话。DeepSeek V4 Flash 带 cache 跑一万次约 $222,Gemini 3.1 Flash Lite 带 cache 约 $603。
5.4 倍的输出价差叠加约 9 倍的 cache hit 价差,复利就是这么算出来的。
Agent 循环里的真实表现
价格便宜不等于能用。把 Agent 跑起来才知道。
工具调用稳定性
10 轮以上的 ReAct 循环,模型需要稳定输出符合 schema 的 JSON tool call。两个模型实测(基于公开评测和社区报告):
| 指标 | Gemini 3.1 Flash Lite | DeepSeek V4 Flash |
|---|---|---|
| JSON 格式错误率 | 约 0.4% | 约 1.8% |
| 错误调用 schema 比例 | 约 0.6% | 约 2.3% |
| 10 轮以上循环完成率 | 约 96% | 约 88% |
DeepSeek V4 Flash 在长 ReAct 循环里偶尔会跑偏,最常见的是重复调同一个工具、把 JSON 字段名拼错。Gemini 3.1 Flash Lite 出这类问题的频率明显低。
实战处理也简单:DeepSeek 这边加一层 schema 校验 + 自动重试,单次循环平均多花 1-2 次调用,总账依然比 Gemini 便宜。再不济,关键步骤切到 Gemini,其余继续走 DeepSeek。
OpenClaw 这类 Agent 框架自带 schema 修复和重试,套上之后两个模型的差距缩到可以接受。
延迟
| 指标 | Gemini 3.1 Flash Lite | DeepSeek V4 Flash |
|---|---|---|
| TTFT(首 token 延迟) | 450-700ms | 350-550ms |
| 输出速度 | 180-220 tok/s | 200-260 tok/s |
| 1K output 完成时间 | 约 5.5s | 约 4.5s |
DeepSeek 稍快,激活参数少的红利。Gemini 这边走 Google 全球 PoP 节点,跨区域用户的延迟尾部更稳。
长上下文召回
各塞 800K token 进去,问最前面 5% 区间一个具体事实:
- Gemini 3.1 Flash Lite:92% 召回
- DeepSeek V4 Flash:83% 召回
DeepSeek 在 200K 以下基本看不出差距,超过 500K 之后掉准是肉眼可见的。Gemini 整条曲线更平。
一般 Agent 单 session 很少真冲到 500K,这点差距不致命。做长文档分析 Agent 或者要跨多文件的代码 Agent 才要小心,那种场景 Gemini 更稳。
多模态:决定性差异
DeepSeek V4 Flash 支持文本+图像输入,没有原生视频和音频通道,PDF 解析也不在官方主推之列。Gemini 3.1 Flash Lite 原生覆盖文本+图像+视频+音频+PDF。
如果 Agent 任务里有下面任一环节,直接锁定 Gemini:
- 视频帧内容理解,监控片段或教学视频摘要(DeepSeek 不支持)
- 音频转写后理解(DeepSeek 不支持原生音频,需外接 ASR,流程会断成两段)
- PDF 财报、合同里的图表解析(Gemini 原生吃 PDF,DeepSeek 需要先 OCR)
- 看截图判断 UI 状态、表单字段识别(两者都支持图像,但 Gemini 在 UI 截图细节、长文档版面上的实测稳定性更高)
Gemini 3.1 Flash Lite 处理图片按 token 计费,一张 1080p 截图约 765 token,单张约 $0.0002,比”视觉模型 + LLM 串联”那种老办法便宜很多。
Agent 里非文本任务占比怎么处理?纯图像识别可以试着先走 DeepSeek 看是否够用,质量不达标再切 Gemini;含视频、音频、PDF 的链路直接全部走 Gemini,省得维护两套调用逻辑。
高并发实战配置
200 路并发是常见目标。客服系统、批量分析、多用户 Agent 服务都要扛到这个量级。两个模型在并发场景各有各的坑。
Gemini 3.1 Flash Lite
- Google 官方 API 默认 RPM 360(按账户层级),通过 ofox 中转后聚合配额,单 Key 跑 200 并发没问题
- 长输出场景(>4K output)偶尔会触发 thinking budget 超限,建议
thinking_budget显式设到 -1(dynamic)或具体数字 - 多模态请求体积大,TCP 连接复用很重要,HTTP/2 keep-alive 必开
DeepSeek V4 Flash
- 通过 ofox 中转后并发限制宽松,200 路并发常态运行
- 高并发时偶发 cache miss 飙升(不同 session 的 system prompt 完全一致才能命中),建议 system prompt 严格固定,所有可变内容塞到 user message 里
- MoE 模型在 burst 流量下偶尔会有 500-800ms 的尖峰延迟,加 timeout 重试
通过 ofox 同时接两个
from openai import OpenAI
client = OpenAI(
base_url="https://api.ofox.ai/v1",
api_key="sk-ofox-xxx",
)
def call_agent(messages, tools, task_type="text"):
model = (
"google/gemini-3.1-flash-lite-preview"
if task_type in ("multimodal", "code", "long-context")
else "deepseek/deepseek-v4-flash"
)
return client.chat.completions.create(
model=model,
messages=messages,
tools=tools,
temperature=0.2,
)
OpenAI SDK 兼容,两个模型同一套调用代码,只换 model 字符串。如果之前用过 DeepSeek V4 API 接入指南 或 Gemini 3.1 Pro API 国内接入完全指南 写过单模型版本,迁移过来基本不用改业务代码。
何时选哪个
把决策摊开:
| 场景 | 推荐 | 原因 |
|---|---|---|
| 高频 RAG 问答(每天 10 万+ 次) | DeepSeek V4 Flash | 月省 1500+ 美元 |
| 多模态 Browser Agent | Gemini 3.1 Flash Lite | UI 截图理解更稳 |
| 代码生成 / 修改 Agent | Gemini 3.1 Flash Lite | 代码任务实测稳定性高于 DeepSeek V4 Flash |
| 客服多轮对话(纯文本) | DeepSeek V4 Flash | cache 命中后单次 < $0.005 |
| 长文档分析(>200K 上下文) | Gemini 3.1 Flash Lite | 长上下文召回稳 |
| 工具调用 ≥10 步的复杂 Agent | Gemini 3.1 Flash Lite | schema 遵守率高,重试少 |
| 批量数据分类 / 摘要 | DeepSeek V4 Flash | 任务简单,便宜碾压 |
| 中英混合的客户邮件处理 | DeepSeek V4 Flash | 中文优化好,比 Gemini 更自然 |
实际操作走 80/20:流量大头切到 DeepSeek V4 Flash,月账单会立刻看见变化;多模态、代码、复杂工具链这些关键节点留在 Gemini 3.1 Flash Lite。两个一起跑的总成本通常比纯 Gemini 便宜 60% 以上,比纯 DeepSeek 又多了几个能力上的兜底。
完整选型逻辑可以参考 2026 大模型排行榜与选型指南,里面有更多维度的横向对比。
报错排查
两个模型常见的 Agent 循环报错,处理方式各不同:
- Gemini 3.1 Flash Lite:
MALFORMED_FUNCTION_CALL通常是工具 schema 描述太长或字段定义冲突,砍 description 长度、统一字段命名能修 - DeepSeek V4 Flash:
Function call validation failed多发于嵌套结构,加一层 schema validator + 单次重试基本能解决 - 两个模型共有:
context_length_exceeded直接看 tokenizer 输出,DeepSeek 用 cl100k 近似估算容易低估 5-8%,留好 buffer
更系统的错误处理见 Claude/OpenAI/Gemini/DeepSeek 模型特定报错排查手册。
怎么开始
如果之前完全没碰过这两个模型,建议步骤是:
- 注册 ofox.ai,充值 10 美元,拿一个 API Key
- 把现有 OpenAI SDK 代码的
base_url改成https://api.ofox.ai/v1 - 先把一个非关键链路切到
deepseek/deepseek-v4-flash,跑一周看账单和质量 - 把多模态 / 复杂 Agent 链路指向
google/gemini-3.1-flash-lite-preview - 写一个 router 按 task type 分发,灰度上线
两个模型走 ofox 中转,Google API 国内不通和 DeepSeek 官方单独注册两个麻烦都省了。如果之前用 Claude 长上下文 Agent 实战 里写过的那种 Agent 框架,业务代码改动不到 20 行。
便宜不等于差。Gemini 3.1 Flash Lite 给你多模态和稳的工具调用,DeepSeek V4 Flash 把账单压到地板。两个都接,按场景调,比死磕一个划算。
来源:
- DeepSeek V4 Flash 官方定价 / OpenRouter
- Gemini Developer API pricing — Google AI for Developers
- ofox.ai 模型列表 / llms-full.txt
- ofox.ai/blog/deepseek-api-pricing-guide-2026


