Gemini 3.1 Flash Lite 和 DeepSeek V4 Flash 哪个便宜？

纯算 token 价，DeepSeek V4 Flash 完胜。输入 $0.14/M vs $0.25/M，输出 $0.28/M vs $1.50/M。输出价差 5.4 倍，cache hit 价差约 9 倍（$0.0028 vs $0.025），对 Agent 循环里大量工具调用 + 思考 token 的场景，两边都打 cache 月账单仍能差 3-4 倍。

那 Gemini 3.1 Flash Lite 还有什么用？

原生多模态（文本、图片、音频、视频、PDF）和明显更稳的代码、工具调用能力。要让 Agent 解析视频帧、做语音输入理解、直接读 PDF，DeepSeek V4 Flash 都没有原生通道。图像两者都能吃，但 Gemini 在 UI 截图细节和长文档版面上更稳。纯文本 Agent 循环走 DeepSeek，含视频/音频/PDF 的多模态 Agent 走 Gemini。

两个模型上下文都是 1M token，能塞同样多内容吗？

理论容量一样，实际表现不一样。DeepSeek V4 Flash 是 284B MoE 激活 13B 参数，处理超长上下文时 attention 衰减比 Gemini 3.1 Flash Lite 更明显。超过 200K 之后，召回率 Gemini 还能压住 90%+，DeepSeek 会掉到 80% 左右。

ofox.ai 同时上架了这两个模型吗？

都在。model id 分别是 `google/gemini-3.1-flash-lite-preview` 和 `deepseek/deepseek-v4-flash`。一个 ofox API Key 同时调，写 router 函数按场景分发就行，不用维护两套账户。

DeepSeek V4 Flash 的 prompt cache 真有用吗？

对 Agent 循环来说，是降本的关键。命中缓存的 input 只收 $0.0028/M，是 cache miss 价格的 1/50（2026-04-26 起从发布时的 1/5 调整为发布价的 1/10，相对 cache miss 价从 1/5 拉到 1/50）。Agent 循环里 system prompt + 工具定义不变，每轮新增的只是 user message 和 tool result，缓存命中率能稳定在 70%+，等于把已经很低的 input 价再砍 90% 以上。

May 14, 2026

geminideepseekmodel-comparisonai-agentapi-guide

Gemini 3.1 Flash Lite vs DeepSeek V4 Flash：高并发 Agent 循环的低成本 API 对决（2026）

TL;DR — 纯算 token，DeepSeek V4 Flash 输出价是 Gemini 3.1 Flash Lite 的 1/5，cache hit 价是 1/9，两边都吃 cache 的纯文本 Agent 循环账单大约能砍 75%。但 Gemini 3.1 Flash Lite 看图、看 PDF、看视频、写代码都更稳，DeepSeek 这边主打纯文本（虽支持图像但视频/音频缺位）。最常见的方案是两个都接，按任务类型分发。

先说结论

两个模型不在同一条赛道。

DeepSeek V4 Flash 走的是极致便宜路线。$0.14 input / $0.28 output 每百万 token，prompt cache 命中后输入再砍到 $0.0028（cache miss 价的 1/50）。一次 12 轮、每轮 3K input + 800 output 的 Agent 循环，cache 命中后单次成本约 0.004 美元。

Gemini 3.1 Flash Lite 价格是 $0.25 input / $1.50 output，context cache 命中后 input 价砍到 $0.025/M（标准价的 1/10）。同样 12 轮的循环，带 cache 单次约 0.017 美元，是 DeepSeek（带 cache）的约 4 倍多。

差价买到什么？

原生看视频帧、看音频、解析 PDF（DeepSeek V4 Flash 支持文本+图像，视频/音频缺位）
代码能力更强一档（Google 未公开 SWE-bench 数据，但实测代码任务通过率明显高于 DeepSeek V4 Flash）
多步工具调用更稳，JSON schema 报错率低 3 倍以上

按场景分：高频 RAG、纯文本客服走 DeepSeek，月账单立刻看见效果；多模态 Browser Agent、代码生成走 Gemini。两类都有就两个一起接，router 一行 if-else 的事。

模型本质差异

两个 Flash 的设计哲学不一样。

维度	Gemini 3.1 Flash Lite	DeepSeek V4 Flash
架构	Dense + 蒸馏（Google 未披露具体参数）	MoE，284B 总参数 / 13B 激活
上下文	1M token	1M token
多模态	原生（文本+图+视频+音频+PDF）	文本+图像（无视频/音频）
输入价格	$0.25/M	$0.14/M
输出价格	$1.50/M（含 thinking）	$0.28/M
Cache hit input	$0.025/M（标准价的 1/10）	$0.0028/M（cache miss 的 1/50，2026-04-26 调整）
代码能力	未公开 SWE-bench 官方数据，社区评测优于 Flash-Lite 上代	未公开官方数据，社区测试与 Gemini 3.1 Flash-Lite 同档或略弱
发布日期	2026-03-03	2026-04-24
ofox model id	`google/gemini-3.1-flash-lite-preview`	`deepseek/deepseek-v4-flash`

DeepSeek 单次推理只激活 13B 参数，算力消耗比 Gemini 3.1 Flash Lite 低一个量级，这是它价格的物理基础。代价是工具调用 schema 遵守、长上下文细节召回、复杂代码生成这几项都要弱一截。

Gemini 3.1 Flash Lite 没披露参数量，从延迟和价格反推单次推理消耗大约是 DeepSeek 的 3-4 倍，多花的算力换来更稳的 instruction following 和原生多模态。

价格对决：跑一万次 Agent 循环要花多少

光看每百万 token 价格没意义，得套到真实工作负载里。

场景设定：一个客服 Agent，每个 session 平均 12 轮对话，每轮：

input: 3,000 token（system prompt 1,500 + 工具定义 800 + 对话历史 + 当前消息 700）
output: 800 token（思考 + 工具调用 + 回复）
跑一万个 session

不带 prompt cache：

项目	Gemini 3.1 Flash Lite	DeepSeek V4 Flash
单次循环 input	36,000 token	36,000 token
单次循环 output	9,600 token	9,600 token
单次 input 费用	$0.0090	$0.0050
单次 output 费用	$0.0144	$0.0027
单次总费用	$0.0234	$0.0077
一万次总费用	$234	$77

DeepSeek 已经便宜 3 倍。

带 prompt cache（system prompt + 工具定义 = 2,300 token 固定不变，每轮都命中缓存）：

项目	Gemini 3.1 Flash Lite	DeepSeek V4 Flash
缓存命中 input/轮	2,300 token @ $0.025/M	2,300 token @ $0.0028/M
非缓存 input/轮	700 token @ $0.25/M	700 token @ $0.14/M
单次会话 input 费用	$0.0028	$0.00125
单次会话 output 费用	$0.0144	$0.0027
单次总费用	$0.0172	$0.0040
一万次总费用	$172	$40

差距拉到约 4.3 倍。两边 cache 都吃满后，DeepSeek 的优势主要来自输出价差（$1.50 vs $0.28，5.4 倍）以及 cache hit 9 倍价差（$0.025 vs $0.0028）。

换一个更典型的 Agent 工作流：system prompt 8K、工具定义 3K、RAG 注入 5K、对话历史 5K，每轮 21K input + 1.5K output，跑 12 轮一会话。DeepSeek V4 Flash 带 cache 跑一万次约 $222，Gemini 3.1 Flash Lite 带 cache 约 $603。

5.4 倍的输出价差叠加约 9 倍的 cache hit 价差，复利就是这么算出来的。

Agent 循环里的真实表现

价格便宜不等于能用。把 Agent 跑起来才知道。

工具调用稳定性

10 轮以上的 ReAct 循环，模型需要稳定输出符合 schema 的 JSON tool call。两个模型实测（基于公开评测和社区报告）：

指标	Gemini 3.1 Flash Lite	DeepSeek V4 Flash
JSON 格式错误率	约 0.4%	约 1.8%
错误调用 schema 比例	约 0.6%	约 2.3%
10 轮以上循环完成率	约 96%	约 88%

DeepSeek V4 Flash 在长 ReAct 循环里偶尔会跑偏，最常见的是重复调同一个工具、把 JSON 字段名拼错。Gemini 3.1 Flash Lite 出这类问题的频率明显低。

实战处理也简单：DeepSeek 这边加一层 schema 校验 + 自动重试，单次循环平均多花 1-2 次调用，总账依然比 Gemini 便宜。再不济，关键步骤切到 Gemini，其余继续走 DeepSeek。

OpenClaw 这类 Agent 框架自带 schema 修复和重试，套上之后两个模型的差距缩到可以接受。

延迟

指标	Gemini 3.1 Flash Lite	DeepSeek V4 Flash
TTFT（首 token 延迟）	450-700ms	350-550ms
输出速度	180-220 tok/s	200-260 tok/s
1K output 完成时间	约 5.5s	约 4.5s

DeepSeek 稍快，激活参数少的红利。Gemini 这边走 Google 全球 PoP 节点，跨区域用户的延迟尾部更稳。

长上下文召回

各塞 800K token 进去，问最前面 5% 区间一个具体事实：

Gemini 3.1 Flash Lite：92% 召回
DeepSeek V4 Flash：83% 召回

DeepSeek 在 200K 以下基本看不出差距，超过 500K 之后掉准是肉眼可见的。Gemini 整条曲线更平。

一般 Agent 单 session 很少真冲到 500K，这点差距不致命。做长文档分析 Agent 或者要跨多文件的代码 Agent 才要小心，那种场景 Gemini 更稳。

多模态：决定性差异

DeepSeek V4 Flash 支持文本+图像输入，没有原生视频和音频通道，PDF 解析也不在官方主推之列。Gemini 3.1 Flash Lite 原生覆盖文本+图像+视频+音频+PDF。

如果 Agent 任务里有下面任一环节，直接锁定 Gemini：

视频帧内容理解，监控片段或教学视频摘要（DeepSeek 不支持）
音频转写后理解（DeepSeek 不支持原生音频，需外接 ASR，流程会断成两段）
PDF 财报、合同里的图表解析（Gemini 原生吃 PDF，DeepSeek 需要先 OCR）
看截图判断 UI 状态、表单字段识别（两者都支持图像，但 Gemini 在 UI 截图细节、长文档版面上的实测稳定性更高）

Gemini 3.1 Flash Lite 处理图片按 token 计费，一张 1080p 截图约 765 token，单张约 $0.0002，比”视觉模型 + LLM 串联”那种老办法便宜很多。

Agent 里非文本任务占比怎么处理？纯图像识别可以试着先走 DeepSeek 看是否够用，质量不达标再切 Gemini；含视频、音频、PDF 的链路直接全部走 Gemini，省得维护两套调用逻辑。

高并发实战配置

200 路并发是常见目标。客服系统、批量分析、多用户 Agent 服务都要扛到这个量级。两个模型在并发场景各有各的坑。