DeepSeek V4 到底发了什么？

2026 年 4 月 24 日发布的预览版，两个变体：V4-Pro（1.6T 总参 / 49B 激活）和 V4-Flash（284B 总参 / 13B 激活），都是 MoE。统一支持 1M 上下文、三档推理模式（non-think / think-high / think-max），权重以 Apache 2.0 在 Hugging Face 开源。

API 真的已经上线了？

是的，DeepSeek 官方 API 同步上线。base_url 不变，只要把 model 换成 deepseek-v4-pro 或 deepseek-v4-flash。支持 OpenAI ChatCompletions 和 Anthropic 两种协议。旧的 deepseek-chat 和 deepseek-reasoner 会在 2026 年 7 月 24 日下线（目前都路由到 deepseek-v4-flash）。

和 Kimi K2.6 比谁强？

各有输赢。V4-Pro 在 Codeforces（3206）、LiveCodeBench（93.5）、中文 SimpleQA（84.4）上领先，Arena Code 代码榜排第 3（1,456）；K2.6 排第 2（1,529）。K2.6 在 SWE-Bench Pro（58.6 vs 55.4）和 HLE w/tools（54.0 vs 48.2）上领先。简单说：纯代码生成和中文场景选 V4，代码库级任务选 K2.6。

ofox 什么时候能用？

ofox 正在第一时间接入 V4-Pro 和 V4-Flash，很快会出现在 ofox.ai/models 列表里。现在还需要 DeepSeek V4 可以直接用官方 API；ofox 上目前能用的是 deepseek/deepseek-v3.2。

Apr 24, 2026

deepseekdeepseek-v4模型发布开源benchmark

DeepSeek V4 发布：1.6T 开源 MoE，1M 上下文，Apache 2.0——价格只有 GPT-5.5 的零头

先说结论 — DeepSeek 挑了 OpenAI 发 GPT-5.5 的同一天发 V4 预览版。1.6T Pro + 284B Flash，都给 1M 上下文，权重直接 Apache 2.0 开源，API 当天上线。V4-Pro 输出单价 $3.48，只有 GPT-5.5（$30）的 1/8.6，Opus 4.7（$75）的 1/21。Codeforces 拿到 3206，超过 GPT-5.4。ofox 正在第一时间接入。

这次 DeepSeek 到底发了什么

官方推文和 API 文档合起来能确认的事实：

两个变体：deepseek-v4-pro（1.6T 总参 / 49B 激活）和 deepseek-v4-flash（284B 总参 / 13B 激活），都是 MoE。
1M 上下文，两个版本统一，max output 384K。
双模式：Thinking / Non-Thinking，三档推理强度（high、max，以及非思考）。
Apache 2.0 开源——V3 是 MIT，V4 升级到 Apache 2.0，商业部署的专利保护更清晰。
API 同步上线。base_url 不变，改 model name 就行。兼容 OpenAI ChatCompletions 和 Anthropic 两种协议。
旧模型名淘汰：deepseek-chat 和 deepseek-reasoner 在 2026 年 7 月 24 日下线，目前都路由到 deepseek-v4-flash。

发布时间不是偶然。OpenAI 同一天发 GPT-5.5——DeepSeek 需要一个”开源 1M 上下文 MoE 极致便宜”的叙事不会被”闭源大涨价”盖过去的时间窗口。同天发就是主动分掉媒体注意力。

架构：真正值得注意的部分

V4 引入了一套混合注意力机制：Compressed Sparse Attention (CSA) + Heavily Compressed Attention (HCA)，搭配 Manifold-Constrained Hyper-Connections (mHC) 做残差信号传播和 Muon 优化器做训练稳定性。在 1M 上下文下的净效果：

单 token 推理 FLOPs 只有 V3.2 的 27%
KV cache 只有 V3.2 的 10%

这才是真正的效率故事。长上下文推理最大的成本在 KV cache，V4 直接砍到十分之一——这是开源模型能把 1M 上下文做成普惠服务的关键。预训练用了 32T+ tokens，FP4 + FP8 混合精度——MoE expert 用 FP4，其余大部分用 FP8。

Flash 不是 Pro 的裁剪版，是单独训练的 284B / 13B MoE。Flash-Max（最大推理强度）在大多数 benchmark 上接近 Pro 水平，但服务成本低得多。

Arena Code 榜单

Arena AI 的代码榜直接把 V4-Pro Thinking 放到了开源模型第 3：

Code Arena 开源模型榜单：DeepSeek V4 Pro Thinking 排名第 3，1,456 分

来源：Arena AI Code 榜单，2026 年 4 月 24 日

排名	模型	Elo
1	GLM-5.1	1,534
2	Kimi-K2.6	1,529
3	DeepSeek-V4 Pro（Thinking）	1,456
4	GLM-4.7	1,440
12	DeepSeek-V3.2（Thinking）	1,368

V3.2 → V4-Pro 之间拉开了 88 分 Elo——差不多等于榜单上第 3 到第 13 的差距。这是真正的代际跳跃，不是小修小补。

但要诚实：V4-Pro 仍然落后 K2.6 73 分 Elo。代码榜上它排第 3，不是第 1。

完整 benchmark 对比

DeepSeek 放出了完整的横评，对手是 K2.6、GLM-5.1、Opus 4.6、GPT-5.4、Gemini 3.1 Pro：

DeepSeek V4-Pro Max 与 V4-Flash Max 对比 K2.6 Thinking、GLM-5.1 Thinking、Opus 4.6 Max、GPT-5.4 xHigh、Gemini 3.1 Pro High 的完整 benchmark

来源：DeepSeek V4 技术报告，2026 年 4 月 24 日

V4-Pro 领先的场景：

Benchmark	V4-Pro Max	K2.6 Thinking	Opus 4.6	GPT-5.4	Gemini 3.1 Pro
Chinese-SimpleQA	84.4	75.9	76.2	76.8	85.9
LiveCodeBench	93.5	89.6	88.8	—	91.7
Codeforces（Elo）	3206	—	—	3168	3052
IMOAnswerBench	89.8	86.0	75.3	91.4	81.0
Apex Shortlist	90.2	75.5	85.9	78.1	89.1

Codeforces 3206 是最硬的一个数字——比 GPT-5.4（xHigh）的 3168 还高。这是竞赛编程领域，之前一直被闭源旗舰把住。

中文 SimpleQA 84.4 也值得单独说：除 Gemini 3.1 Pro（85.9）之外，所有闭源和开源模型都被 V4 拉开明显差距。中文优先的产品第一次拿到了真正旗舰级的开源选项。

输给 K2.6 的场景：

Benchmark	V4-Pro	K2.6 Thinking
SWE-Bench Pro（Resolved）	55.4	58.6
SWE-Bench Multilingual	76.2	76.7
HLE w/tools	48.2	54.0
GPQA Diamond	90.1	90.5

SWE-Bench Pro 是最接近”读完真实开源项目源码 + 修掉一个 GitHub issue”的 benchmark。K2.6 赢 3 分——不大，但和 Arena Code 榜单的 73 Elo 差距方向一致。

输给闭源旗舰的场景：

MRCR 1M（长上下文召回）：83.5 vs Opus 4.6 的 92.9。Opus 在长上下文精确检索上仍然是王者。
CorpusQA 1M：62.0 vs Opus 71.7。同上。
GDPval-AA（Elo）：1554 vs GPT-5.4 的 1674 和 Opus 的 1619。经济价值交付上闭源还是领先。
HLE（不带工具）：37.7 vs Gemini 3.1 Pro 的 44.4。

Flash-Max 的表现值得单说：

V4-Flash-Max 在 MMLU-Pro 拿 86.2（Pro 87.5）、LiveCodeBench 91.6（Pro 93.5）、SWE-Pro 52.6（Pro 55.4）。大部分 benchmark 上和 Pro 只差 1~3 分——但成本差一个数量级。

定价：这才是真正改变游戏规则的地方

DeepSeek 官方定价：

模型	输入（未命中）	输入（命中缓存）	输出
`deepseek-v4-flash`	$0.14 / M	$0.028 / M	$0.28 / M
`deepseek-v4-pro`	$1.74 / M	$0.145 / M	$3.48 / M

横向对比（每百万 token 输出价）：

模型	输入	输出
DeepSeek V4-Pro	$1.74	$3.48
Kimi K2.6（非思考）	$1.40	$5.60
GPT-5.5	$5.00	$30.00
Claude Opus 4.7	$15.00	$75.00

V4-Pro 输出比 GPT-5.5 便宜 8.6 倍，比 Opus 4.7 便宜 21 倍。Flash 输出 $0.28——基本等于免费。

这是本次发布最大的故事。1M 上下文 + Codeforces-3200 级推理 + 开源权重，现在的预算只要过去跑中端对话 API 的钱。

社区反馈

首日开源圈和研究圈的集中关注点：

“Apache 2.0 是真正的升级”。V3 是 MIT，V4 升到 Apache 2.0——商业部署的专利保护更清晰。对企业用户这是比数字更重要的变化。
“中文 SimpleQA 84.4 是一记警钟”。除 Gemini 3.1 Pro，所有其他模型被拉开明显差距。中文优先的应用现在第一次拿到了真正旗舰级的开源选项。
“SWE-Pro 的差距比榜单显示的小”。K2.6 在 SWE-Pro 领先 3 分，但 V4 在 LiveCodeBench 和 Codeforces 反超。短代码生成 vs 长周期代码库修复——两个不同的能力分叉。
“1M 上下文能用，但不是 Opus 级”。MRCR 和 CorpusQA 显示 Opus 4.6 在长上下文精确检索上仍领先。V4 的胜利在效率（10% KV cache），不在绝对召回质量。

通过 ofox 使用（即将）

ofox 当前提供的是 deepseek/deepseek-v3.2。V4-Pro 和 V4-Flash 正在第一时间接入，很快会出现在模型列表里。

如果你现在就要用 V4，可以直接调 DeepSeek 官方 API：

from openai import OpenAI

client = OpenAI(
    api_key="your-deepseek-key",
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "把这个 Rust 服务翻译成 Go，保留并发语义"}],
    extra_body={"thinking": {"type": "enabled"}}
)
print(response.choices[0].message.content)

ofox 接入后切换只需改一行——同一把 ofox key、base_url 仍然是 https://api.ofox.ai/v1，model 改成 deepseek/deepseek-v4-pro 或 deepseek/deepseek-v4-flash 即可。还没有 ofox key？去 ofox.ai 注册——一把 key 之后就能同时覆盖 V4、GPT-5.5、Claude Opus 4.7、Kimi K2.6 等所有主流模型。

要不要换

换 V4-Pro 的理由：跑 Kimi K2.6 做中文任务、竞赛型代码生成、或 Codeforces 级别推理——中文 SimpleQA 和 Codeforces 的领先就是给这些场景准备的。

换 V4-Flash 的理由：目前在 $1~~2/M 输出价位跑任何东西。Flash-Max 在大部分知识类 benchmark 上和 Pro 只差 1~~3 分，但输出便宜 12 倍。

留在 K2.6 的理由：主力工作流是 SWE-Bench 类的代码库修复、高并发 agent 工具调用、或任何 Arena Code 上那 73 分 Elo 差距能直接映射到你任务的场景。

留在闭源旗舰（GPT-5.5 / Opus 4.7）的理由：长上下文精确检索（Opus MRCR 仍领先）、GDPval 级知识工作（GPT-5.4 仍领先）、或 agentic 终端自动化（GPT-5.5 Terminal-Bench 82.7% 自成一档）。

DeepSeek V4 发布：1.6T 开源 MoE，1M 上下文，Apache 2.0——价格只有 GPT-5.5 的零头

这次 DeepSeek 到底发了什么

架构：真正值得注意的部分

Arena Code 榜单

完整 benchmark 对比

定价：这才是真正改变游戏规则的地方

社区反馈

通过 ofox 使用（即将）

要不要换

延伸阅读

相关文章

GPT-5.5 发布：自 GPT-4.5 之后首次完整重训，100 万 token 上下文，涨价一倍

Claude/OpenAI/Gemini/DeepSeek 模型特定报错排查手册（2026）

DeepSeek V4 API 接入指南：万亿参数多模态模型抢先体验与国内调用攻略（2026）