国产开源大模型 2026 全景:Qwen3.6 / GLM-5.1 / Kimi K2.6 / DeepSeek V4 / MiniMax M2.7 五雄并起
TL;DR — 2026 年 4 月,中国五家头部厂商在一个月内集中发布新一代大模型,其中 GLM-5.1、Kimi K2.6、Qwen3.6 系列(开源版)走开源权重路线,DeepSeek V4 Preview 和 MiniMax M2.7 走 API 优先。这不是巧合:开源国产首次同时在编程(GLM-5.1 达 Claude Opus 4.6 的 94.6%)、Agent(Kimi K2.6 SWE-Bench Pro 58.6%)、长上下文(Qwen3.6-Plus 1M tokens 默认)三条线上挑战闭源旗舰。本文按场景拆五雄定位。
一周时间表:4 月发生的事按日列出来
- 4 月 2 日 — 阿里发布 Qwen3.6-Plus,1M token 上下文默认开启,闭源 API
- 4 月 7 日 — 智谱开源 GLM-5.1,MIT 协议,编程能力达 Claude Opus 4.6 的 94.6%
- 4 月 16 日 — 阿里把 Qwen3.6-35B-A3B 以 Apache 2.0 放上 Hugging Face
- 4 月 20 日 — Moonshot 开源 Kimi K2.6(1T MoE / 32B active);同日阿里发 Qwen3.6-Max-Preview
- 4 月 22 日 — Qwen3.6-27B 跟进开源
- 4 月 24 日 — DeepSeek V4 Preview 上线,V4-Pro 1.6T total / 49B active,V4-Flash 284B / 13B active
MiniMax M2.7 早一个多月(3 月 18 日)上线,但 4 月的对比叙事离不开它,因此一并纳入。
五雄速览表
| 模型 | 厂商 | 发布日 | 总参数 / 激活 | 上下文 | 协议 / 开源 | 一句话定位 |
|---|---|---|---|---|---|---|
| Qwen3.6-Plus | 阿里 | 2026-04-02 | 未公开 | 1M | 闭源 API | 长上下文工程 Agent |
| Qwen3.6-Max-Preview | 阿里 | 2026-04-20 | 未公开 | 260K | 闭源 API | 旗舰 benchmark 冠军 |
| Qwen3.6-35B-A3B | 阿里 | 2026-04-16 | 35B / 3B(MoE) | 256K | Apache 2.0 | 中等推理成本社区款 |
| Qwen3.6-27B | 阿里 | 2026-04-22 | 27B(稠密) | 256K | Apache 2.0 | 单卡可跑入门款 |
| GLM-5.1 | 智谱(Z.ai) | 2026-04-07 | 未完全披露 | 200K | MIT 开源 | 编程接近 Claude Opus |
| Kimi K2.6 | Moonshot | 2026-04-20 | 1T / 32B(MoE) | 256K | Modified MIT | Agent Swarm 多步编排 |
| DeepSeek V4-Pro | DeepSeek | 2026-04-24 | 1.6T / 49B(MoE) | 1M | 闭源 API(预览) | 综合旗舰 |
| DeepSeek V4-Flash | DeepSeek | 2026-04-24 | 284B / 13B(MoE) | 1M | 闭源 API(预览) | 低延迟高吞吐 |
| MiniMax M2.7 | MiniMax | 2026-03-18 | 230B / 10B(MoE) | 200K | 半开放 API | 性价比之王 |
下面按厂商拆。
Qwen3.6 系列:阿里”全栈打法”,闭源做企业,开源养社区
Qwen3.6 的关键不是某一个模型,而是阿里用一套品牌名同时打了四张牌。4 月 2 日先放出闭源的 Qwen3.6-Plus,主打企业级 agentic 编码和 1M token 默认上下文,直接对标 Claude Sonnet 4.6 的 repo 级理解能力;4 月 16 日和 22 日分别放出 Qwen3.6-35B-A3B(MoE,3B 激活)和 Qwen3.6-27B(稠密),都是 Apache 2.0;4 月 20 日 Qwen3.6-Max-Preview 上线,260K 上下文,在 SWE-bench Pro、Terminal-Bench 2.0、SciCode 等六个 agentic 编码 benchmark 拿第一。
这套打法的含义:阿里把”商业产品 + 社区开源”分了赛道。要 SLA、要 1M 上下文、要企业部署找 Plus / Max;要本地跑、要研究、要二次微调拉 35B-A3B / 27B。两条路共用 Qwen3 tokenizer 和工具调用格式,意味着从开源切到闭源不用重写 prompt。
如果只关注 Qwen3 API 的接入流程,已经写过 通义千问 Qwen API 接入指南,本文不重复。
GLM-5.1:把 Claude Opus 4.6 编程性能逼到 94.6%,还全华为昇腾训练
GLM-5.1 这一代最具公关效应的事实有两个:编程能力达到 Claude Opus 4.6 的 94.6%(智谱官方与 WaveSpeed、DigitalApplied 测试一致),以及训练算力全程华为昇腾,没有 NVIDIA 卡参与。MIT 协议开源,商用零限制。
放在国产开源谱系里看,GLM-5.1 把开源和闭源的最大差距压到了一个相当窄的带宽。Claude Opus 4.6 当前的 API 单价远高于 GLM-5.1 在云厂商上的价格。对于编程为主、能容忍 4 个百分点差距的团队,GLM-5.1 是真的可以替代闭源旗舰的。
关于 GLM-5 系列的 API 接入和具体定价,详见 GLM-5 API 接入完全指南。GLM-5.1 的 API 路径和 GLM-5 完全一致,只需要把 model 字段换成 glm-5.1 即可。
Kimi K2.6:1T MoE 加上 Agent Swarm,把”开源 Agent”推到能交付完整产物
Kimi K2.6 不是一个对话模型,是一个原生 Agent 平台。Moonshot 在 4 月 20 日把它以 Modified MIT 开源:1T 总参数,32B 激活,原生多模态,自带 Agent Swarm 编排能力,可以同时调度 300 个领域子代理,在一次自主运行中执行最多 4000 步协调动作。
Agent Swarm 这一层是真正的代差。“模型会调工具”K2.5 就有了,K2.6 的差别是能把一个复杂任务拆成并行子任务,再把子任务结果合成一份成品。官方演示给的是三类完整交付物:研究报告、可运行网站、数据电子表格。
跑分上,K2.6 在 SWE-Bench Pro 拿到 58.6%,与 GPT-5.5 持平;Humanity’s Last Exam(带工具)拿到 54.0%,超过 Claude Opus 4.6;token 单价大约只有 GPT-5.5 的五分之一。
要看 K2.5 的编程实测和 Agent Swarm 实际用法可以参考 Kimi K2.5 编程能力实测 和 Kimi K2.5 Agent Swarm + 多模态 API 实战,K2.6 是同一套 API,差别在模型 ID。
DeepSeek V4 Preview:1.6T + 284B 双线策略,1M 上下文默认开启
DeepSeek 4 月 24 日上线 V4 Preview,几乎每个维度都重写了:参数量、注意力架构、训练方法。两个变体 deepseek-v4-pro(1.6T 总 / 49B 激活)和 deepseek-v4-flash(284B 总 / 13B 激活)同时开放 API,1M 上下文,384K 最大输出。
Pro 走复杂推理、agentic 编码、长上下文工程,Flash 走延迟敏感场景。值得注意的过渡安排:旧的 deepseek-chat 和 deepseek-reasoner 在 7 月 24 日下线,向后兼容期被映射到 deepseek-v4-flash 的非思考 / 思考模式上。
这是一个对国内开发者影响最大的发布。DeepSeek 一直是性价比标杆,V4 把价格带保持住的同时把上下文拉到了 1M。这是闭源旗舰里第一家把 1M 默认开启、而不是按溢价档收费的。
具体接入参数和迁移注意事项见 DeepSeek V4 API 接入指南。
MiniMax M2.7:用 10B 激活拿到接近 GLM-5.1 的成绩
M2.7 不是 4 月发布,是 3 月中旬,但是 4 月所有横评里几乎都被拉来对比。原因很简单:在 Atlas Cloud 的 SWE-Bench Pro 测试里,M2.7 拿到 56.22%,是 GLM-5.1 的 94%;但只激活 10B 参数,单价约为 $0.30 / M 输入 token,大约是 GLM-5.1 的五分之一。
这是一个被低估的事实:MoE 架构走到 M2.7 这一代,激活参数和实际能力的解耦已经相当成熟。十分之一的激活规模拿到九成性能,意味着部署成本曲线被压平。对于跑高并发对话、文档分类、批量数据处理这类不要求极致推理深度的工作负载,M2.7 是当前性价比最高的选择。
关于 M2.7 的具体能力和 TTS / 多模态 API 用法,见 MiniMax M2.7 编程实测 + TTS 语音 API 实战 和 MiniMax 多模态 API 全攻略。
怎么选:四个真实场景的对应
不要按”哪个模型最强”选,按你的工作负载选。
场景一:本地部署 / 私有云推理。 优先 Qwen3.6-35B-A3B(MoE,3B 激活,单台 80GB 卡可跑)或 Qwen3.6-27B(稠密,更易上量)。如果有更高编程要求且能接受 200B+ 部署成本,自己跑 GLM-5.1 权重。Kimi K2.6 1T MoE 本地跑成本过高,除非有 H100 集群,否则不实际。
场景二:编程 Agent 为主,调 API。 GLM-5.1 是性价比 + 性能甜点。如果预算允许,Qwen3.6-Plus 因为 1M 默认上下文,在 repo 级理解上更不容易掉精度。Kimi K2.6 适合需要多步骤自主交付的场景(研究 / 自动生成完整代码库)。
场景三:客服 / 文档处理 / 高并发对话。 MiniMax M2.7 性价比最强。如果想要更稳定的延迟,DeepSeek V4-Flash 是当前所有 API 里 1M 上下文 + 低单价的最佳组合。
场景四:综合应用,多个工作负载混合。 没有单一最优解。常见做法是:编程用 GLM-5.1 / Claude Sonnet 4.6,对话用 MiniMax M2.7 或 DeepSeek V4-Flash,长上下文工程用 Qwen3.6-Plus 或 DeepSeek V4-Pro,Agent 编排用 Kimi K2.6。这就引出下一个问题:怎么避免维护五套 SDK。
一站式调用:避免五个 Key、五种 SDK、五张账单
五雄并起的副作用是 API 治理变复杂。每家都自定义了一套鉴权头、错误码、SDK 包名,迁移成本会随着模型数量线性涨。OpenAI 兼容的 AI API 聚合平台(如 ofox.ai)的价值在这里:一个 OpenAI 兼容的 endpoint,model 字段换名字就切换模型,结算合并到一张账单,不用为每家维护独立的客户端和监控。
需要做横评、A/B 测试、灰度切流的团队,这种方案的运维成本节省尤其明显。具体的迁移和对比参考 OpenRouter 替代方案:OfoxAI vs OpenRouter。
接下来值得关注的几个问题
写到这里,几个真正影响选型的悬念其实还没有答案,留给后续测:
- GLM-5.1 在长链路 Agent 任务上的稳定性 — 跑分接近 Claude Opus 4.6 不等于在 1000 步的真实 workflow 里同样稳定,需要在工程环境里跑一段时间才能下结论
- Qwen3.6-Plus 1M 上下文的有效衰减点 — 默认 1M 不等于 1M 全部可用,要看在 700K-900K 区间检索准确率掉多少
- DeepSeek V4 Preview 转 GA 的定价 — 当前是 preview 价格,正式定价可能调整,迁移规划要预留缓冲
- Kimi K2.6 Agent Swarm 的可观测性 — 300 个子代理并行调度的状态追踪和失败回滚目前文档很薄,工程化使用要自己补一层
这五个模型不会有一个”最强”的答案。但 4 月这一波集中发布把开源国产的能力下限抬高了一截。对国内开发者,结果是选型从”挑一个能用的将就”,变成了”按场景挑最合适的”。
数据来源:阿里云博客(Qwen3.6-Plus 发布稿)、Qwen 官方博客(Max-Preview)、Hugging Face Hub(Qwen3.6-35B-A3B / 27B 模型卡)、Z.ai / 智谱 GLM-5.1 开源公告、Hugging Face mlabonne GLM-5 评测、DeepSeek API Docs(V4 Preview 发布公告、changelog)、Moonshot Kimi K2.6 模型页、Atlas Cloud SWE-Bench Pro 横评(MiniMax M2.7)。所有版本号与发布日期截止 2026 年 5 月。


