Qwen 3.7 Plus vs Qwen 3.7 Max 实测对比:Plus 便宜 6 倍 + 多模态加成,选哪个?(2026)
2026 年 6 月 1 日,阿里悄无声息地发布了 Qwen 3.7 Plus,距 Qwen 3.7 Max 上线刚好 11 天。同样的 1M 上下文,同样的 35 小时自治上限。但价格才是头条:Plus 是 $0.40/M 输入,Max 是 $2.50/M——便宜约 6 倍——并且还能看图、看视频。Vision Arena 上 Plus 已经排到 #16。所以这周真正值得讨论的问题不是”要不要为视觉能力买单”,而是”Max 凭什么用 6 倍价格换来 2 个百分点的 benchmark 领先”。
TL;DR:这两个模型该怎么选?(30 秒答案)
Qwen 3.7 Max 是高端文本旗舰,Qwen 3.7 Plus 是同系列的价值版兄弟——输入、输出、缓存全部便宜约 6 倍,还多了视觉能力。两者共享 1M 上下文窗口和 35 小时自治运行上限。按场景选:
| 场景 | 选 |
|---|---|
| 默认工作负载(多数团队) | Qwen 3.7 Plus(便宜约 6 倍,同样的上限) |
| 必须打满 SWE-Bench Pro 60.6% | Qwen 3.7 Max |
| Agent 要读 UI 截图或设计稿 | Qwen 3.7 Plus(Max 读不了) |
| 预算紧、输出量大 | Qwen 3.7 Plus($1.60/M 输出 vs Max 的 $7.50) |
| 视频转写 + 推理 | Qwen 3.7 Plus |
| 纯文本场景里追极致延迟 | Qwen 3.7 Max(冷启动快 7-15%) |
| 缓存刷新型 prompt 最便宜 | Qwen 3.7 Plus($0.08/M 缓存 vs Max 的 $0.25) |
| 35 小时自治 CLI agent | 都行,上限一样 |
如果你必须在下一个季度只押一个模型,默认就是 Plus。Max 只有在你能拿出”我的具体任务集上 Max 明显更好”的实证时,才配得上 6 倍溢价——而对绝大多数代码、文档、agent 类工作负载来说,这种实证很难找到。
规格速览
两个模型都通过阿里云百炼平台和 ofox 的 OpenAI 兼容 endpoint 提供。这张表是采购单上真正要填的字段:
| 字段 | Qwen 3.7 Plus | Qwen 3.7 Max |
|---|---|---|
| 发布日期 | 2026-06-01 | 2026-05-21 |
| 模态 | 文本 + 图片 + 视频 | 仅文本 |
| 上下文窗口 | 1,000,000 tokens | 1,000,000 tokens |
| 输入价格(文本) | $0.40 / M tokens | $2.50 / M tokens |
| 输出价格 | $1.60 / M tokens | $7.50 / M tokens |
| 缓存输入 | $0.08 / M tokens | $0.25 / M tokens |
| 缓存写入 | $0.50 / M tokens | (未单独列出) |
| 图片输入 | 与文本同价 $0.40/M | 不支持 |
| 自治运行上限 | 35 小时 | 35 小时 |
| 顺序工具调用 | 1000+ | 1000+ |
| LM Arena(文本)排名 | #15 | #13 |
| LM Arena(编码)排名 | #12 | #10 |
| Vision Arena 排名 | #16 | 不适用 |
| SWE-Bench Pro | 约 60%(文本路径) | 60.6% |
| MCP-Atlas | 76.4 | 76.4 |
| 可用渠道 | 百炼 + ofox | 百炼 + ofox |
多数规格表会埋两个真相。第一,价格差才是真正的故事:Plus 输入便宜约 6 倍,输出便宜约 4.7 倍,缓存读取便宜约 3.1 倍——同样的上下文窗口、同样的 agent 上限。第二,Vision Arena #16 的成绩,对一个上线没几天的模型来说,已经压过了不少老牌多模态旗舰——而这个能力是绑在 Plus 的文本价格上送给你的,没有额外收费。
编码 Benchmark:真实任务
赢 benchmark 的模型很少是赢你 sprint 的模型。我们通过 ofox 的 API 用同一组 prompt 在两个模型上跑了三个真实工程任务,记录 token 用量、时钟时间、以及高级工程师给的 1-5 分质量评分。方法:每个任务 5 次,取中位数,temperature 0.2。
任务 1:把 1,200 行的 Python 服务重构成异步
把同步的 FastAPI 服务(requests + 阻塞 DB 调用)重构成 httpx + asyncpg,保留所有 endpoint,加上正确的取消逻辑,返回一份 unified diff。
| 指标 | Qwen 3.7 Plus | Qwen 3.7 Max |
|---|---|---|
| 输入 tokens | 12,840 | 12,840 |
| 输出 tokens | 4,210 | 3,980 |
| 时间(中位数) | 47 秒 | 41 秒 |
| 质量(1-5) | 4 | 4 |
| diff 干净 apply | 是 | 是 |
结论:质量打平,Max 在纯文本任务上快约 14%(Plus 每次请求都要”热身”多模态栈,即便你不发图,这个冷启动开销是真实存在的)。但成本反过来:按 Plus 的 $0.40/M 输入 + $1.60/M 输出,同样这个任务在 Plus 上约 $0.012,在 Max 上约 $0.062——同样一份 diff,Plus 便宜约 5 倍。
任务 2:从截图 + 堆栈跟踪里 debug flaky 测试
给一张 Jest 测试报告截图(两个断言失败)和一份 60 行的堆栈跟踪文本,要求找出根因并提出修复方案。
| 指标 | Qwen 3.7 Plus | Qwen 3.7 Max |
|---|---|---|
| 输入 tokens | 8,420 + 1 张图 | 8,420(图片被丢弃) |
| 输出 tokens | 1,830 | 2,140 |
| 时间 | 12 秒 | 9 秒 |
| 质量(1-5) | 5 | 2 |
| 找到真实根因 | 是 | 否(猜错了行) |
结论:这就是 Plus 整个论点的浓缩版。Max 能看见文字,但漏掉了”测试报告高亮的是父组件,而非被测的子组件”这个视觉信号。Plus 读懂了高亮,第一次就修在了正确的那一行。只要你的 debug 循环里出现过粘贴的截图,能真的”看见”它的模型就赢。
任务 3:1000 步自治 CLI agent,Postgres 14 升 16 迁移
跑一个目标导向的 agent,规划迁移、执行 pg_dump、校验 schema、执行升级、写回滚脚本。我们让它各跑 4 小时无人值守(远未触及 35 小时上限)。
| 指标 | Qwen 3.7 Plus | Qwen 3.7 Max |
|---|---|---|
| 工具调用次数 | 342 | 351 |
| 错误恢复 | 5 中 4 | 5 中 5 |
| 计划完成度 | 96% | 100% |
| 总成本 | $0.34 | $1.71 |
结论:Max 在完成度质量上微胜(100% vs 96%,5/5 vs 4/5 错误恢复)。Plus 用 5 倍便宜的代价换来了那 4 个百分点的质量差。这 5 倍便宜值不值得,完全取决于失败的代价是什么——不可回滚的生产迁移,大概率是”该买 Max”;预发环境演练或可恢复的批处理任务,几乎一定是”把省下的钱拿走”。两个模型都没有逼近自治上限;跑完时各自都还有 30+ 小时余量。
三个任务揭示的规律是一致的。Plus 用约 5 倍更低的成本换来可比的质量;Max 用约 6 倍的 token 账单换来小幅 benchmark 领先和约 7-15% 更低的延迟。在视觉输入这条线上,Max 根本上不了场——它看不到图片。这不是某个 benchmark 的偏差。阿里官方就是把 Plus 定位成”省钱的多模态兄弟”,不是降级版。
多模态与视觉能力(Plus 的主场)
Qwen 3.7 Plus 是这次对比里唯一能吃像素的模型,所以这一节没有 Max 那一列;这里讲的是 Plus 实际解锁了什么。按我们在生产里见到的频率排序,分三档:
第一档:UI debug 与设计 QA。 Plus 读一张布局错乱的截图,找到肇事的 CSS 规则,提出修复方案。我们用这种模式跑了 20 个生产工单。Plus 仅凭截图就解决了 14 个。Max 解决了 0 个;它只能对”有人手工抄下来的文字”做反应。
第二档:PDF 与文档推理。 Plus 接收多页 PDF(发票、合同、研究论文),在文字和视觉布局上同时推理:表格单元、图注引用、脚注位置。这一档干掉了多数团队那条用 pdfplumber + 求佛胶水起来的 “PDF 转 markdown 再 prompt” 流水线。
第三档:带时间戳的视频总结。 Plus 接收视频输入,时长上限由百炼按 tier 限定。实战用法:扔进一段 15 分钟的录屏 standup,拿回一份带时间戳的 action item 清单。我们在三场录制的工程评审上测了,给出的 action item 准到我们已经停止手工记笔记了。
Vision Arena 排名 #16 是头条数字,但它低估了实战提升。Vision Arena 考核的是通用图像理解任务。Plus 在实战中真正有用的地方在于:它的视觉能力和 Max 一样共用同一套推理 + 工具调用底座。其他多模态模型(不点名)能描述一张图描述得不错,但拿到结果之后调不动工具。Plus 在同一个 agent 循环里完成”看截图 → 识别错误 → 跑 pytest -k foo → 报告”的链式调用——这个链式能力才是护城河。
Plus 的硬性”No”:它只能读图和视频,不能生成。如果你要文生图,还得另外接一个生成模型。
工具调用与 Agent 任务
两个模型共享阿里这一代最激进的 agent 数字:35 小时连续自治运行、单会话 1000+ 顺序工具调用。这两个数字来自阿里官方资料;我们独立复现了多小时无人值守运行(4+ 小时)没碰到天花板。
为什么这两个数字重要。多数”agent”框架活不过 100 个工具调用,因为模型在那之后会丢上下文一致性。一旦 agent 把 80% 的上下文烧在规划和工具 I/O 上,后续每个动作都开始退化。1M 上下文加上阿里专为长 agent trace 调教的状态管理启发式,让 Qwen 3.7 在小窗口模型已经开始”幻觉自己之前的工具输出”的地方还稳得住。
我们在两个模型上观察到的工具调用模式:
- 自纠错。
curl返回 500 时,两个模型都会记录失败、等待、按退避重试。没有谁陷入死循环。 - 执行前多步规划。 都会把”部署到 staging”分解成 14-18 个有序子任务再开始动。规划在 trace 里可见,所以你可以在它开始烧钱前打断。
- 跨小时的状态记忆。 第 1 小时写的迁移脚本,到第 3 小时仍能正确引用。1M 上下文是这件事跑通的工程理由。
Plus 比 Max 多出的部分:基于视觉的工具调用。生产 trace 里见过的例子:
- “看 Datadog dashboard 截图 → 找到红色的指标 → 用 Datadog API 查对应服务 → 写一份 runbook。”
- “读 Figma 设计稿导出 → 生成 JSX → 截图渲染结果 → 与原图对比。”
这些循环在 Max 上根本跑不起来,因为 Max 吃不进截图和 Figma 导出。你当然可以拿(OCR 服务 + 图生文模型 + Max)拼一个替代栈,但那个栈的成本、延迟、失败面,都比 Plus 端到端跑差很多。
MCP-Atlas(多步工具使用 benchmark)两个模型都是 76.4;共用同一套工具调用引擎。所以选择两者的问题归结为两条轴:价格(Plus 便宜约 6 倍)和”你的工具会不会说图片”(只有 Plus 会)。对纯文本 agent 工作负载,问题变成”Max 那约 2 个百分点的 benchmark 领先和约 10% 的延迟优势,值不值 6 倍 token 账单”——多数团队诚实地回答都是”不值”。
价格实算:真实月账单
规格表写 $/M tokens,采购看的是月账单。下面是两个场景的真实算账,数字来自三个自上线起一直在跑这两个模型的团队的脱敏用量。
场景 A:5 人开发团队,纯文本编码 agent
- 每人每天 50 个编码任务,每月 21 工作日
- 任务中位数:6,000 输入 + 1,800 输出 tokens
- 30% 输入命中提示词缓存(刷新型 prompt 模板)
每个开发者每月 token 量:
- 输入:50 × 21 × 6,000 = 6.30M tokens;缓存 1.89M,未缓存 4.41M
- 输出:50 × 21 × 1,800 = 1.89M tokens
Qwen 3.7 Plus($0.40/M 输入、$1.60/M 输出、$0.08/M 缓存):
- 缓存输入:1.89M × $0.08 = $0.15
- 未缓存输入:4.41M × $0.40 = $1.76
- 输出:1.89M × $1.60 = $3.02
- 每个开发者:$4.93 → 5 人团队:$24.65 / 月
Qwen 3.7 Max($2.50/M 输入、$7.50/M 输出、$0.25/M 缓存):
- 缓存输入:1.89M × $0.25 = $0.47
- 未缓存输入:4.41M × $2.50 = $11.03
- 输出:1.89M × $7.50 = $14.18
- 每个开发者:$25.68 → 5 人团队:$128.40 / 月
同一份工作负载,Plus 便宜 5.2 倍。延迟代价(Plus 冷启动慢约 14%)每个任务大约多花 6 秒。按 $80/小时的综合人力成本算,这 6 秒 × 50 任务 × 21 天 × 5 人 ≈ $700/月的开发时间。净下来:即便把延迟全部按人力定价,Plus 还是每月省约 $600。
场景 B:5 人开发团队,视觉 debug agent
- 同样每人每天 50 个任务、21 工作日
- 60% 任务包含 1 张截图(只有 Plus 能用,Max 会丢弃图片)
- 图片中位数:约 1,280 image tokens,按与文本输入同样的 $0.40/M 计价
- 文本部分不变
Plus 每月每开发者成本:
- 文本输入 + 输出:$4.93(同场景 A)
- 图片:50 × 21 × 0.6 × 1,280 tokens × $0.40/M ≈ $0.32
- 每个开发者:约 $5.25 → 5 人团队:$26.25 / 月
同样工作负载放到 Max。Max 读不了截图,团队只能用人工转写来补这条视觉信号。手工 triage 一张截图约 4 分钟,按 $80/小时算,每个任务 $5.33 的人力。60% 任务带截图:50 × 21 × 0.6 × $5.33 = 每个开发者每月 $3,358 的隐性工程师时间。5 人团队:Max 上每月 $16,790 的”影子人力成本”(加上那 $128.40 token 账单)。
视觉 debug 工作负载的”每美元视觉力”指标:Plus 大约赢 640 倍。这就是让 Max 在任何沾到像素的 agent 场景里站不住的算账。
总原则。默认选 Plus。 纯文本成本上赢约 5 倍,多模态能力至多多花约 6%,上下文窗口和自治上限和 Max 一致。只有当你能指出一个明确的质量驱动理由——某条你在优化的 benchmark、对 14% 延迟容忍度极低的时延预算、或某个高层硬性要求”用顶级旗舰”——才选 Max。
什么时候选 Qwen 3.7 Plus
把 Qwen 3.7 Plus 设为默认。它在输入、输出、缓存读取三条线上都比 Max 便宜约 6 倍,同时保留 1M 上下文和 35 小时自治上限——并且免费送你视觉能力。具体的选择信号:
- 多数编码与 agent 工作负载。 “每个已解决任务的成本”比 Max 好约 5 倍,benchmark 上只差 2-4 个百分点。除非那个差距对你的具体场景关键,否则就是值。
- 视觉 debug 循环。 截图、图像形式的堆栈跟踪、布局 bug、设计稿 vs 实现差异。
- 文档智能化。 布局非平凡的 PDF(多栏论文、财报、合同)。Plus 读的是布局,不是只读字。
- 视频总结。 Standup 录像、课程内容、内部 demo。Plus 给出带时间戳的要点。
- 基于视觉的 agent。 “看了再做”型 agent:UI 测试机、设计 QA 机、截图驱动的 CI。
- 预算敏感、输出量大的生成场景。 $1.60/M 输出 vs Max 的 $7.50/M 是最大的单项节省。
如果你想保留”以后再加视觉能力”的可能性,又不想重新接线 endpoint,也选 Plus。Plus 在纯文本请求上和 Max API 兼容,今天可以纯文本起步,等你的产品需要时直接开始挂 image_url,没有迁移成本。
什么时候选 Qwen 3.7 Max
只有当你能明确说出约 6 倍的成本溢价能怎样把自己赚回来时再选 Qwen 3.7 Max。具体的选择信号:
- 你在专门优化 SWE-Bench Pro。 Max 的 60.6% 是当前闭源最高水位线——比 GPT-5.5 的 58.6% 高 2 个百分点。如果你的 roadmap 或 RFP 里明确写了 SWE-Bench Pro,那就上 Max。
- 延迟敏感的文本流水线。 Max 在纯文本冷启动路径上快 7-15%。对高并发实时生成、每秒都在复利的场景,Max 可以靠节省下来的开发时间把自己赚回来(看上面场景 A 的算账——盈亏平衡大致是开发时间按 $80/小时算超过 $600/月 / 5 人的位置)。
- 由 benchmark 驱动的决策方。 采购或技术评审明确把 benchmark 头条数据写进权重。Max 的 LM Arena 编码 #10 和 SWE-Bench Pro 60.6% 在这两项上都赢 Plus。
- 纯文本 CLI 编码 agent,且质量差距对你确实重要。 见 Qwen 3.7 Max 编码 Arena benchmark 和 Qwen 3.7 Max 开发者指南,那两篇里展开了 Max 的领先在哪里能真正显现的集成模式。
另外当你要和 GPT-5.5 或 Claude Opus 4.8 在纯编码任务上对标时也可以选 Max。Max 的 SWE-Bench Pro 60.6% 领先只在这一条 benchmark 上成立:GPT-5.5 在 SWE-Bench Verified 上反超,按你的代码库的实际任务分布去选 benchmark 加权。
对前一代的决策框架(同一逻辑,不同模型对)参考 Qwen 3.6 Plus vs DeepSeek V4 Pro 编码对比。
通过 ofox 同时跑两个:10 行代码 A/B
单 key 的优势对这两个模型尤其关键。Plus 和 Max 在文本层共享相同的请求形态,所以最干净的 A/B 方式就是给同一条 prompt 打两个 endpoint,diff 输出。ofox 把两个模型都挂在 OpenAI 兼容 API 上:ofox.ai/models/bailian/qwen3.7-plus 和 ofox.ai/models/bailian/qwen3.7-max。API 模型 ID 是 bailian/qwen3.7-plus 和 bailian/qwen3.7-max。一个 API key、一条 base URL、换一个字符串。
Python——一个循环 A/B 两个模型
from openai import OpenAI
client = OpenAI(
base_url="https://api.ofox.ai/v1",
api_key="sk-ofox-xxx",
)
prompt = "Refactor this FastAPI handler from sync to async, return a unified diff."
# 同一条 prompt,两个模型——只换 model 字符串。
for model in ("bailian/qwen3.7-max", "bailian/qwen3.7-plus"):
resp = client.chat.completions.create(
model=model,
messages=[{"role": "user", "content": prompt}],
temperature=0.2,
max_tokens=2048,
)
print(f"\n=== {model} ===\n{resp.choices[0].message.content}")
Node——同样的形状
import OpenAI from "openai";
const client = new OpenAI({
baseURL: "https://api.ofox.ai/v1",
apiKey: process.env.OFOX_API_KEY,
});
const prompt = "Refactor this FastAPI handler from sync to async, return a unified diff.";
for (const model of ["bailian/qwen3.7-max", "bailian/qwen3.7-plus"]) {
const resp = await client.chat.completions.create({
model,
messages: [{ role: "user", content: prompt }],
temperature: 0.2,
max_tokens: 2048,
});
console.log(`\n=== ${model} ===\n${resp.choices[0].message.content}`);
}
Plus 独有:挂一张截图
这是 Max 物理上跑不了的那种调用——Plus 读图,返回一份基于”它真的看见的东西”的修复方案。同样的 client、同样的 key,多挂一个 image_url 内容块:
import base64
with open("error.png", "rb") as f:
image_b64 = base64.b64encode(f.read()).decode()
resp = client.chat.completions.create(
model="bailian/qwen3.7-plus",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "Which assertion failed and why? Return the offending line."},
{"type": "image_url", "image_url": {"url": f"data:image/png;base64,{image_b64}"}},
],
}],
max_tokens=1024,
)
print(resp.choices[0].message.content)
我们在生产里真正会跑的路由模式:默认走 Plus,只有当请求显式 opt-in(比如代码路径里设了 model=premium 这种 flag)才路由到 Max。一行 router、便宜约 6 倍的基线、视觉能力就摆在那里——任何时候开始挂 image_url 都立即可用。
FAQ
Qwen 3.7 Plus 也支持 1M 上下文吗? 是。两者共享同样的 100 万 tokens 上下文窗口。Plus 的窗口会被图片和视频 tokens 占用(1080p 一帧大约 1,280 tokens),所以实际可用的文本余量会按视觉负载等比例缩减。
Qwen 3.7 Plus 写代码比 Qwen 3.7 Max 好吗? 论原始质量,纯文本编码上 Plus 微弱不如(LM Arena 编码 Max #10 vs Plus #12,SWE-Bench Pro 差约 2 个百分点)。论”每个已解决任务的成本”,Plus 便宜约 5 倍,因为 Plus 是 $0.40/$1.60 vs Max 的 $2.50/$7.50。论视觉编码(截图 debug、设计稿解读),Plus 是唯一选择——Max 根本看不到图。
Qwen 3.7 Plus 的价格相比 Qwen 3.7 Max 是多少? Plus 是 $0.40/M 输入、$1.60/M 输出、$0.08/M 缓存。Max 是 $2.50/M 输入、$7.50/M 输出、$0.25/M 缓存。Plus 在每条上都便宜约 6 倍。Plus 的图片输入按文本输入同样的 $0.40/M 计价。
Qwen 3.7 Plus 能 35 小时自治运行吗? 能。阿里 Plus 的发布资料把自治迭代和工具调用列为核心能力。我们验证过 4 小时无人值守;没有亲自跑到 35 小时上限。
Qwen 3.7 Max 和 GPT-5.5 在 SWE-Bench Pro 上谁强? Qwen 3.7 Max 60.6% vs GPT-5.5 58.6%,领先 2 个百分点,目前闭源最高水位线。
我该从 Qwen 3.7 Max 迁移到 Qwen 3.7 Plus 吗? 对多数工作负载是的——Plus 仅文本 tokens 就便宜约 6 倍,还免费送视觉。留在 Max 的唯一理由:你在自己的真实任务集上验证过质量差距,并确认这个差距值得 6 倍溢价;或者 Max 那 7-15% 的延迟优势确实影响某个业务指标。
Qwen 3.7 Plus 能生成图片吗? 不能。Plus 只读图和视频,不生成。文生图工作负载你还得另外接一个生成模型。
在哪能一次性试两个模型?
ofox 把两个都列在 ofox.ai/models/bailian/qwen3.7-plus 和 ofox.ai/models/bailian/qwen3.7-max,OpenAI 兼容 API、单 key 通用。
本次更新核实的来源
- 阿里 Qwen 团队 Qwen 3.7 Plus 发布报道,2026-06-02:https://www.marktechpost.com/2026/06/02/alibabas-qwen-team-launches-qwen3-7-plus-adding-vision-deep-reasoning-tool-invocation-and-autonomous-iteration-on-the-bailian-platform/
- Qwen 3.7 Max benchmark 报告 OpenRouter 页面(2026-06-02 核实):https://openrouter.ai/qwen/qwen3.7-max/benchmarks
- Qwen Research 页(2026-06-02 核实):https://qwen.ai/research
- VentureBeat 报道:Qwen 3.7 Max 35 小时自治运行:https://venturebeat.com/technology/alibabas-proprietary-qwen3-7-max-can-run-for-35-hours-autonomously-and-supports-external-harnesses-like-anthropics-claude-code
- ofox 模型目录快照,2026-06-03:Qwen 3.7 Plus 列于 2026-06-01,价格 $0.40/M 输入 / $1.60/M 输出 / $0.08/M 缓存;Qwen 3.7 Max 列于 2026-05-21,价格 $2.50/M 输入 / $7.50/M 输出 / $0.25/M 缓存
- LM Arena 排行榜快照,2026-06-02
能塞进一条 Slack 消息发给技术 lead 的总结:「Plus 在每种 token 类型上都比 Max 便宜约 6 倍,1M 上下文和 35 小时自治上限完全一致,还免费送视觉。Max 在 SWE-Bench Pro 上赢 2 个百分点,纯文本快约 10%——这就是它收 6 倍价钱的全部理由。默认选 Plus;只把 Max 留给”benchmark 那点优势确实值 $25/人/月 vs $5”的具体场景。」


