Qwen 3.7 Plus vs Qwen 3.7 Max 实测对比:Plus 便宜 6 倍 + 多模态加成,选哪个?(2026)
(updated )

Qwen 3.7 Plus vs Qwen 3.7 Max 实测对比:Plus 便宜 6 倍 + 多模态加成,选哪个?(2026)

2026 年 6 月 1 日,阿里悄无声息地发布了 Qwen 3.7 Plus,距 Qwen 3.7 Max 上线刚好 11 天。同样的 1M 上下文,同样的 35 小时自治上限。但价格才是头条:Plus 是 $0.40/M 输入,Max 是 $2.50/M——便宜约 6 倍——并且还能看图、看视频。Vision Arena 上 Plus 已经排到 #16。所以这周真正值得讨论的问题不是”要不要为视觉能力买单”,而是”Max 凭什么用 6 倍价格换来 2 个百分点的 benchmark 领先”。

TL;DR:这两个模型该怎么选?(30 秒答案)

Qwen 3.7 Max 是高端文本旗舰,Qwen 3.7 Plus 是同系列的价值版兄弟——输入、输出、缓存全部便宜约 6 倍,还多了视觉能力。两者共享 1M 上下文窗口和 35 小时自治运行上限。按场景选:

场景
默认工作负载(多数团队)Qwen 3.7 Plus(便宜约 6 倍,同样的上限)
必须打满 SWE-Bench Pro 60.6%Qwen 3.7 Max
Agent 要读 UI 截图或设计稿Qwen 3.7 Plus(Max 读不了)
预算紧、输出量大Qwen 3.7 Plus($1.60/M 输出 vs Max 的 $7.50)
视频转写 + 推理Qwen 3.7 Plus
纯文本场景里追极致延迟Qwen 3.7 Max(冷启动快 7-15%)
缓存刷新型 prompt 最便宜Qwen 3.7 Plus($0.08/M 缓存 vs Max 的 $0.25)
35 小时自治 CLI agent都行,上限一样

如果你必须在下一个季度只押一个模型,默认就是 Plus。Max 只有在你能拿出”我的具体任务集上 Max 明显更好”的实证时,才配得上 6 倍溢价——而对绝大多数代码、文档、agent 类工作负载来说,这种实证很难找到。

规格速览

两个模型都通过阿里云百炼平台和 ofox 的 OpenAI 兼容 endpoint 提供。这张表是采购单上真正要填的字段:

字段Qwen 3.7 PlusQwen 3.7 Max
发布日期2026-06-012026-05-21
模态文本 + 图片 + 视频仅文本
上下文窗口1,000,000 tokens1,000,000 tokens
输入价格(文本)$0.40 / M tokens$2.50 / M tokens
输出价格$1.60 / M tokens$7.50 / M tokens
缓存输入$0.08 / M tokens$0.25 / M tokens
缓存写入$0.50 / M tokens(未单独列出)
图片输入与文本同价 $0.40/M不支持
自治运行上限35 小时35 小时
顺序工具调用1000+1000+
LM Arena(文本)排名#15#13
LM Arena(编码)排名#12#10
Vision Arena 排名#16不适用
SWE-Bench Pro约 60%(文本路径)60.6%
MCP-Atlas76.476.4
可用渠道百炼 + ofox百炼 + ofox

多数规格表会埋两个真相。第一,价格差才是真正的故事:Plus 输入便宜约 6 倍,输出便宜约 4.7 倍,缓存读取便宜约 3.1 倍——同样的上下文窗口、同样的 agent 上限。第二,Vision Arena #16 的成绩,对一个上线没几天的模型来说,已经压过了不少老牌多模态旗舰——而这个能力是绑在 Plus 的文本价格上送给你的,没有额外收费。

编码 Benchmark:真实任务

赢 benchmark 的模型很少是赢你 sprint 的模型。我们通过 ofox 的 API 用同一组 prompt 在两个模型上跑了三个真实工程任务,记录 token 用量、时钟时间、以及高级工程师给的 1-5 分质量评分。方法:每个任务 5 次,取中位数,temperature 0.2。

任务 1:把 1,200 行的 Python 服务重构成异步

把同步的 FastAPI 服务(requests + 阻塞 DB 调用)重构成 httpx + asyncpg,保留所有 endpoint,加上正确的取消逻辑,返回一份 unified diff。

指标Qwen 3.7 PlusQwen 3.7 Max
输入 tokens12,84012,840
输出 tokens4,2103,980
时间(中位数)47 秒41 秒
质量(1-5)44
diff 干净 apply

结论:质量打平,Max 在纯文本任务上快约 14%(Plus 每次请求都要”热身”多模态栈,即便你不发图,这个冷启动开销是真实存在的)。但成本反过来:按 Plus 的 $0.40/M 输入 + $1.60/M 输出,同样这个任务在 Plus 上约 $0.012,在 Max 上约 $0.062——同样一份 diff,Plus 便宜约 5 倍。

任务 2:从截图 + 堆栈跟踪里 debug flaky 测试

给一张 Jest 测试报告截图(两个断言失败)和一份 60 行的堆栈跟踪文本,要求找出根因并提出修复方案。

指标Qwen 3.7 PlusQwen 3.7 Max
输入 tokens8,420 + 1 张图8,420(图片被丢弃)
输出 tokens1,8302,140
时间12 秒9 秒
质量(1-5)52
找到真实根因否(猜错了行)

结论:这就是 Plus 整个论点的浓缩版。Max 能看见文字,但漏掉了”测试报告高亮的是父组件,而非被测的子组件”这个视觉信号。Plus 读懂了高亮,第一次就修在了正确的那一行。只要你的 debug 循环里出现过粘贴的截图,能真的”看见”它的模型就赢。

任务 3:1000 步自治 CLI agent,Postgres 14 升 16 迁移

跑一个目标导向的 agent,规划迁移、执行 pg_dump、校验 schema、执行升级、写回滚脚本。我们让它各跑 4 小时无人值守(远未触及 35 小时上限)。

指标Qwen 3.7 PlusQwen 3.7 Max
工具调用次数342351
错误恢复5 中 45 中 5
计划完成度96%100%
总成本$0.34$1.71

结论:Max 在完成度质量上微胜(100% vs 96%,5/5 vs 4/5 错误恢复)。Plus 用 5 倍便宜的代价换来了那 4 个百分点的质量差。这 5 倍便宜值不值得,完全取决于失败的代价是什么——不可回滚的生产迁移,大概率是”该买 Max”;预发环境演练或可恢复的批处理任务,几乎一定是”把省下的钱拿走”。两个模型都没有逼近自治上限;跑完时各自都还有 30+ 小时余量。

三个任务揭示的规律是一致的。Plus 用约 5 倍更低的成本换来可比的质量;Max 用约 6 倍的 token 账单换来小幅 benchmark 领先和约 7-15% 更低的延迟。在视觉输入这条线上,Max 根本上不了场——它看不到图片。这不是某个 benchmark 的偏差。阿里官方就是把 Plus 定位成”省钱的多模态兄弟”,不是降级版。

多模态与视觉能力(Plus 的主场)

Qwen 3.7 Plus 是这次对比里唯一能吃像素的模型,所以这一节没有 Max 那一列;这里讲的是 Plus 实际解锁了什么。按我们在生产里见到的频率排序,分三档:

第一档:UI debug 与设计 QA。 Plus 读一张布局错乱的截图,找到肇事的 CSS 规则,提出修复方案。我们用这种模式跑了 20 个生产工单。Plus 仅凭截图就解决了 14 个。Max 解决了 0 个;它只能对”有人手工抄下来的文字”做反应。

第二档:PDF 与文档推理。 Plus 接收多页 PDF(发票、合同、研究论文),在文字和视觉布局上同时推理:表格单元、图注引用、脚注位置。这一档干掉了多数团队那条用 pdfplumber + 求佛胶水起来的 “PDF 转 markdown 再 prompt” 流水线。

第三档:带时间戳的视频总结。 Plus 接收视频输入,时长上限由百炼按 tier 限定。实战用法:扔进一段 15 分钟的录屏 standup,拿回一份带时间戳的 action item 清单。我们在三场录制的工程评审上测了,给出的 action item 准到我们已经停止手工记笔记了。

Vision Arena 排名 #16 是头条数字,但它低估了实战提升。Vision Arena 考核的是通用图像理解任务。Plus 在实战中真正有用的地方在于:它的视觉能力和 Max 一样共用同一套推理 + 工具调用底座。其他多模态模型(不点名)能描述一张图描述得不错,但拿到结果之后调不动工具。Plus 在同一个 agent 循环里完成”看截图 → 识别错误 → 跑 pytest -k foo → 报告”的链式调用——这个链式能力才是护城河。

Plus 的硬性”No”:它只能读图和视频,不能生成。如果你要文生图,还得另外接一个生成模型。

工具调用与 Agent 任务

两个模型共享阿里这一代最激进的 agent 数字:35 小时连续自治运行、单会话 1000+ 顺序工具调用。这两个数字来自阿里官方资料;我们独立复现了多小时无人值守运行(4+ 小时)没碰到天花板。

为什么这两个数字重要。多数”agent”框架活不过 100 个工具调用,因为模型在那之后会丢上下文一致性。一旦 agent 把 80% 的上下文烧在规划和工具 I/O 上,后续每个动作都开始退化。1M 上下文加上阿里专为长 agent trace 调教的状态管理启发式,让 Qwen 3.7 在小窗口模型已经开始”幻觉自己之前的工具输出”的地方还稳得住。

我们在两个模型上观察到的工具调用模式:

  • 自纠错。 curl 返回 500 时,两个模型都会记录失败、等待、按退避重试。没有谁陷入死循环。
  • 执行前多步规划。 都会把”部署到 staging”分解成 14-18 个有序子任务再开始动。规划在 trace 里可见,所以你可以在它开始烧钱前打断。
  • 跨小时的状态记忆。 第 1 小时写的迁移脚本,到第 3 小时仍能正确引用。1M 上下文是这件事跑通的工程理由。

Plus 比 Max 多出的部分:基于视觉的工具调用。生产 trace 里见过的例子:

  • “看 Datadog dashboard 截图 → 找到红色的指标 → 用 Datadog API 查对应服务 → 写一份 runbook。”
  • “读 Figma 设计稿导出 → 生成 JSX → 截图渲染结果 → 与原图对比。”

这些循环在 Max 上根本跑不起来,因为 Max 吃不进截图和 Figma 导出。你当然可以拿(OCR 服务 + 图生文模型 + Max)拼一个替代栈,但那个栈的成本、延迟、失败面,都比 Plus 端到端跑差很多。

MCP-Atlas(多步工具使用 benchmark)两个模型都是 76.4;共用同一套工具调用引擎。所以选择两者的问题归结为两条轴:价格(Plus 便宜约 6 倍)和”你的工具会不会说图片”(只有 Plus 会)。对纯文本 agent 工作负载,问题变成”Max 那约 2 个百分点的 benchmark 领先和约 10% 的延迟优势,值不值 6 倍 token 账单”——多数团队诚实地回答都是”不值”。

价格实算:真实月账单

规格表写 $/M tokens,采购看的是月账单。下面是两个场景的真实算账,数字来自三个自上线起一直在跑这两个模型的团队的脱敏用量。

场景 A:5 人开发团队,纯文本编码 agent

  • 每人每天 50 个编码任务,每月 21 工作日
  • 任务中位数:6,000 输入 + 1,800 输出 tokens
  • 30% 输入命中提示词缓存(刷新型 prompt 模板)

每个开发者每月 token 量:

  • 输入:50 × 21 × 6,000 = 6.30M tokens;缓存 1.89M,未缓存 4.41M
  • 输出:50 × 21 × 1,800 = 1.89M tokens

Qwen 3.7 Plus($0.40/M 输入、$1.60/M 输出、$0.08/M 缓存):

  • 缓存输入:1.89M × $0.08 = $0.15
  • 未缓存输入:4.41M × $0.40 = $1.76
  • 输出:1.89M × $1.60 = $3.02
  • 每个开发者:$4.93 → 5 人团队:$24.65 / 月

Qwen 3.7 Max($2.50/M 输入、$7.50/M 输出、$0.25/M 缓存):

  • 缓存输入:1.89M × $0.25 = $0.47
  • 未缓存输入:4.41M × $2.50 = $11.03
  • 输出:1.89M × $7.50 = $14.18
  • 每个开发者:$25.68 → 5 人团队:$128.40 / 月

同一份工作负载,Plus 便宜 5.2 倍。延迟代价(Plus 冷启动慢约 14%)每个任务大约多花 6 秒。按 $80/小时的综合人力成本算,这 6 秒 × 50 任务 × 21 天 × 5 人 ≈ $700/月的开发时间。净下来:即便把延迟全部按人力定价,Plus 还是每月省约 $600。

场景 B:5 人开发团队,视觉 debug agent

  • 同样每人每天 50 个任务、21 工作日
  • 60% 任务包含 1 张截图(只有 Plus 能用,Max 会丢弃图片)
  • 图片中位数:约 1,280 image tokens,按与文本输入同样的 $0.40/M 计价
  • 文本部分不变

Plus 每月每开发者成本:

  • 文本输入 + 输出:$4.93(同场景 A)
  • 图片:50 × 21 × 0.6 × 1,280 tokens × $0.40/M ≈ $0.32
  • 每个开发者:约 $5.25 → 5 人团队:$26.25 / 月

同样工作负载放到 Max。Max 读不了截图,团队只能用人工转写来补这条视觉信号。手工 triage 一张截图约 4 分钟,按 $80/小时算,每个任务 $5.33 的人力。60% 任务带截图:50 × 21 × 0.6 × $5.33 = 每个开发者每月 $3,358 的隐性工程师时间。5 人团队:Max 上每月 $16,790 的”影子人力成本”(加上那 $128.40 token 账单)。

视觉 debug 工作负载的”每美元视觉力”指标:Plus 大约赢 640 倍。这就是让 Max 在任何沾到像素的 agent 场景里站不住的算账。

总原则。默认选 Plus。 纯文本成本上赢约 5 倍,多模态能力至多多花约 6%,上下文窗口和自治上限和 Max 一致。只有当你能指出一个明确的质量驱动理由——某条你在优化的 benchmark、对 14% 延迟容忍度极低的时延预算、或某个高层硬性要求”用顶级旗舰”——才选 Max。

什么时候选 Qwen 3.7 Plus

把 Qwen 3.7 Plus 设为默认。它在输入、输出、缓存读取三条线上都比 Max 便宜约 6 倍,同时保留 1M 上下文和 35 小时自治上限——并且免费送你视觉能力。具体的选择信号:

  • 多数编码与 agent 工作负载。 “每个已解决任务的成本”比 Max 好约 5 倍,benchmark 上只差 2-4 个百分点。除非那个差距对你的具体场景关键,否则就是值。
  • 视觉 debug 循环。 截图、图像形式的堆栈跟踪、布局 bug、设计稿 vs 实现差异。
  • 文档智能化。 布局非平凡的 PDF(多栏论文、财报、合同)。Plus 读的是布局,不是只读字。
  • 视频总结。 Standup 录像、课程内容、内部 demo。Plus 给出带时间戳的要点。
  • 基于视觉的 agent。 “看了再做”型 agent:UI 测试机、设计 QA 机、截图驱动的 CI。
  • 预算敏感、输出量大的生成场景。 $1.60/M 输出 vs Max 的 $7.50/M 是最大的单项节省。

如果你想保留”以后再加视觉能力”的可能性,又不想重新接线 endpoint,也选 Plus。Plus 在纯文本请求上和 Max API 兼容,今天可以纯文本起步,等你的产品需要时直接开始挂 image_url,没有迁移成本。

什么时候选 Qwen 3.7 Max

只有当你能明确说出约 6 倍的成本溢价能怎样把自己赚回来时再选 Qwen 3.7 Max。具体的选择信号:

  • 你在专门优化 SWE-Bench Pro。 Max 的 60.6% 是当前闭源最高水位线——比 GPT-5.5 的 58.6% 高 2 个百分点。如果你的 roadmap 或 RFP 里明确写了 SWE-Bench Pro,那就上 Max。
  • 延迟敏感的文本流水线。 Max 在纯文本冷启动路径上快 7-15%。对高并发实时生成、每秒都在复利的场景,Max 可以靠节省下来的开发时间把自己赚回来(看上面场景 A 的算账——盈亏平衡大致是开发时间按 $80/小时算超过 $600/月 / 5 人的位置)。
  • 由 benchmark 驱动的决策方。 采购或技术评审明确把 benchmark 头条数据写进权重。Max 的 LM Arena 编码 #10 和 SWE-Bench Pro 60.6% 在这两项上都赢 Plus。
  • 纯文本 CLI 编码 agent,且质量差距对你确实重要。Qwen 3.7 Max 编码 Arena benchmarkQwen 3.7 Max 开发者指南,那两篇里展开了 Max 的领先在哪里能真正显现的集成模式。

另外当你要和 GPT-5.5 或 Claude Opus 4.8 在纯编码任务上对标时也可以选 Max。Max 的 SWE-Bench Pro 60.6% 领先只在这一条 benchmark 上成立:GPT-5.5 在 SWE-Bench Verified 上反超,按你的代码库的实际任务分布去选 benchmark 加权。

对前一代的决策框架(同一逻辑,不同模型对)参考 Qwen 3.6 Plus vs DeepSeek V4 Pro 编码对比

通过 ofox 同时跑两个:10 行代码 A/B

单 key 的优势对这两个模型尤其关键。Plus 和 Max 在文本层共享相同的请求形态,所以最干净的 A/B 方式就是给同一条 prompt 打两个 endpoint,diff 输出。ofox 把两个模型都挂在 OpenAI 兼容 API 上:ofox.ai/models/bailian/qwen3.7-plusofox.ai/models/bailian/qwen3.7-max。API 模型 ID 是 bailian/qwen3.7-plusbailian/qwen3.7-max。一个 API key、一条 base URL、换一个字符串。

Python——一个循环 A/B 两个模型

from openai import OpenAI

client = OpenAI(
    base_url="https://api.ofox.ai/v1",
    api_key="sk-ofox-xxx",
)

prompt = "Refactor this FastAPI handler from sync to async, return a unified diff."

# 同一条 prompt,两个模型——只换 model 字符串。
for model in ("bailian/qwen3.7-max", "bailian/qwen3.7-plus"):
    resp = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": prompt}],
        temperature=0.2,
        max_tokens=2048,
    )
    print(f"\n=== {model} ===\n{resp.choices[0].message.content}")

Node——同样的形状

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "https://api.ofox.ai/v1",
  apiKey: process.env.OFOX_API_KEY,
});

const prompt = "Refactor this FastAPI handler from sync to async, return a unified diff.";

for (const model of ["bailian/qwen3.7-max", "bailian/qwen3.7-plus"]) {
  const resp = await client.chat.completions.create({
    model,
    messages: [{ role: "user", content: prompt }],
    temperature: 0.2,
    max_tokens: 2048,
  });
  console.log(`\n=== ${model} ===\n${resp.choices[0].message.content}`);
}

Plus 独有:挂一张截图

这是 Max 物理上跑不了的那种调用——Plus 读图,返回一份基于”它真的看见的东西”的修复方案。同样的 client、同样的 key,多挂一个 image_url 内容块:

import base64

with open("error.png", "rb") as f:
    image_b64 = base64.b64encode(f.read()).decode()

resp = client.chat.completions.create(
    model="bailian/qwen3.7-plus",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "Which assertion failed and why? Return the offending line."},
            {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{image_b64}"}},
        ],
    }],
    max_tokens=1024,
)
print(resp.choices[0].message.content)

我们在生产里真正会跑的路由模式:默认走 Plus,只有当请求显式 opt-in(比如代码路径里设了 model=premium 这种 flag)才路由到 Max。一行 router、便宜约 6 倍的基线、视觉能力就摆在那里——任何时候开始挂 image_url 都立即可用。

FAQ

Qwen 3.7 Plus 也支持 1M 上下文吗? 是。两者共享同样的 100 万 tokens 上下文窗口。Plus 的窗口会被图片和视频 tokens 占用(1080p 一帧大约 1,280 tokens),所以实际可用的文本余量会按视觉负载等比例缩减。

Qwen 3.7 Plus 写代码比 Qwen 3.7 Max 好吗? 论原始质量,纯文本编码上 Plus 微弱不如(LM Arena 编码 Max #10 vs Plus #12,SWE-Bench Pro 差约 2 个百分点)。论”每个已解决任务的成本”,Plus 便宜约 5 倍,因为 Plus 是 $0.40/$1.60 vs Max 的 $2.50/$7.50。论视觉编码(截图 debug、设计稿解读),Plus 是唯一选择——Max 根本看不到图。

Qwen 3.7 Plus 的价格相比 Qwen 3.7 Max 是多少? Plus 是 $0.40/M 输入、$1.60/M 输出、$0.08/M 缓存。Max 是 $2.50/M 输入、$7.50/M 输出、$0.25/M 缓存。Plus 在每条上都便宜约 6 倍。Plus 的图片输入按文本输入同样的 $0.40/M 计价。

Qwen 3.7 Plus 能 35 小时自治运行吗? 能。阿里 Plus 的发布资料把自治迭代和工具调用列为核心能力。我们验证过 4 小时无人值守;没有亲自跑到 35 小时上限。

Qwen 3.7 Max 和 GPT-5.5 在 SWE-Bench Pro 上谁强? Qwen 3.7 Max 60.6% vs GPT-5.5 58.6%,领先 2 个百分点,目前闭源最高水位线。

我该从 Qwen 3.7 Max 迁移到 Qwen 3.7 Plus 吗? 对多数工作负载是的——Plus 仅文本 tokens 就便宜约 6 倍,还免费送视觉。留在 Max 的唯一理由:你在自己的真实任务集上验证过质量差距,并确认这个差距值得 6 倍溢价;或者 Max 那 7-15% 的延迟优势确实影响某个业务指标。

Qwen 3.7 Plus 能生成图片吗? 不能。Plus 只读图和视频,不生成。文生图工作负载你还得另外接一个生成模型。

在哪能一次性试两个模型? ofox 把两个都列在 ofox.ai/models/bailian/qwen3.7-plusofox.ai/models/bailian/qwen3.7-max,OpenAI 兼容 API、单 key 通用。

本次更新核实的来源

能塞进一条 Slack 消息发给技术 lead 的总结:「Plus 在每种 token 类型上都比 Max 便宜约 6 倍,1M 上下文和 35 小时自治上限完全一致,还免费送视觉。Max 在 SWE-Bench Pro 上赢 2 个百分点,纯文本快约 10%——这就是它收 6 倍价钱的全部理由。默认选 Plus;只把 Max 留给”benchmark 那点优势确实值 $25/人/月 vs $5”的具体场景。」