Claude Sonnet 4.5 vs 4.6 怎么选:升级值不值、迁移代价、国内接入
TL;DR — Sonnet 4.6 在 Anthropic 自家 Claude Code 测试里被用户偏好的比例约 70%,SWE-bench Verified 比 4.5 提升 +2.4%,OSWorld +11%,价格保持 $3/$15 per million tokens 不变。除非你的链路对幻觉率分布特别敏感且已为 4.5 做过深度调参,否则升 4.6 没什么悬念。
一句话结论:同价位下默认上 4.6
Sonnet 4.6 在 2026 年 2 月 17 日发布,到今天(5 月 16 日)刚好 3 个月。这是一次”小版本号、大变化”的升级:Anthropic 把价格按住不动,但在编程、Agent、指令遵循三个方向都给了实质性提升。
| 维度 | Sonnet 4.5 | Sonnet 4.6 |
|---|---|---|
| API model ID | anthropic/claude-sonnet-4.5 | anthropic/claude-sonnet-4.6 |
| 输入价格 | $3 / M tokens | $3 / M tokens |
| 输出价格 | $15 / M tokens | $15 / M tokens |
| 标准上下文 | 200K | 200K |
| 长上下文 | — | 1M(beta) |
| SWE-bench Verified | 基准 | +2.4% |
| OSWorld(computer use) | 基准 | +11% |
| Claude Code 用户偏好 | — | 约 70% |
结论很简单:4.6 是 4.5 的严格超集,同价、分数更高,外加 1M 窗口和 adaptive thinking 两个新能力。没有理由不升,唯一要算的是迁移成本。
哪些差异是真的能感知到的
Anthropic 官方 blog 列了一堆 benchmark,但开发者最关心的是”日常用起来到底有什么不一样”。把官方数据和过去 3 个月各路实测对齐,能感知到的差异主要是以下三块。
1. 编程任务:少抽风,少假装搞定
4.5 时代用 Claude Code 最常见的吐槽是两个:
- 过度工程:让它改一行配置,它顺便重构了相邻三个模块
- 诈胡:声称”已修复”但实际只改了一半,剩下的当 TODO 注释留着
4.6 在这两个问题上明显收敛。官方数据是”meaningfully better at instruction following, with fewer false claims of success, fewer hallucinations”。换成人话:你说”只改 X 不要动 Y”,4.6 听话的概率高得多。
SWE-bench Verified 数字看着只涨了 2.4%,但这是分布尾部的提升。4.6 跑到 80.2%(带 prompt modification)的成绩段,本来就是”再难 1% 都很难”的位置。
2. Agent / 工具调用:长程一致性更稳
跑 multi-step agent 的人对”任务跑到第 7 步突然忘了第 2 步约束”这种事不陌生。4.6 在长程任务的 follow-through 上做了重点优化。配合新的 adaptive thinking 机制(替代了原来的 budget_tokens),模型自己决定每一步用多少推理深度,不用你手动调。
对于已经在用 Claude function calling 完整工作流 的项目,迁移到 4.6 几乎是零代码改动,只需要把 model ID 换掉,原有的 tool_use 调用都兼容。
3. Computer Use:OSWorld +11% 不是小数字
Computer use 在 4.5 时代体验最一般,能用,但截图理解和坐标定位经常飘。4.6 在 OSWorld 跑分上提升 11%,这是 computer use 类基准里近一年来最大的单次跳跃。
如果你的项目跑浏览器自动化、桌面 RPA、视觉指令执行,这条值得专门重测。
两个新特性:1M 上下文和 context compaction
这俩都还是 beta,但已经稳定到可以小范围用。
1M token 上下文(beta)
调用方式:请求头加 anthropic-beta: context-1m-2025-08-07,model 用 anthropic/claude-sonnet-4.6。默认不开,因为 1M 窗口的输入会按更高的长上下文 tier 计费,单 token 价格会贵一些(具体倍率以 Anthropic 控制台为准,国内通过 ofox 调用时 ofox 会同步透传)。
什么时候用:
- 整本书 / 整个仓库做 RAG-less 分析
- 多轮对话累积超过 200K 还想保留完整历史
- 一次性塞进 50+ 个 PDF 做横向对比
什么时候不用:
- 你只是觉得”反正窗口大点更保险”,这是纯浪费钱,绝大多数任务 200K 都用不满
- 任务本身可以拆段,拆开调用更便宜也更稳
Context Compaction(beta)
会话接近窗口上限时,模型自动对老 context 做摘要、保留关键信息。对长会话 Agent 算准刚需,之前要自己写摘要循环,现在 Anthropic 帮你做了。
实际效果:摘要质量取决于任务类型。代码改写场景压缩效果好(保留 diff、丢弃中间打印),自由对话场景偶尔会丢人物上下文细节,仍需观察。
国内调用:直接换 model ID 就完事
国内直连 Anthropic 不稳定是老问题。用 ofox.ai 这类聚合 API 走 OpenAI 兼容协议,只要把 model 字段从 anthropic/claude-sonnet-4.5 改成 anthropic/claude-sonnet-4.6,业务代码一行不用改:
from openai import OpenAI
client = OpenAI(
api_key="sk-xxx",
base_url="https://api.ofox.ai/v1"
)
resp = client.chat.completions.create(
model="anthropic/claude-sonnet-4.6",
messages=[{"role": "user", "content": "解释一下 adaptive thinking 是什么"}]
)
print(resp.choices[0].message.content)
Sonnet 4.6 的价格在 ofox 上和官方对齐,没有额外加价。
要复用现成的 Claude Code 本地工作流,可以直接套之前那篇 Claude Code 国内使用 + Opus 4.6 编程体验 里的配置,把模型字段从 Opus 换成 Sonnet 4.6 就行。Sonnet 处理日常 PR 级别的改动比 Opus 划算得多。
迁移清单:从 4.5 切到 4.6 的 5 个检查点
不管项目大小,按这个清单走一遍基本不会踩坑。
budget_tokens参数:如果你在 4.5 上用了 extended thinking 配合budget_tokens控制推理深度,4.6 推荐改用 adaptive thinking(不再需要手动指定)。老参数仍兼容,但会被忽略。- Tool definitions 不动:tool_use 协议完全向后兼容,不需要重写。
- Streaming chunk 格式:和 4.5 一致,无破坏性变更。
- 影子流量验证:建议在生产前先用 5%-10% 流量跑一周,主要看两个指标:错误率(应当持平或下降)和平均 latency(4.6 在 adaptive thinking 默认开启时,简单任务的 latency 反而更低)。
- 回归测试集:如果有 prompt 调优过的 golden set,跑一遍对比输出。4.6 对”过度详细回答”做了收敛,可能在某些”要求啰嗦”的 prompt 上输出反而变短,这通常是好事,但要确认下游不依赖固定长度。
什么时候应该继续用 4.5(少数场景)
虽然默认建议 4.6,但有几类情况可以暂缓:
- 冷冻期项目:合同要求”模型版本锁定”的企业项目,等下个评审窗口
- 极重 prompt 调优:你为 4.5 写了上千行 system prompt 且效果验证充分,迁移后需要重新 tune,这种情况建议在 staging 里跑一遍再决定切换
- 特定 benchmark 回归:极少数任务上 4.6 不一定全面胜过 4.5(如某些极端长文档摘要场景),有自己评测集的话以评测集为准
对绝大多数 SaaS 应用、Agent、代码助手、客服机器人,直接升。
选型决策延伸:和同系列其他型号怎么比
如果你纠结的不是 4.5 vs 4.6,而是更上层的 Sonnet vs Opus vs Haiku 取舍,可以参考:
- Claude Opus 4.6 vs Sonnet 4.6 选型指南——Sonnet 和旗舰 Opus 的取舍
- Claude Opus 4.7 完全指南——Anthropic 当前最强模型的全面解读
Sonnet 4.6 在大多数生产任务上仍是性价比最高的一档:它不是 Anthropic 最强的,但价格、能力、稳定性的平衡点最舒服。
总结
Sonnet 4.6 vs 4.5 的选型决策极其简单:除非你有具体的回退理由(合同冻结、prompt 深度调优、特定 benchmark 回归),否则直接升 4.6。同价、更听话、长上下文窗口免费送。
国内调用通过 ofox.ai 的 OpenAI 兼容接口,把 model 字段换成 anthropic/claude-sonnet-4.6 就行。完整 Claude API 接入示例去 https://ofox.ai/zh/docs/api 拿当前最新的接入文档。


