Claude Sonnet 5 对比 Opus 4.8(2026):账面便宜 60%,账单未必
Sonnet 5 标价 $2/$10,比 Opus 4.8 的 $5/$25 便宜 60%。但 SWE-bench Pro 上 63.2% 落后 69.2%,Agent 场景实际花费还可能反超 Opus。到底怎么选。
一句话总结 Anthropic 在 2026 年 6 月 30 日发布 Claude Sonnet 5,引入期定价 每百万 token $2/$10,比 Opus 4.8 的 $5/$25 低 60%(8 月 31 日后标准价 $3/$15,仍低 40%)。能力上,Opus 4.8 守住了对硬任务最关键的两行:SWE-bench Pro 69.2% 对 63.2%,以及约 6.6 分的无工具推理领先。有两件事悄悄拉近了价格差:一是 新分词器,相同文本比 Sonnet 4.6 多算约 30% 的 token;二是 adaptive thinking 默认开启,Artificial Analysis 测出每个 Agent 任务的成本比 Opus 4.8 高约 15%。标价写着打四折,账单写着”看你的负载”。下面是精确算账、benchmark 对照表、两份真实月度账单,以及一个把两个模型都用上的路由方案。
Claude Sonnet 5 标价比 Opus 4.8 低 60%,但 adaptive thinking 加上新分词器,意味着输出密集的 Agent 负载可能花得一样多甚至更多。对有界输出而言这个折扣是真的,对长程 Agent 运行而言则是空的。
一句话结论:你到底该选哪个
对大多数团队来说答案是”Sonnet 5 当默认,Opus 4.8 留给最难的长尾”。按场景给出一行判断。
| 场景 | 选择 | 理由 |
|---|---|---|
| 高并发分类 / 抽取 / 聊天 | Sonnet 5 | 输出有界,token 更便宜,账单低 40% 到 60% |
| RAG 问答、摘要、日常代码修改 | Sonnet 5 | 能力够用,价格取胜 |
| 最难的端到端 Agent 编码(SWE-bench Pro 级别) | Opus 4.8 | 69.2% 对 63.2%,解决问题所需轮次更少 |
| 长程推理,不带工具 | Opus 4.8 | 推理领先约 6.6 分 |
| 开着思考的输出密集 Agent 循环 | 先实测 | Sonnet 5 单任务成本可能反超 Opus |
| 混合负载下对成本敏感的默认选型 | 两个都路由 | 便宜活给 Sonnet 5,硬活给 Opus 4.8 |
本文余下部分就是这张表背后的证据,外加一段 10 行代码,让你在正式承诺前先在自己的负载上 A/B 两个模型。
规格速览对比
两个模型标称上下文窗口都是 1M,最大输出都是 128K。差异在价格、分词器和默认思考行为。
| 规格 | Claude Sonnet 5 | Claude Opus 4.8 |
|---|---|---|
| ofox 模型 ID | anthropic/claude-sonnet-5 | anthropic/claude-opus-4.8 |
| 输入(引入期,8 月 31 日前) | $2/M | $5/M |
| 输出(引入期,8 月 31 日前) | $10/M | $25/M |
| 输入(标准价,8 月 31 日后) | $3/M | $5/M |
| 输出(标准价,8 月 31 日后) | $15/M | $25/M |
| 缓存输入读取 | $0.2/M | $0.5/M |
| 缓存写入(5 分钟 / 1 小时) | $2.5 / $4 per M | $6.25 / $10 per M |
| 上下文窗口 | 1M tokens | 1M tokens |
| 最大输出 | 128K tokens | 128K tokens |
| 分词器 | 新(相比 Sonnet 4.6 约 +30%) | 上一代分词器 |
| Adaptive thinking | 默认开启 | 默认开启 |
引入期标价($2/$10 和 $5/$25)与截至 2026 年 7 月 1 日 ofox 模型页 anthropic/claude-sonnet-5 和 anthropic/claude-opus-4.8 一致;引入期与标准价的划分、8 月 31 日的截止日期来自 Anthropic 官方定价文档。注意标准输出价:引入期结束后 Sonnet 5 落到 $15/M,对 Opus 4.8 的 $25/M,输出差距从 60% 收窄到 40%。
价格差是真的。下面把账算精确。
按单 token 单价,Sonnet 5 确实更便宜,而且每一行都更便宜:输入、输出、缓存读取。
引入期内(截至 2026 年 8 月 31 日),Sonnet 5 是 $2/$10,对 Opus 4.8 的 $5/$25。输入便宜 60%,输出便宜 60%。8 月 31 日后转标准价 $3/$15,两行都便宜 40%。缓存输入读取是 $0.2/M 对 $0.5/M,这个 60% 的降幅不受引入期影响,对 prompt 缓存密集的生产流量意义重大。
所以如果你的负载以输入 token 为主、只产生短小有界的输出,Sonnet 5 就是标题承诺的样子。故事变复杂的地方,是任何产生大量输出的场景,而这几乎就是所有 Agent 类工作。
规格表里有一行值得比通常更重视:缓存输入。Sonnet 5 读缓存输入是 $0.2/M,对 Opus 4.8 的 $0.5/M。如果你的 prompt 带着一大段稳定前缀(system prompt、工具 schema、跨调用重复出现的检索文档集),prompt 缓存才是真正省钱的地方,而 Sonnet 5 的缓存读取无论引入期与否都便宜 60%。一个生产级 RAG endpoint 把 20K token 的前缀缓存起来跨数千次调用复用,这段前缀在 Sonnet 5 上按 $0.2/M 付费,而不是 Opus 4.8 的 $0.5/M。坑在写入侧:Sonnet 5 写缓存是 $2.5/M(5 分钟)或 $4/M(1 小时),对 Opus 4.8 的 $6.25 和 $10,所以缓存在 Sonnet 5 上回本更快,但前提是命中率高到能摊平写入成本。读写比大约低于 1:1 到 1.5:1 时,无论哪个模型,缓存花的钱都比省的多。
新分词器,以及它真正影响谁
Sonnet 5 带来了新分词器。这是整个发布里最可能在账单上给你惊喜的部分,也是最常被误读的部分。
直接来自 Anthropic “What’s new in Sonnet 5” 文档 的核实事实:相同输入文本在 Sonnet 5 上产生的 token 数比 Sonnet 4.6 多约 30%。社区实测把这个区间放在 1.0 到 1.35 倍,取决于内容类型。这不是 API 改动(请求、响应、streaming 的形态都不变),但它撬动了一切以 token 计量的东西:
| 你在衡量的东西 | 对 Sonnet 5 相比 Sonnet 4.6 的影响 |
|---|---|
相同文本的 usage token 计数 | 高约 30% |
| 能塞进 1M 窗口的文本量 | 更少,因为每个 token 覆盖的文本更少 |
max_tokens 输出预算 | 可能截断为 4.6 设定的输出 |
| 相同单价下的单请求成本 | 相同文本,成本更高 |
要避开的误读是:这 30% 是 相对 Sonnet 4.6 测出来的,不是相对 Opus 4.8。Anthropic 早在 Opus 4.7 前后就引入了这类分词器改动,所以 Opus 4.8 本就跑着一套可比的上一代分词器。对相同文本,Sonnet 5 和 Opus 4.8 的 token 量大致在同一水平。分词器咬得最狠的时刻,是你 从 Sonnet 4.6 迁移到 Sonnet 5 还沿用旧 token 预算的时候,而不是在 Sonnet 5 和 Opus 4.8 之间选型的时候。
实操结论:如果你是从 Sonnet 4.6 迁过来,用 token 计数 endpoint 重新统计 prompt,并复查任何贴着预期输出设死的 max_tokens,再去相信”价格一样 $3/$15”的说法。单 token 价一样,token 变多,账单变高。我们的 Claude Code token 优化指南 讲了怎么用缓存和 prompt 精简把这部分成本抠回来。
编码 benchmark:SWE-bench Pro 与真实差距
编码 benchmark 噪声大,但 SWE-bench Pro 是值得较真的那个,因为它端到端跑真实的 GitHub issue。下面是两者的落点,附上 Sonnet 4.6 作参照。
| Benchmark | Sonnet 5 | Opus 4.8 | Sonnet 4.6 |
|---|---|---|---|
| SWE-bench Pro(Agent 编码) | 63.2% | 69.2% | 58.1% |
| GDPval-AA v2(知识工作,Elo) | 1,618 | 1,615 | n/a |
| 无工具推理(差距) | 落后约 6.6 分 | 领先 | n/a |
SWE-bench Pro 和 GDPval-AA v2 的数字由 MarkTechPost 于 2026 年 6 月 30 日从 Anthropic 发布材料整理;约 6.6 分的无工具推理差距来自 Anthropic 的 System Card(经 digitalapplied.com 和 codingfleet.com),不是 MarkTechPost。榜单式分数当快照看,逐项 benchmark 来源见 Anthropic 的 Transparency Hub。这张表里有两点决定了大部分路由判断。
Opus 4.8 守住 6 分的 SWE-bench Pro 领先。 Sonnet 5 的 63.2% 相比 Sonnet 4.6 的 58.1% 是实打实的跃升,但要在困难的多文件 Agent issue 上超越,仍然要盯着 Opus 4.8 的 69.2%。SWE-bench Pro 上这 6 分,就是”第一次跑就关掉 issue”和”重试一次才关掉”之间的差别,而在长 Agent 循环里,这会累积成 token 开销。如果你的工作就活在那个天花板上,一旦把重试算进去,便宜的模型其实并不便宜。
Sonnet 5 在知识工作上险胜一头。 在 GDPval-AA v2 经济类工作榜单上,Sonnet 5 以 3 个 Elo 分(1,618 对 1,615)微弱领先 Opus 4.8。这处在噪声范围内,但结论成立:对不属于最难编码的普通专业任务,Sonnet 5 与一个贵一倍多的模型打平。Anthropic 自己的说法是,Sonnet 5 的高 effort 模式在部分任务上能追平 Opus 4.8,同时提供更宽的成本-性能区间。
在给这两个 benchmark 加权之前,先搞清它们各自到底测什么会有帮助。SWE-bench Pro 让模型端到端处理真实、未解决的 GitHub issue:模型读仓库、写补丁,补丁要么通过项目的隐藏测试套件,要么不通过。没有部分得分,这也是为什么绝对数字比选择题类评测看起来低。GDPval-AA v2 是另一种形态。它给模型在真实经济知识工作(起草、分析、结构化推理)上的表现打分,形式是相对其他模型的 Elo 评级,所以 3 分领先就是抛硬币,100 分领先才是决定性的。两张表合起来清楚地说了一件事:Opus 4.8 在关掉困难代码 issue 上明显更强,Sonnet 5 在普通专业产出上打平。这就是为什么该做路由,而不是选出唯一赢家的全部理由。
价格算账:两份真实月度账单
标价是一个数字,账单是另一个。下面两个负载得出相反结论,假设都写明了,你可以换成自己的数据。
场景 A,高并发有界输出(客服机器人、分类、抽取)。假设每月 300M 输入 token、其中一半走缓存,每月 30M 输出 token。
| 明细 | Sonnet 5(引入期) | Sonnet 5(标准价) | Opus 4.8 |
|---|---|---|---|
| 150M 新鲜输入 | $300 | $450 | $750 |
| 150M 缓存输入 | $30 | $30 | $75 |
| 30M 输出 | $300 | $450 | $750 |
| 月度合计 | $630 | $930 | $1,575 |
| 对比 Opus 4.8 | 省 60% | 省 41% | 基准 |
这里折扣就是标题说的那个数。输出有界意味着更便宜的单 token 价直接流向最终账单。
场景 B,Agent 编码(长多步运行,开着思考)。假设 5 名开发者,每人每天 25 个任务,20 个工作日(每月 2,500 个任务)。每个任务:两边都是 60K 输入。输出:Opus 4.8 是 12K,Sonnet 5 约 30K,因为 adaptive thinking 默认开启,它每个任务想得更多。
| 明细 | Sonnet 5(引入期) | Sonnet 5(标准价) | Opus 4.8 |
|---|---|---|---|
| 每任务输入(60K) | $0.12 | $0.18 | $0.30 |
| 每任务输出 | $0.30(30K) | $0.45(30K) | $0.30(12K) |
| 每任务成本 | $0.42 | $0.63 | $0.60 |
| 月度(2,500 任务) | $1,050 | $1,575 | $1,500 |
| 对比 Opus 4.8 | 省 30% | 贵 5% | 基准 |
在标准价下,输出密集的 Agent 负载在 Sonnet 5 上可能比 Opus 4.8 略贵,因为多出来的思考 token 全落在输出这一行。我这个示意模型算出来是 +5%;Artificial Analysis 的独立 cost-to-run 估算更接近 +15%(每任务 $2.29 对 Opus,2026 年 6 月下旬快照)。具体数字取决于你的任务想得多深。方向不变:账面折扣撑不过长 Agent 运行的实战。 这是迁移整支 Agent 集群前最该刻进脑子里的一点。
什么时候选 Claude Sonnet 5
在输出有界、并发量高时选 anthropic/claude-sonnet-5。具体来说:
- 分类、抽取、路由、审核。 输出短,输入量巨大,往往缓存密集。Sonnet 5 的 $2/$10 和 $0.2/M 缓存读取把这类账单砍掉 40% 到 60%。
- RAG 问答和摘要。 重活由检索完成,模型写一段有界回复。能力绰绰有余,价格取胜。
- 日常编码。 单文件修改、样板代码、测试脚手架、code review 评论。对不在前沿的工作,Sonnet 5 的 63.2% SWE-bench Pro 绰绰有余。
- 聊天和助手界面。 交互轮次短;比起 Opus 级模型,Sonnet 5 的速度和价格更合适。
什么时候选 Claude Opus 4.8
当任务难到”第一次答错的代价超过差价”时,选 anthropic/claude-opus-4.8:
- 前沿 Agent 编码。 6 分的 SWE-bench Pro 领先,就是一次跑通和陷入重试循环之间的差别。在困难的多文件 issue 上,Opus 4.8 用更少的轮次收尾,更少的轮次就是更少的 token。我们在 Opus 4.8 发布评测 里深入讲了这个模型。
- 不带工具的长程推理。 约 6.6 分的无工具推理差距,会在复杂多步问题上表现为”计划撑得住”。
- 你实测过 Sonnet 5、结果打平或更高的输出密集 Agent 循环。 如果每任务成本两边一样,就选 benchmark 更高的那个。
什么时候两个都别选(以及改做什么)
陷阱是把这当成非此即彼的二选一替换。大多数生产负载是混合的:一大堆便宜的有界调用,加上一小撮真正困难任务的长尾。把全部塞进一个模型,要么在简单的 80% 上多付钱,要么在困难的 20% 上力不从心。
解法是路由。把有界、高并发的活发给 Sonnet 5,困难长尾发给 Opus 4.8,都藏在同一个 endpoint 后面,这样换模型只是改一个字符串,不是重新接一遍。这个模式,以及怎么选路由信号,写在我们的 Claude Code 混合路由模式 里。通过 ofox,两个模型都挂在同一个 OpenAI 兼容 API 上,所以路由器就是一次字典查表,不是接第二套 SDK。
路由的难点不在管道,而在信号:每个请求进来,你怎么在跑之前就判断这个任务是不是难?实践中有三个信号管用。输入长度是最便宜的代理指标,因为超过某个 token 阈值的请求往往就是那些多文件、高上下文、值得用 Opus 4.8 的任务。来自你自己应用的任务类型标签(分类还是开放式 Agent 工作)如果你已经有了,会更准。而置信度检查可以做兜底:先跑 Sonnet 5,只有当便宜模型的输出没通过某个校验步骤时才升级到 Opus 4.8。这个升级模式让 Opus 的占比保持很小,而这正是重点,因为 Opus 是你希望尽量少碰的贵档。
flowchart TD
A[Incoming request] --> B{Bounded output?<br/>classification, RAG, chat}
B -->|Yes| C[anthropic/claude-sonnet-5]
B -->|No| D{Frontier coding or<br/>long-horizon reasoning?}
D -->|Yes| E[anthropic/claude-opus-4.8]
D -->|No, measure it| F[A/B both, pick lower per-task cost]
用 ofox 同时试两个:10 行代码 A/B
老实的做法是在自己的负载上把两个都跑一遍,读 token 计数。ofox 把两个模型都挂在同一个 OpenAI 兼容 endpoint(https://api.ofox.ai/v1)上,所以两次运行之间唯一变的就是模型 ID 字符串。有个坑:Sonnet 5 会对非默认的 temperature、top_p、top_k 返回 400 错误,所以把采样参数留在默认值(下面的例子就是这么做的)。
Python:一个循环里 A/B 两个模型
from openai import OpenAI
client = OpenAI(base_url="https://api.ofox.ai/v1", api_key="YOUR_OFOX_KEY")
prompt = "Refactor this function to remove the nested loop: ..."
for model in ["anthropic/claude-sonnet-5", "anthropic/claude-opus-4.8"]:
r = client.chat.completions.create(
model=model,
messages=[{"role": "user", "content": prompt}],
)
u = r.usage
print(model, u.prompt_tokens, u.completion_tokens)
读每个模型的 completion_tokens。这一列乘以输出单价,就是”更便宜”的模型悄悄不再便宜的地方。
Node:同样的形态
import OpenAI from "openai";
const client = new OpenAI({ baseURL: "https://api.ofox.ai/v1", apiKey: process.env.OFOX_KEY });
const prompt = "Refactor this function to remove the nested loop: ...";
for (const model of ["anthropic/claude-sonnet-5", "anthropic/claude-opus-4.8"]) {
const r = await client.chat.completions.create({
model,
messages: [{ role: "user", content: prompt }],
});
console.log(model, r.usage.prompt_tokens, r.usage.completion_tokens);
}
在 20 到 30 个有代表性的任务上跑一遍,把每个模型的输入和输出 token 加总,再乘以规格表里的单价。这个数字比任何 benchmark 都更能决定该把哪个模型路由到哪里。想看整条 Claude 线的完整定价拆解,见我们的 Claude API 定价指南。
迁移坑点:切到 Sonnet 5 会有什么坏掉
Sonnet 5 在形态上是 Sonnet 4.6 的直接替代品,但有三处行为变化,如果你的旧代码假设了 4.6 的默认值,就会返回 400 错误。大多数情况下这些相对 Opus 4.8 代码也成立。
| 变化 | 旧行为 | 在 Sonnet 5 上 |
|---|---|---|
| 采样参数 | temperature/top_p/top_k 被接受 | 非默认值返回 400 |
| 手动扩展思考 | 部分模型接受 budget_tokens | 返回 400;改用 adaptive thinking + effort |
| 默认思考 | 除非请求否则关闭(4.6) | adaptive thinking 默认开启;传 thinking: {type: "disabled"} 关闭 |
max_tokens 设定 | 按 4.6 token 计数调校 | 可能截断;新分词器吐出更多 token |
max_tokens 这条是最阴的故障。如果你按 Sonnet 4.6 把输出预算卡得很紧,同样的生成在 Sonnet 5 上对相同文本产生更多 token,可能在答到一半时撞上上限。把预算调高,否则你会发出被截断的回复。还有一个新的安全机制要知道:Sonnet 5 是首个带实时网络安全拒答的 Sonnet 层模型,它以成功的 HTTP 200 加 stop_reason: "refusal" 返回,而不是报错,所以要显式处理这个 stop reason。
adaptive thinking 是最可能撬动你账单的变化,而且它带了个旋钮。取代旧的 budget_tokens 旋钮,Sonnet 5 暴露了一个 effort 参数(low、medium、high),在推理深度和 token 开销之间做权衡。如果你迁移了一个 Opus 4.8 负载、以为 Sonnet 5 会更便宜,结果账单没变,第一件该试的事就是把不需要深推理的调用的 effort 调低。对一次分类调用用 high effort 纯属浪费,而这正是场景 B 里很多意外成本的来源。按路由逐个刻意设置 effort,别把每次调用都留在默认值。
干净的迁移测试不是 benchmark 分数,而是 completion_tokens 这一列:在你真实的任务上把两个模型都跑一遍,让 token 计数而不是价目表来决定路由。
FAQ
Claude Sonnet 5 比 Opus 4.8 更强吗? 不是全面更强。Opus 4.8 在 SWE-bench Pro(69.2% 对 63.2%)和无工具推理(约 6.6 分)上领先。Sonnet 5 在知识工作上微弱领先(GDPval-AA v2:1,618 对 1,615),价格上取胜。Sonnet 5 是更合适的默认选择;Opus 4.8 的溢价体现在最难的任务上。
Claude Sonnet 5 比 Opus 4.8 便宜多少? 引入期定价便宜 60%($2/$10,截至 2026 年 8 月 31 日),之后标准价 $3/$15 便宜 40%。缓存输入也便宜 60%($0.2/M 对 $0.5/M)。
Claude Sonnet 5 换了新分词器吗? 换了,相同文本产生的 token 数比 Sonnet 4.6 多约 30%。这不是 API 改动,但如果你从 4.6 迁移,请重新统计 prompt 并复查 max_tokens。
为什么 Claude Sonnet 5 每个任务的实际花费比标价看起来更贵? adaptive thinking 默认开启,所以每个任务吐出更多输出 token。Artificial Analysis 估算每任务约 $2.29,在他们的 Agent 评测里比 Opus 4.8 高约 15%。
Claude Sonnet 5 适合写代码吗? 大部分编码场景适合(63.2% SWE-bench Pro,比 Sonnet 4.6 的 58.1% 高)。把最难的 Agent issue 路由给 Opus 4.8。
我该从 Opus 4.8 切到 Sonnet 5 吗? 把高并发、有界输出的部分切过去,这块账单砍掉 40% 到 60%。硬长尾留给 Opus 4.8。做路由,别做替换。
Claude Sonnet 5 的上下文窗口有多大? 1M token,最大输出 128K。新分词器意味着这个窗口装下的实际文本比 Sonnet 4.6 同样窗口更少。
Claude Sonnet 5 能设置 temperature 吗? 不能。非默认的 temperature、top_p 或 top_k 返回 400 错误。去掉它们,改用 system prompt 引导。
参考信息来源
- Anthropic,“What’s new in Claude Sonnet 5” 文档(分词器、行为变化、定价),2026 年 7 月 1 日核实:https://platform.claude.com/docs/en/about-claude/models/whats-new-sonnet-5
- Anthropic,“Introducing Claude Sonnet 5” 发布博文,2026 年 6 月 30 日:https://www.anthropic.com/news/claude-sonnet-5
- Anthropic Transparency Hub(逐项 benchmark 来源):https://www.anthropic.com/transparency
- MarkTechPost benchmark 汇编(仅 SWE-bench Pro、GDPval-AA v2),2026 年 6 月 30 日
- Anthropic System Card,经 digitalapplied.com 和 codingfleet.com(无工具推理差距,约 6.6 分)
- Artificial Analysis cost-to-run 估算(每任务 $2.29),2026 年 6 月下旬快照
- ofox 模型页
anthropic/claude-sonnet-5与anthropic/claude-opus-4.8(引入期标价 $2/$10 和 $5/$25、上下文窗口),2026 年 7 月 1 日核实;引入期/标准价分层与 8 月 31 日截止日期依据 Anthropic 定价文档


