Claude Sonnet 5 对比 Opus 4.8(2026):账面便宜 60%,账单未必

Sonnet 5 标价 $2/$10,比 Opus 4.8 的 $5/$25 便宜 60%。但 SWE-bench Pro 上 63.2% 落后 69.2%,Agent 场景实际花费还可能反超 Opus。到底怎么选。

Claude Sonnet 5 对比 Opus 4.8(2026):账面便宜 60%,账单未必

一句话总结 Anthropic 在 2026 年 6 月 30 日发布 Claude Sonnet 5,引入期定价 每百万 token $2/$10,比 Opus 4.8 的 $5/$25 低 60%(8 月 31 日后标准价 $3/$15,仍低 40%)。能力上,Opus 4.8 守住了对硬任务最关键的两行:SWE-bench Pro 69.2% 对 63.2%,以及约 6.6 分的无工具推理领先。有两件事悄悄拉近了价格差:一是 新分词器,相同文本比 Sonnet 4.6 多算约 30% 的 token;二是 adaptive thinking 默认开启,Artificial Analysis 测出每个 Agent 任务的成本比 Opus 4.8 高约 15%。标价写着打四折,账单写着”看你的负载”。下面是精确算账、benchmark 对照表、两份真实月度账单,以及一个把两个模型都用上的路由方案。

Claude Sonnet 5 标价比 Opus 4.8 低 60%,但 adaptive thinking 加上新分词器,意味着输出密集的 Agent 负载可能花得一样多甚至更多。对有界输出而言这个折扣是真的,对长程 Agent 运行而言则是空的。

一句话结论:你到底该选哪个

对大多数团队来说答案是”Sonnet 5 当默认,Opus 4.8 留给最难的长尾”。按场景给出一行判断。

场景选择理由
高并发分类 / 抽取 / 聊天Sonnet 5输出有界,token 更便宜,账单低 40% 到 60%
RAG 问答、摘要、日常代码修改Sonnet 5能力够用,价格取胜
最难的端到端 Agent 编码(SWE-bench Pro 级别)Opus 4.869.2% 对 63.2%,解决问题所需轮次更少
长程推理,不带工具Opus 4.8推理领先约 6.6 分
开着思考的输出密集 Agent 循环先实测Sonnet 5 单任务成本可能反超 Opus
混合负载下对成本敏感的默认选型两个都路由便宜活给 Sonnet 5,硬活给 Opus 4.8

本文余下部分就是这张表背后的证据,外加一段 10 行代码,让你在正式承诺前先在自己的负载上 A/B 两个模型。

规格速览对比

两个模型标称上下文窗口都是 1M,最大输出都是 128K。差异在价格、分词器和默认思考行为。

规格Claude Sonnet 5Claude Opus 4.8
ofox 模型 IDanthropic/claude-sonnet-5anthropic/claude-opus-4.8
输入(引入期,8 月 31 日前)$2/M$5/M
输出(引入期,8 月 31 日前)$10/M$25/M
输入(标准价,8 月 31 日后)$3/M$5/M
输出(标准价,8 月 31 日后)$15/M$25/M
缓存输入读取$0.2/M$0.5/M
缓存写入(5 分钟 / 1 小时)$2.5 / $4 per M$6.25 / $10 per M
上下文窗口1M tokens1M tokens
最大输出128K tokens128K tokens
分词器新(相比 Sonnet 4.6 约 +30%)上一代分词器
Adaptive thinking默认开启默认开启

引入期标价($2/$10 和 $5/$25)与截至 2026 年 7 月 1 日 ofox 模型页 anthropic/claude-sonnet-5anthropic/claude-opus-4.8 一致;引入期与标准价的划分、8 月 31 日的截止日期来自 Anthropic 官方定价文档。注意标准输出价:引入期结束后 Sonnet 5 落到 $15/M,对 Opus 4.8 的 $25/M,输出差距从 60% 收窄到 40%。

价格差是真的。下面把账算精确。

按单 token 单价,Sonnet 5 确实更便宜,而且每一行都更便宜:输入、输出、缓存读取。

引入期内(截至 2026 年 8 月 31 日),Sonnet 5 是 $2/$10,对 Opus 4.8 的 $5/$25。输入便宜 60%,输出便宜 60%。8 月 31 日后转标准价 $3/$15,两行都便宜 40%。缓存输入读取是 $0.2/M 对 $0.5/M,这个 60% 的降幅不受引入期影响,对 prompt 缓存密集的生产流量意义重大。

所以如果你的负载以输入 token 为主、只产生短小有界的输出,Sonnet 5 就是标题承诺的样子。故事变复杂的地方,是任何产生大量输出的场景,而这几乎就是所有 Agent 类工作。

规格表里有一行值得比通常更重视:缓存输入。Sonnet 5 读缓存输入是 $0.2/M,对 Opus 4.8 的 $0.5/M。如果你的 prompt 带着一大段稳定前缀(system prompt、工具 schema、跨调用重复出现的检索文档集),prompt 缓存才是真正省钱的地方,而 Sonnet 5 的缓存读取无论引入期与否都便宜 60%。一个生产级 RAG endpoint 把 20K token 的前缀缓存起来跨数千次调用复用,这段前缀在 Sonnet 5 上按 $0.2/M 付费,而不是 Opus 4.8 的 $0.5/M。坑在写入侧:Sonnet 5 写缓存是 $2.5/M(5 分钟)或 $4/M(1 小时),对 Opus 4.8 的 $6.25 和 $10,所以缓存在 Sonnet 5 上回本更快,但前提是命中率高到能摊平写入成本。读写比大约低于 1:1 到 1.5:1 时,无论哪个模型,缓存花的钱都比省的多。

新分词器,以及它真正影响谁

Sonnet 5 带来了新分词器。这是整个发布里最可能在账单上给你惊喜的部分,也是最常被误读的部分。

直接来自 Anthropic “What’s new in Sonnet 5” 文档 的核实事实:相同输入文本在 Sonnet 5 上产生的 token 数比 Sonnet 4.6 多约 30%。社区实测把这个区间放在 1.0 到 1.35 倍,取决于内容类型。这不是 API 改动(请求、响应、streaming 的形态都不变),但它撬动了一切以 token 计量的东西:

你在衡量的东西对 Sonnet 5 相比 Sonnet 4.6 的影响
相同文本的 usage token 计数高约 30%
能塞进 1M 窗口的文本量更少,因为每个 token 覆盖的文本更少
max_tokens 输出预算可能截断为 4.6 设定的输出
相同单价下的单请求成本相同文本,成本更高

要避开的误读是:这 30% 是 相对 Sonnet 4.6 测出来的,不是相对 Opus 4.8。Anthropic 早在 Opus 4.7 前后就引入了这类分词器改动,所以 Opus 4.8 本就跑着一套可比的上一代分词器。对相同文本,Sonnet 5 和 Opus 4.8 的 token 量大致在同一水平。分词器咬得最狠的时刻,是你 从 Sonnet 4.6 迁移到 Sonnet 5 还沿用旧 token 预算的时候,而不是在 Sonnet 5 和 Opus 4.8 之间选型的时候。

实操结论:如果你是从 Sonnet 4.6 迁过来,用 token 计数 endpoint 重新统计 prompt,并复查任何贴着预期输出设死的 max_tokens,再去相信”价格一样 $3/$15”的说法。单 token 价一样,token 变多,账单变高。我们的 Claude Code token 优化指南 讲了怎么用缓存和 prompt 精简把这部分成本抠回来。

编码 benchmark:SWE-bench Pro 与真实差距

编码 benchmark 噪声大,但 SWE-bench Pro 是值得较真的那个,因为它端到端跑真实的 GitHub issue。下面是两者的落点,附上 Sonnet 4.6 作参照。

BenchmarkSonnet 5Opus 4.8Sonnet 4.6
SWE-bench Pro(Agent 编码)63.2%69.2%58.1%
GDPval-AA v2(知识工作,Elo)1,6181,615n/a
无工具推理(差距)落后约 6.6 分领先n/a

SWE-bench Pro 和 GDPval-AA v2 的数字由 MarkTechPost 于 2026 年 6 月 30 日从 Anthropic 发布材料整理;约 6.6 分的无工具推理差距来自 Anthropic 的 System Card(经 digitalapplied.com 和 codingfleet.com),不是 MarkTechPost。榜单式分数当快照看,逐项 benchmark 来源见 Anthropic 的 Transparency Hub。这张表里有两点决定了大部分路由判断。

Opus 4.8 守住 6 分的 SWE-bench Pro 领先。 Sonnet 5 的 63.2% 相比 Sonnet 4.6 的 58.1% 是实打实的跃升,但要在困难的多文件 Agent issue 上超越,仍然要盯着 Opus 4.8 的 69.2%。SWE-bench Pro 上这 6 分,就是”第一次跑就关掉 issue”和”重试一次才关掉”之间的差别,而在长 Agent 循环里,这会累积成 token 开销。如果你的工作就活在那个天花板上,一旦把重试算进去,便宜的模型其实并不便宜。

Sonnet 5 在知识工作上险胜一头。 在 GDPval-AA v2 经济类工作榜单上,Sonnet 5 以 3 个 Elo 分(1,618 对 1,615)微弱领先 Opus 4.8。这处在噪声范围内,但结论成立:对不属于最难编码的普通专业任务,Sonnet 5 与一个贵一倍多的模型打平。Anthropic 自己的说法是,Sonnet 5 的高 effort 模式在部分任务上能追平 Opus 4.8,同时提供更宽的成本-性能区间。

在给这两个 benchmark 加权之前,先搞清它们各自到底测什么会有帮助。SWE-bench Pro 让模型端到端处理真实、未解决的 GitHub issue:模型读仓库、写补丁,补丁要么通过项目的隐藏测试套件,要么不通过。没有部分得分,这也是为什么绝对数字比选择题类评测看起来低。GDPval-AA v2 是另一种形态。它给模型在真实经济知识工作(起草、分析、结构化推理)上的表现打分,形式是相对其他模型的 Elo 评级,所以 3 分领先就是抛硬币,100 分领先才是决定性的。两张表合起来清楚地说了一件事:Opus 4.8 在关掉困难代码 issue 上明显更强,Sonnet 5 在普通专业产出上打平。这就是为什么该做路由,而不是选出唯一赢家的全部理由。

价格算账:两份真实月度账单

标价是一个数字,账单是另一个。下面两个负载得出相反结论,假设都写明了,你可以换成自己的数据。

场景 A,高并发有界输出(客服机器人、分类、抽取)。假设每月 300M 输入 token、其中一半走缓存,每月 30M 输出 token。

明细Sonnet 5(引入期)Sonnet 5(标准价)Opus 4.8
150M 新鲜输入$300$450$750
150M 缓存输入$30$30$75
30M 输出$300$450$750
月度合计$630$930$1,575
对比 Opus 4.8省 60%省 41%基准

这里折扣就是标题说的那个数。输出有界意味着更便宜的单 token 价直接流向最终账单。

场景 B,Agent 编码(长多步运行,开着思考)。假设 5 名开发者,每人每天 25 个任务,20 个工作日(每月 2,500 个任务)。每个任务:两边都是 60K 输入。输出:Opus 4.8 是 12K,Sonnet 5 约 30K,因为 adaptive thinking 默认开启,它每个任务想得更多。

明细Sonnet 5(引入期)Sonnet 5(标准价)Opus 4.8
每任务输入(60K)$0.12$0.18$0.30
每任务输出$0.30(30K)$0.45(30K)$0.30(12K)
每任务成本$0.42$0.63$0.60
月度(2,500 任务)$1,050$1,575$1,500
对比 Opus 4.8省 30%贵 5%基准

在标准价下,输出密集的 Agent 负载在 Sonnet 5 上可能比 Opus 4.8 略贵,因为多出来的思考 token 全落在输出这一行。我这个示意模型算出来是 +5%;Artificial Analysis 的独立 cost-to-run 估算更接近 +15%(每任务 $2.29 对 Opus,2026 年 6 月下旬快照)。具体数字取决于你的任务想得多深。方向不变:账面折扣撑不过长 Agent 运行的实战。 这是迁移整支 Agent 集群前最该刻进脑子里的一点。

什么时候选 Claude Sonnet 5

在输出有界、并发量高时选 anthropic/claude-sonnet-5。具体来说:

  • 分类、抽取、路由、审核。 输出短,输入量巨大,往往缓存密集。Sonnet 5 的 $2/$10 和 $0.2/M 缓存读取把这类账单砍掉 40% 到 60%。
  • RAG 问答和摘要。 重活由检索完成,模型写一段有界回复。能力绰绰有余,价格取胜。
  • 日常编码。 单文件修改、样板代码、测试脚手架、code review 评论。对不在前沿的工作,Sonnet 5 的 63.2% SWE-bench Pro 绰绰有余。
  • 聊天和助手界面。 交互轮次短;比起 Opus 级模型,Sonnet 5 的速度和价格更合适。

什么时候选 Claude Opus 4.8

当任务难到”第一次答错的代价超过差价”时,选 anthropic/claude-opus-4.8

  • 前沿 Agent 编码。 6 分的 SWE-bench Pro 领先,就是一次跑通和陷入重试循环之间的差别。在困难的多文件 issue 上,Opus 4.8 用更少的轮次收尾,更少的轮次就是更少的 token。我们在 Opus 4.8 发布评测 里深入讲了这个模型。
  • 不带工具的长程推理。 约 6.6 分的无工具推理差距,会在复杂多步问题上表现为”计划撑得住”。
  • 你实测过 Sonnet 5、结果打平或更高的输出密集 Agent 循环。 如果每任务成本两边一样,就选 benchmark 更高的那个。

什么时候两个都别选(以及改做什么)

陷阱是把这当成非此即彼的二选一替换。大多数生产负载是混合的:一大堆便宜的有界调用,加上一小撮真正困难任务的长尾。把全部塞进一个模型,要么在简单的 80% 上多付钱,要么在困难的 20% 上力不从心。

解法是路由。把有界、高并发的活发给 Sonnet 5,困难长尾发给 Opus 4.8,都藏在同一个 endpoint 后面,这样换模型只是改一个字符串,不是重新接一遍。这个模式,以及怎么选路由信号,写在我们的 Claude Code 混合路由模式 里。通过 ofox,两个模型都挂在同一个 OpenAI 兼容 API 上,所以路由器就是一次字典查表,不是接第二套 SDK。

路由的难点不在管道,而在信号:每个请求进来,你怎么在跑之前就判断这个任务是不是难?实践中有三个信号管用。输入长度是最便宜的代理指标,因为超过某个 token 阈值的请求往往就是那些多文件、高上下文、值得用 Opus 4.8 的任务。来自你自己应用的任务类型标签(分类还是开放式 Agent 工作)如果你已经有了,会更准。而置信度检查可以做兜底:先跑 Sonnet 5,只有当便宜模型的输出没通过某个校验步骤时才升级到 Opus 4.8。这个升级模式让 Opus 的占比保持很小,而这正是重点,因为 Opus 是你希望尽量少碰的贵档。

flowchart TD
    A[Incoming request] --> B{Bounded output?<br/>classification, RAG, chat}
    B -->|Yes| C[anthropic/claude-sonnet-5]
    B -->|No| D{Frontier coding or<br/>long-horizon reasoning?}
    D -->|Yes| E[anthropic/claude-opus-4.8]
    D -->|No, measure it| F[A/B both, pick lower per-task cost]

用 ofox 同时试两个:10 行代码 A/B

老实的做法是在自己的负载上把两个都跑一遍,读 token 计数。ofox 把两个模型都挂在同一个 OpenAI 兼容 endpoint(https://api.ofox.ai/v1)上,所以两次运行之间唯一变的就是模型 ID 字符串。有个坑:Sonnet 5 会对非默认的 temperaturetop_ptop_k 返回 400 错误,所以把采样参数留在默认值(下面的例子就是这么做的)。

Python:一个循环里 A/B 两个模型

from openai import OpenAI

client = OpenAI(base_url="https://api.ofox.ai/v1", api_key="YOUR_OFOX_KEY")

prompt = "Refactor this function to remove the nested loop: ..."
for model in ["anthropic/claude-sonnet-5", "anthropic/claude-opus-4.8"]:
    r = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": prompt}],
    )
    u = r.usage
    print(model, u.prompt_tokens, u.completion_tokens)

读每个模型的 completion_tokens。这一列乘以输出单价,就是”更便宜”的模型悄悄不再便宜的地方。

Node:同样的形态

import OpenAI from "openai";

const client = new OpenAI({ baseURL: "https://api.ofox.ai/v1", apiKey: process.env.OFOX_KEY });

const prompt = "Refactor this function to remove the nested loop: ...";
for (const model of ["anthropic/claude-sonnet-5", "anthropic/claude-opus-4.8"]) {
  const r = await client.chat.completions.create({
    model,
    messages: [{ role: "user", content: prompt }],
  });
  console.log(model, r.usage.prompt_tokens, r.usage.completion_tokens);
}

在 20 到 30 个有代表性的任务上跑一遍,把每个模型的输入和输出 token 加总,再乘以规格表里的单价。这个数字比任何 benchmark 都更能决定该把哪个模型路由到哪里。想看整条 Claude 线的完整定价拆解,见我们的 Claude API 定价指南

迁移坑点:切到 Sonnet 5 会有什么坏掉

Sonnet 5 在形态上是 Sonnet 4.6 的直接替代品,但有三处行为变化,如果你的旧代码假设了 4.6 的默认值,就会返回 400 错误。大多数情况下这些相对 Opus 4.8 代码也成立。

变化旧行为在 Sonnet 5 上
采样参数temperature/top_p/top_k 被接受非默认值返回 400
手动扩展思考部分模型接受 budget_tokens返回 400;改用 adaptive thinking + effort
默认思考除非请求否则关闭(4.6)adaptive thinking 默认开启;传 thinking: {type: "disabled"} 关闭
max_tokens 设定按 4.6 token 计数调校可能截断;新分词器吐出更多 token

max_tokens 这条是最阴的故障。如果你按 Sonnet 4.6 把输出预算卡得很紧,同样的生成在 Sonnet 5 上对相同文本产生更多 token,可能在答到一半时撞上上限。把预算调高,否则你会发出被截断的回复。还有一个新的安全机制要知道:Sonnet 5 是首个带实时网络安全拒答的 Sonnet 层模型,它以成功的 HTTP 200 加 stop_reason: "refusal" 返回,而不是报错,所以要显式处理这个 stop reason。

adaptive thinking 是最可能撬动你账单的变化,而且它带了个旋钮。取代旧的 budget_tokens 旋钮,Sonnet 5 暴露了一个 effort 参数(low、medium、high),在推理深度和 token 开销之间做权衡。如果你迁移了一个 Opus 4.8 负载、以为 Sonnet 5 会更便宜,结果账单没变,第一件该试的事就是把不需要深推理的调用的 effort 调低。对一次分类调用用 high effort 纯属浪费,而这正是场景 B 里很多意外成本的来源。按路由逐个刻意设置 effort,别把每次调用都留在默认值。

干净的迁移测试不是 benchmark 分数,而是 completion_tokens 这一列:在你真实的任务上把两个模型都跑一遍,让 token 计数而不是价目表来决定路由。

FAQ

Claude Sonnet 5 比 Opus 4.8 更强吗? 不是全面更强。Opus 4.8 在 SWE-bench Pro(69.2% 对 63.2%)和无工具推理(约 6.6 分)上领先。Sonnet 5 在知识工作上微弱领先(GDPval-AA v2:1,618 对 1,615),价格上取胜。Sonnet 5 是更合适的默认选择;Opus 4.8 的溢价体现在最难的任务上。

Claude Sonnet 5 比 Opus 4.8 便宜多少? 引入期定价便宜 60%($2/$10,截至 2026 年 8 月 31 日),之后标准价 $3/$15 便宜 40%。缓存输入也便宜 60%($0.2/M 对 $0.5/M)。

Claude Sonnet 5 换了新分词器吗? 换了,相同文本产生的 token 数比 Sonnet 4.6 多约 30%。这不是 API 改动,但如果你从 4.6 迁移,请重新统计 prompt 并复查 max_tokens

为什么 Claude Sonnet 5 每个任务的实际花费比标价看起来更贵? adaptive thinking 默认开启,所以每个任务吐出更多输出 token。Artificial Analysis 估算每任务约 $2.29,在他们的 Agent 评测里比 Opus 4.8 高约 15%。

Claude Sonnet 5 适合写代码吗? 大部分编码场景适合(63.2% SWE-bench Pro,比 Sonnet 4.6 的 58.1% 高)。把最难的 Agent issue 路由给 Opus 4.8。

我该从 Opus 4.8 切到 Sonnet 5 吗? 把高并发、有界输出的部分切过去,这块账单砍掉 40% 到 60%。硬长尾留给 Opus 4.8。做路由,别做替换。

Claude Sonnet 5 的上下文窗口有多大? 1M token,最大输出 128K。新分词器意味着这个窗口装下的实际文本比 Sonnet 4.6 同样窗口更少。

Claude Sonnet 5 能设置 temperature 吗? 不能。非默认的 temperaturetop_ptop_k 返回 400 错误。去掉它们,改用 system prompt 引导。

参考信息来源

  • Anthropic,“What’s new in Claude Sonnet 5” 文档(分词器、行为变化、定价),2026 年 7 月 1 日核实:https://platform.claude.com/docs/en/about-claude/models/whats-new-sonnet-5
  • Anthropic,“Introducing Claude Sonnet 5” 发布博文,2026 年 6 月 30 日:https://www.anthropic.com/news/claude-sonnet-5
  • Anthropic Transparency Hub(逐项 benchmark 来源):https://www.anthropic.com/transparency
  • MarkTechPost benchmark 汇编(仅 SWE-bench Pro、GDPval-AA v2),2026 年 6 月 30 日
  • Anthropic System Card,经 digitalapplied.com 和 codingfleet.com(无工具推理差距,约 6.6 分)
  • Artificial Analysis cost-to-run 估算(每任务 $2.29),2026 年 6 月下旬快照
  • ofox 模型页 anthropic/claude-sonnet-5anthropic/claude-opus-4.8(引入期标价 $2/$10 和 $5/$25、上下文窗口),2026 年 7 月 1 日核实;引入期/标准价分层与 8 月 31 日截止日期依据 Anthropic 定价文档