Claude Sonnet 5 对比 Opus 4.8（2026）：账面便宜 60%，账单未必

Q: Claude Sonnet 5 比 Opus 4.8 更强吗？

不是全面更强。在最难的编码和推理两项上，Opus 4.8 依然领先：SWE-bench Pro 69.2% 对 Sonnet 5 的 63.2%，无工具推理差距约 6.6 分。知识类工作上 Sonnet 5 微弱领先（GDPval-AA v2：1,618 对 1,615），价格上则完胜。对大多数专业工作来说 Sonnet 5 是更合适的默认选择，Opus 4.8 的溢价体现在最难的那 10% 到 20% 任务上。

Q: Claude Sonnet 5 比 Opus 4.8 便宜多少？

按引入期定价（2026 年 8 月 31 日前每百万输入/输出 token $2/$10），Sonnet 5 比 Opus 4.8 的 $5/$25 便宜 60%。8 月 31 日后转为标准价 $3/$15，仍比 Opus 便宜 40%。缓存输入 Sonnet 5 是 $0.2/M，Opus 是 $0.5/M，同样便宜 60%。这些都是单 token 单价；每个任务的实际账单取决于各模型真正吐出多少 token。

Q: Claude Sonnet 5 换了新分词器吗？

换了。Anthropic 文档写明 Sonnet 5 用了新分词器，相同文本产生的 token 数比 Sonnet 4.6 多约 30%（社区实测区间在 1.0 到 1.35 倍之间）。这不是 API 层面的改动，无需改代码，但 token 计数、上下文窗口能装下的文本量、以及 max_tokens 预算都会随之变化。如果你从 Sonnet 4.6 迁移过来，先重新统计一遍 prompt，别直接沿用旧预算。

Q: 为什么 Claude Sonnet 5 每个任务的实际花费比标价看起来更贵？

两个原因。Sonnet 5 默认开启 adaptive thinking，同一任务会比不开思考的 Sonnet 4.6 调用吐出更多输出和思考 token，而输出是按更高单价计费的。Artificial Analysis 的独立 cost-to-run 估算把 Sonnet 5 放在每任务约 $2.29，大约是 Sonnet 4.6 的两倍，在他们的 Agent 评测里比 Opus 4.8 高约 15%。在输出密集的 Agent 场景下，账面折扣可能缩水到零甚至反转。

Q: Claude Sonnet 5 适合写代码吗？

大部分编码场景都适合。它在 SWE-bench Pro 上拿到 63.2%，比 Sonnet 4.6 的 58.1% 有提升，是 Anthropic Sonnet 层里 Agent 能力最强的模型。日常功能开发、重构、RAG 问答用它性价比最高。但最难的端到端 Agent 类 issue，Opus 4.8 的 69.2% 和更强的长程推理仍值得把难任务路由给它。

Q: 我该从 Opus 4.8 切到 Sonnet 5 吗？

把高并发、输出有界的那部分负载（分类、抽取、聊天、短代码修改）切到 Sonnet 5，这块账单能砍掉 40% 到 60%。最难的 Agent 和推理任务继续留给 Opus 4.8。务实的做法是路由而非替换：便宜的有界任务走 Sonnet 5，困难的长程任务走 Opus 4.8，两者藏在同一个 endpoint 后面。

Q: Claude Sonnet 5 的上下文窗口有多大？

1M token，与 Opus 4.8 标称窗口相同，最大输出 128K token。有一点要注意：因为新分词器每个 token 装的文本更少，Sonnet 5 上 1M token 的窗口实际装下的文本比 Sonnet 4.6 同样窗口更少。数字没变，文本容量变小了。

Q: Claude Sonnet 5 能设置 temperature 吗？

不能。把 temperature、top_p 或 top_k 设成非默认值，Sonnet 5 会返回 400 错误，这和 Anthropic 在 Opus 4.7 上引入的限制一样。迁移时把这些参数去掉，改用 system prompt 来引导行为。手动扩展思考（budget_tokens）同样返回 400；改用 adaptive thinking 加 effort 参数。

一句话总结 Anthropic 在 2026 年 6 月 30 日发布 Claude Sonnet 5，引入期定价 每百万 token $2/$10，比 Opus 4.8 的 $5/$25 低 60%（8 月 31 日后标准价 $3/$15，仍低 40%）。能力上，Opus 4.8 守住了对硬任务最关键的两行：SWE-bench Pro 69.2% 对 63.2%，以及约 6.6 分的无工具推理领先。有两件事悄悄拉近了价格差：一是 新分词器，相同文本比 Sonnet 4.6 多算约 30% 的 token；二是 adaptive thinking 默认开启，Artificial Analysis 测出每个 Agent 任务的成本比 Opus 4.8 高约 15%。标价写着打四折，账单写着”看你的负载”。下面是精确算账、benchmark 对照表、两份真实月度账单，以及一个把两个模型都用上的路由方案。

Claude Sonnet 5 标价比 Opus 4.8 低 60%，但 adaptive thinking 加上新分词器，意味着输出密集的 Agent 负载可能花得一样多甚至更多。对有界输出而言这个折扣是真的，对长程 Agent 运行而言则是空的。

一句话结论：你到底该选哪个

对大多数团队来说答案是”Sonnet 5 当默认，Opus 4.8 留给最难的长尾”。按场景给出一行判断。

场景	选择	理由
高并发分类 / 抽取 / 聊天	Sonnet 5	输出有界，token 更便宜，账单低 40% 到 60%
RAG 问答、摘要、日常代码修改	Sonnet 5	能力够用，价格取胜
最难的端到端 Agent 编码（SWE-bench Pro 级别）	Opus 4.8	69.2% 对 63.2%，解决问题所需轮次更少
长程推理，不带工具	Opus 4.8	推理领先约 6.6 分
开着思考的输出密集 Agent 循环	先实测	Sonnet 5 单任务成本可能反超 Opus
混合负载下对成本敏感的默认选型	两个都路由	便宜活给 Sonnet 5，硬活给 Opus 4.8

本文余下部分就是这张表背后的证据，外加一段 10 行代码，让你在正式承诺前先在自己的负载上 A/B 两个模型。

规格速览对比

两个模型标称上下文窗口都是 1M，最大输出都是 128K。差异在价格、分词器和默认思考行为。

规格	Claude Sonnet 5	Claude Opus 4.8
ofox 模型 ID	`anthropic/claude-sonnet-5`	`anthropic/claude-opus-4.8`
输入（引入期，8 月 31 日前）	$2/M	$5/M
输出（引入期，8 月 31 日前）	$10/M	$25/M
输入（标准价，8 月 31 日后）	$3/M	$5/M
输出（标准价，8 月 31 日后）	$15/M	$25/M
缓存输入读取	$0.2/M	$0.5/M
缓存写入（5 分钟 / 1 小时）	$2.5 / $4 per M	$6.25 / $10 per M
上下文窗口	1M tokens	1M tokens
最大输出	128K tokens	128K tokens
分词器	新（相比 Sonnet 4.6 约 +30%）	上一代分词器
Adaptive thinking	默认开启	默认开启

引入期标价（$2/$10 和 $5/$25）与截至 2026 年 7 月 1 日 ofox 模型页 anthropic/claude-sonnet-5 和 anthropic/claude-opus-4.8 一致；引入期与标准价的划分、8 月 31 日的截止日期来自 Anthropic 官方定价文档。注意标准输出价：引入期结束后 Sonnet 5 落到 $15/M，对 Opus 4.8 的 $25/M，输出差距从 60% 收窄到 40%。

价格差是真的。下面把账算精确。

按单 token 单价，Sonnet 5 确实更便宜，而且每一行都更便宜：输入、输出、缓存读取。

引入期内（截至 2026 年 8 月 31 日），Sonnet 5 是 $2/$10，对 Opus 4.8 的 $5/$25。输入便宜 60%，输出便宜 60%。8 月 31 日后转标准价 $3/$15，两行都便宜 40%。缓存输入读取是 $0.2/M 对 $0.5/M，这个 60% 的降幅不受引入期影响，对 prompt 缓存密集的生产流量意义重大。

所以如果你的负载以输入 token 为主、只产生短小有界的输出，Sonnet 5 就是标题承诺的样子。故事变复杂的地方，是任何产生大量输出的场景，而这几乎就是所有 Agent 类工作。

规格表里有一行值得比通常更重视：缓存输入。Sonnet 5 读缓存输入是 $0.2/M，对 Opus 4.8 的 $0.5/M。如果你的 prompt 带着一大段稳定前缀（system prompt、工具 schema、跨调用重复出现的检索文档集），prompt 缓存才是真正省钱的地方，而 Sonnet 5 的缓存读取无论引入期与否都便宜 60%。一个生产级 RAG endpoint 把 20K token 的前缀缓存起来跨数千次调用复用，这段前缀在 Sonnet 5 上按 $0.2/M 付费，而不是 Opus 4.8 的 $0.5/M。坑在写入侧：Sonnet 5 写缓存是 $2.5/M（5 分钟）或 $4/M（1 小时），对 Opus 4.8 的 $6.25 和 $10，所以缓存在 Sonnet 5 上回本更快，但前提是命中率高到能摊平写入成本。读写比大约低于 1:1 到 1.5:1 时，无论哪个模型，缓存花的钱都比省的多。

新分词器，以及它真正影响谁

Sonnet 5 带来了新分词器。这是整个发布里最可能在账单上给你惊喜的部分，也是最常被误读的部分。

直接来自 Anthropic “What’s new in Sonnet 5” 文档的核实事实：相同输入文本在 Sonnet 5 上产生的 token 数比 Sonnet 4.6 多约 30%。社区实测把这个区间放在 1.0 到 1.35 倍，取决于内容类型。这不是 API 改动（请求、响应、streaming 的形态都不变），但它撬动了一切以 token 计量的东西：

你在衡量的东西	对 Sonnet 5 相比 Sonnet 4.6 的影响
相同文本的 `usage` token 计数	高约 30%
能塞进 1M 窗口的文本量	更少，因为每个 token 覆盖的文本更少
`max_tokens` 输出预算	可能截断为 4.6 设定的输出
相同单价下的单请求成本	相同文本，成本更高

要避开的误读是：这 30% 是 相对 Sonnet 4.6 测出来的，不是相对 Opus 4.8。Anthropic 早在 Opus 4.7 前后就引入了这类分词器改动，所以 Opus 4.8 本就跑着一套可比的上一代分词器。对相同文本，Sonnet 5 和 Opus 4.8 的 token 量大致在同一水平。分词器咬得最狠的时刻，是你 从 Sonnet 4.6 迁移到 Sonnet 5 还沿用旧 token 预算的时候，而不是在 Sonnet 5 和 Opus 4.8 之间选型的时候。

实操结论：如果你是从 Sonnet 4.6 迁过来，用 token 计数 endpoint 重新统计 prompt，并复查任何贴着预期输出设死的 max_tokens，再去相信”价格一样 $3/$15”的说法。单 token 价一样，token 变多，账单变高。我们的 Claude Code token 优化指南讲了怎么用缓存和 prompt 精简把这部分成本抠回来。

编码 benchmark：SWE-bench Pro 与真实差距

编码 benchmark 噪声大，但 SWE-bench Pro 是值得较真的那个，因为它端到端跑真实的 GitHub issue。下面是两者的落点，附上 Sonnet 4.6 作参照。

Benchmark	Sonnet 5	Opus 4.8	Sonnet 4.6
SWE-bench Pro（Agent 编码）	63.2%	69.2%	58.1%
GDPval-AA v2（知识工作，Elo）	1,618	1,615	n/a
无工具推理（差距）	落后约 6.6 分	领先	n/a

SWE-bench Pro 和 GDPval-AA v2 的数字由 MarkTechPost 于 2026 年 6 月 30 日从 Anthropic 发布材料整理；约 6.6 分的无工具推理差距来自 Anthropic 的 System Card（经 digitalapplied.com 和 codingfleet.com），不是 MarkTechPost。榜单式分数当快照看，逐项 benchmark 来源见 Anthropic 的 Transparency Hub。这张表里有两点决定了大部分路由判断。

Opus 4.8 守住 6 分的 SWE-bench Pro 领先。 Sonnet 5 的 63.2% 相比 Sonnet 4.6 的 58.1% 是实打实的跃升，但要在困难的多文件 Agent issue 上超越，仍然要盯着 Opus 4.8 的 69.2%。SWE-bench Pro 上这 6 分，就是”第一次跑就关掉 issue”和”重试一次才关掉”之间的差别，而在长 Agent 循环里，这会累积成 token 开销。如果你的工作就活在那个天花板上，一旦把重试算进去，便宜的模型其实并不便宜。

Sonnet 5 在知识工作上险胜一头。 在 GDPval-AA v2 经济类工作榜单上，Sonnet 5 以 3 个 Elo 分（1,618 对 1,615）微弱领先 Opus 4.8。这处在噪声范围内，但结论成立：对不属于最难编码的普通专业任务，Sonnet 5 与一个贵一倍多的模型打平。Anthropic 自己的说法是，Sonnet 5 的高 effort 模式在部分任务上能追平 Opus 4.8，同时提供更宽的成本-性能区间。

在给这两个 benchmark 加权之前，先搞清它们各自到底测什么会有帮助。SWE-bench Pro 让模型端到端处理真实、未解决的 GitHub issue：模型读仓库、写补丁，补丁要么通过项目的隐藏测试套件，要么不通过。没有部分得分，这也是为什么绝对数字比选择题类评测看起来低。GDPval-AA v2 是另一种形态。它给模型在真实经济知识工作（起草、分析、结构化推理）上的表现打分，形式是相对其他模型的 Elo 评级，所以 3 分领先就是抛硬币，100 分领先才是决定性的。两张表合起来清楚地说了一件事：Opus 4.8 在关掉困难代码 issue 上明显更强，Sonnet 5 在普通专业产出上打平。这就是为什么该做路由，而不是选出唯一赢家的全部理由。

价格算账：两份真实月度账单

标价是一个数字，账单是另一个。下面两个负载得出相反结论，假设都写明了，你可以换成自己的数据。

场景 A，高并发有界输出（客服机器人、分类、抽取）。假设每月 300M 输入 token、其中一半走缓存，每月 30M 输出 token。

明细	Sonnet 5（引入期）	Sonnet 5（标准价）	Opus 4.8
150M 新鲜输入	$300	$450	$750
150M 缓存输入	$30	$30	$75
30M 输出	$300	$450	$750
月度合计	$630	$930	$1,575
对比 Opus 4.8	省 60%	省 41%	基准

这里折扣就是标题说的那个数。输出有界意味着更便宜的单 token 价直接流向最终账单。

场景 B，Agent 编码（长多步运行，开着思考）。假设 5 名开发者，每人每天 25 个任务，20 个工作日（每月 2,500 个任务）。每个任务：两边都是 60K 输入。输出：Opus 4.8 是 12K，Sonnet 5 约 30K，因为 adaptive thinking 默认开启，它每个任务想得更多。

明细	Sonnet 5（引入期）	Sonnet 5（标准价）	Opus 4.8
每任务输入（60K）	$0.12	$0.18	$0.30
每任务输出	$0.30（30K）	$0.45（30K）	$0.30（12K）
每任务成本	$0.42	$0.63	$0.60
月度（2,500 任务）	$1,050	$1,575	$1,500
对比 Opus 4.8	省 30%	贵 5%	基准

在标准价下，输出密集的 Agent 负载在 Sonnet 5 上可能比 Opus 4.8 略贵，因为多出来的思考 token 全落在输出这一行。我这个示意模型算出来是 +5%；Artificial Analysis 的独立 cost-to-run 估算更接近 +15%（每任务 $2.29 对 Opus，2026 年 6 月下旬快照）。具体数字取决于你的任务想得多深。方向不变：账面折扣撑不过长 Agent 运行的实战。 这是迁移整支 Agent 集群前最该刻进脑子里的一点。

什么时候选 Claude Sonnet 5

在输出有界、并发量高时选 anthropic/claude-sonnet-5。具体来说：

分类、抽取、路由、审核。 输出短，输入量巨大，往往缓存密集。Sonnet 5 的 $2/$10 和 $0.2/M 缓存读取把这类账单砍掉 40% 到 60%。
RAG 问答和摘要。 重活由检索完成，模型写一段有界回复。能力绰绰有余，价格取胜。
日常编码。 单文件修改、样板代码、测试脚手架、code review 评论。对不在前沿的工作，Sonnet 5 的 63.2% SWE-bench Pro 绰绰有余。
聊天和助手界面。 交互轮次短；比起 Opus 级模型，Sonnet 5 的速度和价格更合适。

什么时候选 Claude Opus 4.8

当任务难到”第一次答错的代价超过差价”时，选 anthropic/claude-opus-4.8：

前沿 Agent 编码。 6 分的 SWE-bench Pro 领先，就是一次跑通和陷入重试循环之间的差别。在困难的多文件 issue 上，Opus 4.8 用更少的轮次收尾，更少的轮次就是更少的 token。我们在 Opus 4.8 发布评测里深入讲了这个模型。
不带工具的长程推理。 约 6.6 分的无工具推理差距，会在复杂多步问题上表现为”计划撑得住”。
你实测过 Sonnet 5、结果打平或更高的输出密集 Agent 循环。 如果每任务成本两边一样，就选 benchmark 更高的那个。

什么时候两个都别选（以及改做什么）

陷阱是把这当成非此即彼的二选一替换。大多数生产负载是混合的：一大堆便宜的有界调用，加上一小撮真正困难任务的长尾。把全部塞进一个模型，要么在简单的 80% 上多付钱，要么在困难的 20% 上力不从心。

解法是路由。把有界、高并发的活发给 Sonnet 5，困难长尾发给 Opus 4.8，都藏在同一个 endpoint 后面，这样换模型只是改一个字符串，不是重新接一遍。这个模式，以及怎么选路由信号，写在我们的 Claude Code 混合路由模式里。通过 ofox，两个模型都挂在同一个 OpenAI 兼容 API 上，所以路由器就是一次字典查表，不是接第二套 SDK。

路由的难点不在管道，而在信号：每个请求进来，你怎么在跑之前就判断这个任务是不是难？实践中有三个信号管用。输入长度是最便宜的代理指标，因为超过某个 token 阈值的请求往往就是那些多文件、高上下文、值得用 Opus 4.8 的任务。来自你自己应用的任务类型标签（分类还是开放式 Agent 工作）如果你已经有了，会更准。而置信度检查可以做兜底：先跑 Sonnet 5，只有当便宜模型的输出没通过某个校验步骤时才升级到 Opus 4.8。这个升级模式让 Opus 的占比保持很小，而这正是重点，因为 Opus 是你希望尽量少碰的贵档。

flowchart TD
    A[Incoming request] --> B{Bounded output?<br/>classification, RAG, chat}
    B -->|Yes| C[anthropic/claude-sonnet-5]
    B -->|No| D{Frontier coding or<br/>long-horizon reasoning?}
    D -->|Yes| E[anthropic/claude-opus-4.8]
    D -->|No, measure it| F[A/B both, pick lower per-task cost]

用 ofox 同时试两个：10 行代码 A/B

老实的做法是在自己的负载上把两个都跑一遍，读 token 计数。ofox 把两个模型都挂在同一个 OpenAI 兼容 endpoint（https://api.ofox.ai/v1）上，所以两次运行之间唯一变的就是模型 ID 字符串。有个坑：Sonnet 5 会对非默认的 temperature、top_p、top_k 返回 400 错误，所以把采样参数留在默认值（下面的例子就是这么做的）。

Python：一个循环里 A/B 两个模型

from openai import OpenAI

client = OpenAI(base_url="https://api.ofox.ai/v1", api_key="YOUR_OFOX_KEY")

prompt = "Refactor this function to remove the nested loop: ..."
for model in ["anthropic/claude-sonnet-5", "anthropic/claude-opus-4.8"]:
    r = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": prompt}],
    )
    u = r.usage
    print(model, u.prompt_tokens, u.completion_tokens)

读每个模型的 completion_tokens。这一列乘以输出单价，就是”更便宜”的模型悄悄不再便宜的地方。

Node：同样的形态

import OpenAI from "openai";

const client = new OpenAI({ baseURL: "https://api.ofox.ai/v1", apiKey: process.env.OFOX_KEY });

const prompt = "Refactor this function to remove the nested loop: ...";
for (const model of ["anthropic/claude-sonnet-5", "anthropic/claude-opus-4.8"]) {
  const r = await client.chat.completions.create({
    model,
    messages: [{ role: "user", content: prompt }],
  });
  console.log(model, r.usage.prompt_tokens, r.usage.completion_tokens);
}

在 20 到 30 个有代表性的任务上跑一遍，把每个模型的输入和输出 token 加总，再乘以规格表里的单价。这个数字比任何 benchmark 都更能决定该把哪个模型路由到哪里。想看整条 Claude 线的完整定价拆解，见我们的 Claude API 定价指南。

迁移坑点：切到 Sonnet 5 会有什么坏掉

Sonnet 5 在形态上是 Sonnet 4.6 的直接替代品，但有三处行为变化，如果你的旧代码假设了 4.6 的默认值，就会返回 400 错误。大多数情况下这些相对 Opus 4.8 代码也成立。

变化	旧行为	在 Sonnet 5 上
采样参数	`temperature`/`top_p`/`top_k` 被接受	非默认值返回 400
手动扩展思考	部分模型接受 `budget_tokens`	返回 400；改用 adaptive thinking + `effort`
默认思考	除非请求否则关闭（4.6）	adaptive thinking 默认开启；传 `thinking: {type: "disabled"}` 关闭
`max_tokens` 设定	按 4.6 token 计数调校	可能截断；新分词器吐出更多 token

max_tokens 这条是最阴的故障。如果你按 Sonnet 4.6 把输出预算卡得很紧，同样的生成在 Sonnet 5 上对相同文本产生更多 token，可能在答到一半时撞上上限。把预算调高，否则你会发出被截断的回复。还有一个新的安全机制要知道：Sonnet 5 是首个带实时网络安全拒答的 Sonnet 层模型，它以成功的 HTTP 200 加 stop_reason: "refusal" 返回，而不是报错，所以要显式处理这个 stop reason。

adaptive thinking 是最可能撬动你账单的变化，而且它带了个旋钮。取代旧的 budget_tokens 旋钮，Sonnet 5 暴露了一个 effort 参数（low、medium、high），在推理深度和 token 开销之间做权衡。如果你迁移了一个 Opus 4.8 负载、以为 Sonnet 5 会更便宜，结果账单没变，第一件该试的事就是把不需要深推理的调用的 effort 调低。对一次分类调用用 high effort 纯属浪费，而这正是场景 B 里很多意外成本的来源。按路由逐个刻意设置 effort，别把每次调用都留在默认值。

干净的迁移测试不是 benchmark 分数，而是 completion_tokens 这一列：在你真实的任务上把两个模型都跑一遍，让 token 计数而不是价目表来决定路由。

FAQ

Claude Sonnet 5 比 Opus 4.8 更强吗？ 不是全面更强。Opus 4.8 在 SWE-bench Pro（69.2% 对 63.2%）和无工具推理（约 6.6 分）上领先。Sonnet 5 在知识工作上微弱领先（GDPval-AA v2：1,618 对 1,615），价格上取胜。Sonnet 5 是更合适的默认选择；Opus 4.8 的溢价体现在最难的任务上。

Claude Sonnet 5 比 Opus 4.8 便宜多少？ 引入期定价便宜 60%（$2/$10，截至 2026 年 8 月 31 日），之后标准价 $3/$15 便宜 40%。缓存输入也便宜 60%（$0.2/M 对 $0.5/M）。

Claude Sonnet 5 换了新分词器吗？ 换了，相同文本产生的 token 数比 Sonnet 4.6 多约 30%。这不是 API 改动，但如果你从 4.6 迁移，请重新统计 prompt 并复查 max_tokens。

为什么 Claude Sonnet 5 每个任务的实际花费比标价看起来更贵？ adaptive thinking 默认开启，所以每个任务吐出更多输出 token。Artificial Analysis 估算每任务约 $2.29，在他们的 Agent 评测里比 Opus 4.8 高约 15%。

Claude Sonnet 5 适合写代码吗？ 大部分编码场景适合（63.2% SWE-bench Pro，比 Sonnet 4.6 的 58.1% 高）。把最难的 Agent issue 路由给 Opus 4.8。

我该从 Opus 4.8 切到 Sonnet 5 吗？ 把高并发、有界输出的部分切过去，这块账单砍掉 40% 到 60%。硬长尾留给 Opus 4.8。做路由，别做替换。

Claude Sonnet 5 的上下文窗口有多大？ 1M token，最大输出 128K。新分词器意味着这个窗口装下的实际文本比 Sonnet 4.6 同样窗口更少。

Claude Sonnet 5 能设置 temperature 吗？ 不能。非默认的 temperature、top_p 或 top_k 返回 400 错误。去掉它们，改用 system prompt 引导。

参考信息来源

Anthropic，“What’s new in Claude Sonnet 5” 文档（分词器、行为变化、定价），2026 年 7 月 1 日核实：https://platform.claude.com/docs/en/about-claude/models/whats-new-sonnet-5
Anthropic，“Introducing Claude Sonnet 5” 发布博文，2026 年 6 月 30 日：https://www.anthropic.com/news/claude-sonnet-5
Anthropic Transparency Hub（逐项 benchmark 来源）：https://www.anthropic.com/transparency
MarkTechPost benchmark 汇编（仅 SWE-bench Pro、GDPval-AA v2），2026 年 6 月 30 日
Anthropic System Card，经 digitalapplied.com 和 codingfleet.com（无工具推理差距，约 6.6 分）
Artificial Analysis cost-to-run 估算（每任务 $2.29），2026 年 6 月下旬快照
ofox 模型页 anthropic/claude-sonnet-5 与 anthropic/claude-opus-4.8（引入期标价 $2/$10 和 $5/$25、上下文窗口），2026 年 7 月 1 日核实；引入期/标准价分层与 8 月 31 日截止日期依据 Anthropic 定价文档