Claude Opus 4.8 比 4.7 强吗？

强，而且是可量化的。SWE-bench Pro 从 64.3% 提升到 69.2%，OSWorld-Verified 从 82.8% 到 83.4%，在 Artificial Analysis 的 GDPval-AA 真实工作榜单上拿到 1890 Elo，比 4.7 高出 137 分。更关键的是，它完成同样任务的轮次少 15%、输出 token 少 35%——既更强，跑起来还更省。

Claude Opus 4.8 比 4.7 贵吗？

不贵。挂牌价与 Opus 4.7 完全一致：输入 $5 / 百万 token，输出 $25 / 百万 token，且标准价就包含完整的 1M token 上下文窗口。由于 4.8 完成同样工作的输出 token 约少 35%，在 agent 类工作负载上你的实际账单反而可能比 4.7 更低。

如何通过 API 接入 Claude Opus 4.8？

模型 ID 是 anthropic/claude-opus-4.8。通过 ofox.ai，你可以用现成的 OpenAI SDK 在 api.ofox.ai/v1 这个 OpenAI 兼容端点上直接调用——只需改 base URL 和 key，无需单独的 Anthropic 账号或计费。

我该从 Opus 4.7 迁移到 4.8 吗？

对大多数团队来说，该迁。同样的价格、几乎所有基准都更高的分数、更省 token。主要注意点：effort 默认值在所有平台改为 'high'；仍不支持显式 thinking budget（用 adaptive thinking）；为 4.7 调过的工具调用提示词行为可能略有不同，因为 4.8 更不容易漏掉该调的工具。上生产前先用有代表性的样本测一遍。

Claude Opus 4.8 发布：基准、Fast Mode 与真正的变化

Q: Opus 4.8 的 Fast Mode 是什么？

Fast Mode 是 Claude API 上的研究预览选项，用同一个 Opus 4.8 模型提供最高 2.5 倍的每秒输出 token 速度，按溢价计费。API 里设 speed: "fast"，Claude Code 里用 /fast 开启。它不是更小更便宜的模型，而是同一个 Opus 4.8 跑得更快——你为速度付费，不是为降级付费。

TL;DR —— Anthropic 于 2026 年 5 月 28 日发布 Claude Opus 4.8，价格与 4.7 持平（$5/$25）。它在 Artificial Analysis 的 GDPval-AA 真实工作榜单上以 1890 Elo 登顶（领先 GPT-5.5 121 分，领先 4.7 137 分），SWE-bench Pro 拿下 69.2%，而且完成同样任务的输出 token 比 4.7 少约 35%——更强，跑起来还更省。本次新增 Fast Mode（2.5 倍输出速度）、会话中途 system 消息，以及 Claude Code 的 dynamic workflows。Anthropic 还称它是迄今最诚实的模型。

Anthropic 这次发了什么

Claude Opus 4.8 于 2026 年 5 月 28 日上线，距 GPT-5.5（4 月 23 日发布）刷新榜单顶端约五周。模型 ID 为 claude-opus-4-8，在 Claude API 上默认携带完整的 1M token 上下文窗口（Microsoft Foundry 为 200K），最大输出 128K token，并且——对预算规划很重要——挂牌价与 Opus 4.7 完全相同：输入 $5、输出 $25 / 百万 token。

这次的主线既不是降价，也不是加上下文，而是：Opus 4.8 是第一个在真实 agent 工作上明显拉开与 GPT-5.5 一代差距的模型，而且用更少的 token 做到。

GDPval-AA 的结果

最值得看的数字不来自 Anthropic，而来自独立评测机构 Artificial Analysis。他们的 GDPval-AA 榜单用真实经济工作任务（取自 OpenAI 的 GDPval 数据集，覆盖 9 大行业 44 种职业）给模型打分：在 agent 循环中给每个模型 shell 访问和网页浏览能力（通过他们开源的 Stirrup 框架），再用盲对比的胜负推导 Elo 评分。

GDPval-AA 榜单——Claude Opus 4.8（max）以 1890 Elo 登顶

Opus 4.8（max effort）以 1890 Elo 首发登顶，比第二名的 GPT-5.5 高出 121 分，比自家前代 高出 137 分。这个差距换算成对 GPT-5.5（xhigh）的隐含胜率约为 67%。榜单前四名里有三个是 Claude 模型。

比单纯的基准百分比更可信的一点：Artificial Analysis 指出，Opus 4.8 拿到这个分数时，每个任务的轮次比 4.7 少 15%、输出 token 少 35%。代价是它仍比 GPT-5.5 多约 30% 的轮次才能完成同样任务——Opus 在动手前思考得更多。对于输出 token 占账单大头的 agent 流水线来说，更少的 token + 更高的胜率，才是真正能压低月度账单的组合。

与同代旗舰的基准对比

Anthropic 自家数据在编码和电脑操作上与独立结果吻合，只有一处需要如实指出的例外。

基准	Opus 4.8	Opus 4.7	GPT-5.5	Gemini 3.1 Pro
SWE-bench Pro	69.2%	64.3%	58.6%	54.2%
OSWorld-Verified（电脑操作）	83.4%	82.8%	78.7%	76.2%
Terminal-Bench 2.1	74.6%	66.1%	78.2%	70.3%
Humanity’s Last Exam（带工具）	57.9%	—	—	—
Finance Agent v2	53.9%	—	—	—
GDPval-AA（Elo）	1890	1753	1769	—

SWE-bench Pro 用的是真实开源仓库而非合成任务，69.2% 比上一代的同类标杆 Opus 4.7 高出近 5 个点。OSWorld-Verified（直接驱动真实桌面）则是 Opus 一直低调领先的项目。

值得点出的例外：Terminal-Bench 2.1 仍是 GPT-5.5 赢（78.2% vs 74.6%）。如果你的负载大量是原始终端命令序列，这是个真实数据点，不是误差。但对大多数 agent 类编码——多文件重构、长时自主运行、整库级任务——Opus 4.8 现在是最强选项。

引擎盖下的新东西

除了分数，有四个 API 层面的变化对在 Opus 4.8 上做开发的人很重要。

Fast Mode。 这是个研究预览，用同一个 Opus 4.8 模型提供最高 2.5 倍的每秒输出 token 速度，按溢价计费。API 里设 speed: "fast"，Claude Code 里用 /fast。容易误解的一点：Fast Mode 不是更小更便宜的模型，而是完整的 Opus 4.8 跑得更快——当延迟比单 token 成本更重要时用它。

会话中途的 system 消息。 现在可以在 messages 数组里、用户回合之后插入 role: "system" 消息。在长 agent 循环里，这让你能追加更新后的指令而不必重述整个系统提示词——从而保住前面回合的 prompt cache 命中、降低输入成本。配合降到 1,024 token 的缓存最小长度（4.7 更高），之前太短无法缓存的系统提示词现在也能缓存了。

Adaptive thinking，effort 默认 high。 和 4.7 一样，Opus 4.8 不接受显式 thinking budget——thinking: {"type": "enabled", "budget_tokens": N} 会返回 400。改用 thinking: {"type": "adaptive"} 加 effort 参数。开启 adaptive thinking 后，模型按回合自行决定是否需要推理，在简单查询上少浪费思考 token。effort 默认值在所有平台（含 Claude Code）现在都是 high。

from openai import OpenAI

client = OpenAI(base_url="https://api.ofox.ai/v1", api_key="your-ofox-key")

response = client.chat.completions.create(
    model="anthropic/claude-opus-4.8",
    messages=[{"role": "user", "content": "重构这个模块……"}],
)

更好的工具触发与压缩处理。 Anthropic 列出的改进方向是长时 agent 编码（更少压缩、压缩后恢复更好）、推理 effort 校准，以及工具触发——具体是更少出现「该调工具却跳过」的情况，这正是部分用户对 4.7 的抱怨。

Opus 4.8 提示词：到底变了什么

Anthropic 的提示词指南点出了几个 4.8 专属的行为变化——提示词原样迁移过来可能踩坑。上线前有四点值得知道。

effort 现在是主旋钮，而且比以往任何一代 Opus 都更重要。 编码和 agent 类用例从 xhigh 起步，任何对推理质量敏感的任务至少保持 high。max 能带来提升，但容易过度思考、收益递减。反过来，4.8 严格遵守 low 和 medium——它把工作范围精确收敛到你要求的范围，对延迟很友好，但在中等复杂任务上有思考不足的风险。如果推理显得浅，提高 effort，而不是绕着提示词打转。在 high/xhigh 下，设一个大的输出预算（从 64K token 起），让模型有空间思考和行动。

它严格按字面执行指令。 Opus 4.8 不会把一条指令从一个对象悄悄推广到另一个，也不会脑补你没提的需求。这对结构化抽取和流水线是好事——但如果你想让某条指令广泛适用，要显式说清范围：「把这个格式应用到每一个章节，不只是第一个」。

它偏好推理而非调用工具。 4.8 默认更倾向思考而非调工具，多数情况下这更好——但如果你的 agent 搜索或读文件不够，把 effort 提到 high/xhigh 会显著增加工具使用。你也可以直接告诉它何时、为何使用某个工具。

代码审查的召回率陷阱。 这点会让团队意外。Opus 4.8 找 bug 确实更强（Anthropic 的内部评测里精确率和召回率都更高），但如果你的审查框架写着「只报高严重度问题」或「保守一点」，4.8 会比旧模型更忠实地照做——它找到了 bug，然后把低于你设定门槛的丢掉。结果看起来像召回率下降，其实找 bug 的能力提升了。解法是把「发现」和「过滤」拆开：

报告你发现的每一个问题，包括低严重度或不确定的。
这一阶段不要按重要性过滤——后续会有单独的步骤排序。
每条发现都附上置信度和预估严重度。

「最诚实模型」这个说法

Anthropic 把 Opus 4.8 定位为迄今最诚实的模型——更少一本正经的编造、更少迎合、更清晰的拒答。就最后一点，拒答响应上的 stop_details 对象（4.7 起就有）现在正式公开文档化，你的应用可以知道请求为什么被拒、据此引导用户，而不是把所有拒答一视同仁。对无人值守运行的 agent 来说，一个更少编造、更清楚地表达自身不确定性的模型，是实打实的可靠性提升，而不只是安全层面的说辞。

同期发布：Claude Code 的 Dynamic Workflows

Opus 4.8 与 dynamic workflows 同日发布。这是一个研究预览，让 Claude 在单个会话里编排数十到数百个并行子 agent。Claude 自己写编排脚本、把工作扇出、在交付前验证结果（包括专门负责反驳其他 agent 结论的 agent），并能在中断后从断点续跑而不是重头来。

旗舰演示：Jarred Sumner 用 dynamic workflows 把 Bun 从 Zig 移植到 Rust——约 75 万行代码、测试套件 99.8% 通过率、11 天完成。目标用例是整库级 bug 排查、安全审计，以及跨数千文件的大型迁移。

但有两点要提醒。其一，它受套餐限制：dynamic workflows 跑在 Claude Code 的 Max、Team、Enterprise 套餐上（Enterprise 需管理员启用），不支持直接走 API。其二，Anthropic 明确警告 token 消耗比普通会话高得多——建议从范围明确的小任务开始。它是给最难的活儿的全新能力，不是默认开启的便利功能。

通过 ofox.ai 接入 Opus 4.8

模型 ID 是 anthropic/claude-opus-4.8。通过 ofox.ai，它和其他所有模型一样在同一个 OpenAI 兼容端点上——无需单独的 Anthropic 账号、无需单独计费。

要用 adaptive thinking 和 effort 控制，走 Anthropic 原生协议：

import anthropic

client = anthropic.Anthropic(
    base_url="https://api.ofox.ai/anthropic",
    api_key="your-ofox-key",
)

response = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=4096,
    thinking={"type": "adaptive"},
    messages=[{"role": "user", "content": "审计这个服务的竞态条件……"}],
)

走聚合网关还能让「要不要迁移」这个问题用数据说话：你可以用一把 key、一个端点，把同样的提示词分别跑过 Opus 4.8、4.7 和 GPT-5.5，在你自己的负载上对比质量和 token 数，再决定。

结论

Opus 4.8 是少见的、价格上没有任何附加条件的升级：同样的 $5/$25、编码与电脑操作上几乎全面领先的分数、独立真实工作榜单登顶，而且每个任务输出 token 更少。需要如实说明的注意点很有限——GPT-5.5 仍在原始终端基准上领先、dynamic workflows 受套餐限制且耗 token、effort 现在默认 high 所以要留意延迟预算。

新项目直接上 4.8。在 4.7 上跑生产的，这是 Anthropic 近期最干净的一次迁移——同价、更省 token，账算下来通常对你有利。用有代表性的样本测一遍、留意工具调用相关的提示词，然后放心切过去。

相关阅读：Claude Opus 4.7 完整指南 —— 前代及其特点。GPT-5.4 vs Claude Opus vs Gemini 旗舰对比 —— 旗舰横评。多模型路由与成本优化 —— 如何按任务分流省钱。AI 模型排名与选型指南 —— Opus 4.8 在整体格局里的位置。

Anthropic 这次发了什么

GDPval-AA 的结果

与同代旗舰的基准对比

引擎盖下的新东西

Opus 4.8 提示词：到底变了什么

「最诚实模型」这个说法

同期发布：Claude Code 的 Dynamic Workflows

通过 ofox.ai 接入 Opus 4.8

结论

相关文章

Claude Fable 5 对比 Sonnet 5（2026）：贵 5 倍，什么时候才回本

Claude Sonnet 5 对比 Opus 4.8（2026）：标价便宜 60%，实际未必省钱

Claude Fable 5 vs Opus 4.8 vs GPT-5.5：SWE-Bench、价格与何时切换