Claude Fable 5 在编程上真的比 Opus 4.8 强吗？

从公开数字看，确实强不少。Fable 5 在 SWE-bench Verified 拿 95.0%、SWE-bench Pro 拿 80.3%，对应 Opus 4.8 是 88.6% 和 69.2%。在 Every 的 Senior Engineer 内测——他们最难的一套编程考题——Fable 5 拿 91/100，Opus 4.8 只有 63、GPT-5.5 62。代价就是价格：Fable 5 $10/$50，正好是 Opus 4.8 $5/$25 的两倍。

为什么 GPT-5.5 还能赢 Terminal-Bench？

GPT-5.5 在 Terminal-Bench 2.1 拿 82.7%，Fable 5 是 80.5%，Opus 4.8 74.6%。OpenAI 这个分数是通过 Codex CLI 跑出来的，那是他们目前最强的 agent 接入面，专为终端多步工作流打磨过。如果你的活儿就是 shell 脚本、CLI 串联、运维 runbook，老一点的 GPT-5.5 + Codex 反而更稳。

Claude Fable 5 跟 Opus 4.8、GPT-5.5 比起来多少钱？

Fable 5 输入 $10 / 百万 token、输出 $50。Opus 4.8 是 $5/$25，GPT-5.5 是 $5/$30（OpenAI 挂牌价）。按 SWE-bench Pro 每一分的成本算，Fable 5 约 $0.62、Opus 4.8 约 $0.36——溢价 72% 换 16% 能力跳升。但 Fable 5 通常用少 25–30% 的轮次就能完成同一任务，这点能把账单往回拉一些。

我该从 Opus 4.8 升到 Fable 5 吗？

看你卡的是能力上限还是预算上限。如果是前者——senior 级别编程、长 horizon agent 跑、视觉密集型任务——Fable 5 拉开的差距是真实的。如果只是日常 refactor、code review、批量 agent loop，Opus 4.8 仍然守着性价比曲线的最高点，而且自己的 SWE-bench Verified 已经把 GPT-5.5 甩开一大截。实战做法：默认走 Opus 4.8，最难的 10–20% 升级到 Fable 5。

怎么用一个 API 同时调 Fable 5、Opus 4.8、GPT-5.5？

通过 ofox.ai，三个模型都在同一个 OpenAI 兼容端点 api.ofox.ai/v1 上，模型 ID 分别是 anthropic/claude-opus-4.8 和 openai/gpt-5.5（Fable 5 正在接入，等模型广场上线）。一个 key 同时覆盖，不用分别开 Anthropic 和 OpenAI 账号、分开计费，可以用真实工作量直接对比三家的质量和 token 消耗再决定升级。

Claude Fable 5 vs Opus 4.8 vs GPT-5.5：SWE-Bench、价格与何时切换

TL;DR —— Anthropic 在 2026 年 6 月 9 日发布 Claude Fable 5，这是他们第一个面向公众的 Mythos 级模型。它在 SWE-bench Verified 拿 95.0%、SWE-bench Pro 80.3%——比 Opus 4.8 高 11 分、比 GPT-5.5 高 21.7 分。价格是 $10/$50 / 百万 token，正好是 Opus 4.8 的两倍。GPT-5.5 仍然守住 Terminal-Bench 2.1（82.7% vs 80.5%），Opus 4.8 还守着长上下文检索和性价比，是否升级就看你卡的是能力还是账单。下面拆解真实数字、单点成本数学，以及一棵能照搬的决策树。

Fable 5 是第一个把 SWE-bench Pro 突破 80%、Verified 突破 95% 的公开可用模型——但 $10/$50 的挂牌价意味着每个 SWE-bench Pro 分点的成本比 Opus 4.8 高出 72%。

三个模型这七周里到底发了什么

三场发布，七周时间，把编程榜单的顶端洗了一遍。

GPT-5.5 于 2026 年 4 月 23 日发布，是 OpenAI 的单一旗舰——不再分能力 Standard/Pro，只在 surface 上分 GPT-5.5 和 GPT-5.5 Pro 控制成本与延迟。发布主线是 Codex CLI 和 computer use，“agent 编程”是标语。GPT-5.5 Instant 紧接着 5 月 5 日成为 ChatGPT 的默认模型。

Claude Opus 4.8 于 2026 年 5 月 28 日上线，价格与 4.7 持平 $5/$25。SWE-bench Pro 从 64.3% 跳到 69.2%，OSWorld-Verified 到 83.4%，并且在独立机构 Artificial Analysis 的 GDPval-AA 真实工作榜单上以 1890 Elo 比 GPT-5.5 高出 121 分——而且每个任务的输出 token 比 4.7 少 35%。同价、更高分、更低账单。完整解读见我们的 Opus 4.8 发布文。

Claude Fable 5 于 2026 年 6 月 9 日上线，这是 Anthropic 第一个面向公众的 Mythos 级模型。Mythos 系列之前一直没公开放出，因为其网络安全能力被 Anthropic 评估为公开放出风险太大。Fable 5 是在 Mythos 模型上叠了三道安全分类器：当请求命中网络安全、生物化学、或蒸馏攻击三类模式时，自动回退到 Opus 4.8 运行。价格 $10/$50——相比 Mythos Preview 降了一半，但仍然是 Opus 4.8 的两倍。

新闻不是 Anthropic 两周连发两个模型，而是：能力天花板和性价比地板的差距进一步拉大，而且现在两端都姓 Claude。

SWE-Bench 三家正面对比

编程类基准噪音很大。SWE-bench Verified 和 SWE-bench Pro 是生产决策里最值得看的两个，因为它们用真实 GitHub issue 端到端跑，并由仓库 maintainer 给标准答案。三家的成绩单：

基准	Fable 5	Opus 4.8	GPT-5.5
SWE-bench Verified	95.0%	88.6%	—
SWE-bench Pro	80.3%	69.2%	58.6%
Terminal-Bench 2.1	80.5%	74.6%	82.7%
FrontierCode Diamond	领先（5×GPT-5.5、2×Opus）	—	—
Every Senior Engineer（满分 100）	91	63	62
GraphWalks BFS @1M token	—	68.1%	45.4%
OSWorld-Verified	—	83.4%	78.7%
GDPval-AA（真实工作 Elo）	—	1890	1769

这张表里有三件事比标题数字更值得停下来看。

Every 的 Senior Engineer 是最干净的能力天花板读数。Every 这套题专门挑他们能写出来的最难的编程问题——senior 工程师要花一个工作日才能解的那种。Fable 5 拿 91/100 已经落在做过这套题的真人工程师区间里。Opus 4.8 的 63 和 GPT-5.5 的 62 基本打平，都在”junior + 调试器”水平。这 28 分的差距就是 Fable 5 价格溢价能站得住脚的地方——前提是你的活儿真的踩在这个上限上。

Terminal-Bench 是 GPT-5.5 唯一守住的赛道，但脚注很重要。GPT-5.5 拿 82.7%，Fable 5 80.5%——分差不大，但是真实领先。脚注是：GPT-5.5 这个分数是从 Codex CLI 跑出来的，那是 OpenAI 在终端类 agent 工作里调得最深的 surface。Fable 5 那个数字是模型在标准 harness 里的成绩。Codex CLI 已经在真实工作流里嵌了两个月，如果你的栈本来就是围绕 Codex 搭的，“换 Fable”不是无成本升级。我们在 Codex CLI 配置指南里展开了这套权衡。

长上下文检索是 Claude 阵营持续扩大的优势。在 1M token 的 GraphWalks BFS 上，Opus 4.8 68.1%、GPT-5.5 45.4%——22.7 分的差距，落到实战里就是”第 12 轮 agent 还记得第 1 轮发生过什么”。Anthropic 暂时没公开 Fable 5 在 GraphWalks 上的具体数字，但长上下文架构两家共享，相对 GPT-5.5 的差距几乎肯定继续保持。

价格，以及”每分基准成本”实际买的是什么

挂牌价直接看。有意思的是每一刀换回多少能力。

模型	输入（$/M）	输出（$/M）	混合（2:1）*	每 SWE-bench Pro 分点
Claude Fable 5	$10.00	$50.00	$23.33	约 $0.62
Claude Opus 4.8	$5.00	$25.00	$11.67	约 $0.36
GPT-5.5	$5.00	$30.00	$13.33	约 $0.50

混合价按编程工作负载常见的 2:1 输入对输出比测算（上下文多、产出少）。通过 ofox.ai 调用走同样的 per-token 费率，不加价。

每 SWE-bench Pro 分点的成本是大多数团队应该真正盯的指标，因为这就是你 agent 编程流量起规模以后月账单的样子。Fable 5 $0.62 比 Opus 4.8 $0.36 贵了 72%。GPT-5.5 卡中间 $0.50——绝对能力两个 Claude 都打不过，但每分比 Fable 5 便宜。

有两件事可以在你把 Fable 5 当奢侈品扔掉之前，把数学拉回 Fable 5 一边：

Fable 5 完成同样任务用更少的轮次。Anthropic 的官方数据加上独立实测显示，Fable 5 在 agent 类电子表格和代码库任务上比 Opus 4.8 少 25–30% 的轮次。如果你的瓶颈本来就是输出 token 体量——长 agent 自主跑常见——这个效率部分对冲了 2 倍的挂牌价。Opus 4.8 相比 4.7 已经省了 35% 的输出 token；Fable 5 继续往前推了一步。

能力天花板在最难的 10–20% 是真实存在的。如果你团队现在的升级路径是”Opus 4.8 三次失败后转人工”，把这批转给 Fable 5 可能直接搞定不再需要人介入。这时候问题就不再是”每 token 谁便宜”，而是”哪个模型能把一个高级工程师从循环里拿走”。这个对比通常 Fable 5 的溢价是付得过的。

用自己的工作量直接验证决策。通过 ofox.ai，一个 key 今天就能调到 Opus 4.8 和 GPT-5.5（Fable 5 正在接入），都在同一个 OpenAI 兼容端点上。把同一批 prompt 喂三个模型跑一遍，看 token 数和质量再决定要不要升级。

什么时候切：一棵能照搬的决策树

正确的问题不是”哪个模型最强”——Fable 5 在大多数基准上最强。正确的问题是”在我的活儿和我的账单上，哪个最强”。下面这套路由逻辑把公开数据翻成可执行的选择。

1. 主战场是长 horizon agent 编程（小时级运行、跨代码库迁移）。用 Fable 5。Senior Engineer 那 91 分、FrontierCode Diamond 的领先、25–30% 的轮次缩减——这些优势在长跑里会叠加。溢价被更少的浪费轮次和更少的人工介入抵掉。Claude Opus 4.7 vs DeepSeek V4 Pro 旗舰对比走过这种规模下的路由权衡（数字针对上一代，但路由思路一样适用）。

2. 主战场是终端 CLI、运维自动化，或者你已经在 Codex CLI 上。用 GPT-5.5。Terminal-Bench 2.1 是它唯一领先的基准，而且 Codex 中心的工作流里这个领先是真实的、不是噪音。7 周的集成头部时间也算筹码。

3. 主战场是别的——重构、code review、规模化日常 agent loop。用 Opus 4.8。同样的 $5/$25、GDPval-AA 真实工作榜单第一、相比上代少 35% 的输出 token。对 2026 年 80% 的团队来说这就是正确答案——而且会一直正确，直到你的工作量顶到能力天花板。

4. 需要 1M token 级别的上下文检索（法律审阅、代码库审计、长 transcript）。用 Opus 4.8（或者预算允许的话上 Fable 5）。GPT-5.5 在 1M token GraphWalks BFS 上只有 45.4%——这是直接 disqualify 的数字，意味着模型在前 200K token 之后已经不能稳定地把事实捞出来。这个规模只有 Claude 家族的架构当前还撑得住。

5. 撞上 Fable 5 拒答或被路由回 Opus 4.8。这是预期行为，不是 bug。Fable 5 三道安全分类器（网络安全、生物化学、蒸馏攻击）按 Anthropic 数据触发约 5% 会话，回退是静默的——请求会在 Opus 4.8 上重跑。如果你的工作量本身就落在这三个领域（安全研究、生物科技、模型训练流水线），别绕分类器，直接调 Opus 4.8 省一层中转。

新数字下唯一不再成立的路由模式：“Opus 做日常，GPT-5.5 跑数学和长上下文”。5 月之前还对。GraphWalks 把长上下文的差距堵上了，Opus 4.8 把数学差距也堵上了（USAMO 2026 从 Opus 4.7 的 69.3% 跳到 4.8 的 96.7%）。如果你现在还把数学和长上下文路由给 GPT-5.5，那就是用更贵的输出 token 换更差的结果。

怎么通过 ofox.ai 接入

三个模型都落在同一个 OpenAI 兼容端点上，所以从”只用一个”升级到”同时测三个”就是改一行 base URL。

from openai import OpenAI

client = OpenAI(
    base_url="https://api.ofox.ai/v1",
    api_key="your-ofox-key",
)

# Claude Opus 4.8 —— 日常主力
opus = client.chat.completions.create(
    model="anthropic/claude-opus-4.8",
    messages=[{"role": "user", "content": "审一下这个服务有没有竞态条件..."}],
)

# GPT-5.5 —— 终端密集场景
gpt = client.chat.completions.create(
    model="openai/gpt-5.5",
    messages=[{"role": "user", "content": "写个 shell 脚本..."}],
)

Opus 4.8 和 GPT-5.5 在 ofox.ai 上已经可用，模型 ID 分别是 anthropic/claude-opus-4.8 和 openai/gpt-5.5。Fable 5 正在接入聚合器——上线 ID 看模型广场或更新日志。一个 key 三家全覆盖，走聚合器还有个隐藏好处：你能用同一批 prompt、同一个端点，在自己的真实流量上把”能力 vs 成本”问题做实证，而不是看官方营销稿。

如果要用 Anthropic 原生协议（Opus 4.8 的 adaptive thinking 和 effort 控制），把 SDK 的 base URL 指到 https://api.ofox.ai/anthropic 就行。两种协议的接入路径在企业级 LLM 网关对比里有更深的展开。

结论

Fable 5 是新的能力天花板。Opus 4.8 是新的性价比地板。GPT-5.5 是仍守住一个关键赛道的生态玩法。

如果你在 2026 年要把 agent 编程推上生产，路由层不该再是”选一个用到底”。默认走 Opus 4.8，把最难的 10–20% 升到 Fable 5，给 Codex CLI 工作流留着 GPT-5.5。这套路由复杂度带来的折算收益，在前几千次请求里就能收回。

唯一没变的事：独立榜单永远比厂商口径可信。盯一下 Artificial Analysis 的 GDPval-AA 看 Fable 5 真实工作 Elo 落到多少。那个数字会告诉你 2 倍价格在基准之外是不是仍然撑得住——撑得住的话，路由层的复杂度就买得过。

想立刻动手试 Fable 5？看 Claude Fable 5 实战：6/22 前免费用、一天烧 $110 是怎么花的——拆解订阅免费窗口、Simon Willison 第一天实测账单、anthropic/claude-fable-5 在 ofox 上的接入步骤。

相关阅读：Claude Opus 4.8 发布解读——日常主力的 Claude 详细评测。GPT-5.5 发布指南——OpenAI 旗舰最新一代。Claude Opus 4.7 vs DeepSeek V4 Pro——上一代旗舰对比的路由思路。Codex CLI 配置指南——Codex 工作流深度配置。

三个模型这七周里到底发了什么

SWE-Bench 三家正面对比

价格，以及”每分基准成本”实际买的是什么

什么时候切：一棵能照搬的决策树

怎么通过 ofox.ai 接入

结论

相关文章

Claude Fable 5 对比 Sonnet 5（2026）：贵 5 倍，什么时候才回本

Claude Sonnet 5 对比 Opus 4.8（2026）：标价便宜 60%，实际未必省钱

Claude vs GPT-5.5 提示缓存怎么省钱：2026 成本对比 + 3 个常见坑