Claude Fable 5 vs Opus 4.8 vs GPT-5.5:SWE-Bench、价格与何时切换

Claude Fable 5 vs Opus 4.8 vs GPT-5.5:SWE-Bench、价格与何时切换

TL;DR —— Anthropic 在 2026 年 6 月 9 日发布 Claude Fable 5,这是他们第一个面向公众的 Mythos 级模型。它在 SWE-bench Verified 拿 95.0%、SWE-bench Pro 80.3%——比 Opus 4.8 高 11 分、比 GPT-5.5 高 21.7 分。价格是 $10/$50 / 百万 token,正好是 Opus 4.8 的两倍。GPT-5.5 仍然守住 Terminal-Bench 2.1(82.7% vs 80.5%),Opus 4.8 还守着长上下文检索和性价比,是否升级就看你卡的是能力还是账单。下面拆解真实数字、单点成本数学,以及一棵能照搬的决策树。

Fable 5 是第一个把 SWE-bench Pro 突破 80%、Verified 突破 95% 的公开可用模型——但 $10/$50 的挂牌价意味着每个 SWE-bench Pro 分点的成本比 Opus 4.8 高出 72%。

三个模型这七周里到底发了什么

三场发布,七周时间,把编程榜单的顶端洗了一遍。

GPT-5.5 于 2026 年 4 月 23 日发布,是 OpenAI 的单一旗舰——不再分能力 Standard/Pro,只在 surface 上分 GPT-5.5 和 GPT-5.5 Pro 控制成本与延迟。发布主线是 Codex CLI 和 computer use,“agent 编程”是标语。GPT-5.5 Instant 紧接着 5 月 5 日成为 ChatGPT 的默认模型。

Claude Opus 4.8 于 2026 年 5 月 28 日上线,价格与 4.7 持平 $5/$25。SWE-bench Pro 从 64.3% 跳到 69.2%,OSWorld-Verified 到 83.4%,并且在独立机构 Artificial Analysis 的 GDPval-AA 真实工作榜单上以 1890 Elo 比 GPT-5.5 高出 121 分——而且每个任务的输出 token 比 4.7 少 35%。同价、更高分、更低账单。完整解读见我们的 Opus 4.8 发布文

Claude Fable 5 于 2026 年 6 月 9 日上线,这是 Anthropic 第一个面向公众的 Mythos 级模型。Mythos 系列之前一直没公开放出,因为其网络安全能力被 Anthropic 评估为公开放出风险太大。Fable 5 是在 Mythos 模型上叠了三道安全分类器:当请求命中网络安全、生物化学、或蒸馏攻击三类模式时,自动回退到 Opus 4.8 运行。价格 $10/$50——相比 Mythos Preview 降了一半,但仍然是 Opus 4.8 的两倍。

新闻不是 Anthropic 两周连发两个模型,而是:能力天花板和性价比地板的差距进一步拉大,而且现在两端都姓 Claude

SWE-Bench 三家正面对比

编程类基准噪音很大。SWE-bench Verified 和 SWE-bench Pro 是生产决策里最值得看的两个,因为它们用真实 GitHub issue 端到端跑,并由仓库 maintainer 给标准答案。三家的成绩单:

基准Fable 5Opus 4.8GPT-5.5
SWE-bench Verified95.0%88.6%
SWE-bench Pro80.3%69.2%58.6%
Terminal-Bench 2.180.5%74.6%82.7%
FrontierCode Diamond领先(5×GPT-5.5、2×Opus)
Every Senior Engineer(满分 100)916362
GraphWalks BFS @1M token68.1%45.4%
OSWorld-Verified83.4%78.7%
GDPval-AA(真实工作 Elo)18901769

这张表里有三件事比标题数字更值得停下来看。

Every 的 Senior Engineer 是最干净的能力天花板读数。Every 这套题专门挑他们能写出来的最难的编程问题——senior 工程师要花一个工作日才能解的那种。Fable 5 拿 91/100 已经落在做过这套题的真人工程师区间里。Opus 4.8 的 63 和 GPT-5.5 的 62 基本打平,都在”junior + 调试器”水平。这 28 分的差距就是 Fable 5 价格溢价能站得住脚的地方——前提是你的活儿真的踩在这个上限上

Terminal-Bench 是 GPT-5.5 唯一守住的赛道,但脚注很重要。GPT-5.5 拿 82.7%,Fable 5 80.5%——分差不大,但是真实领先。脚注是:GPT-5.5 这个分数是从 Codex CLI 跑出来的,那是 OpenAI 在终端类 agent 工作里调得最深的 surface。Fable 5 那个数字是模型在标准 harness 里的成绩。Codex CLI 已经在真实工作流里嵌了两个月,如果你的栈本来就是围绕 Codex 搭的,“换 Fable”不是无成本升级。我们在 Codex CLI 配置指南 里展开了这套权衡。

长上下文检索是 Claude 阵营持续扩大的优势。在 1M token 的 GraphWalks BFS 上,Opus 4.8 68.1%、GPT-5.5 45.4%——22.7 分的差距,落到实战里就是”第 12 轮 agent 还记得第 1 轮发生过什么”。Anthropic 暂时没公开 Fable 5 在 GraphWalks 上的具体数字,但长上下文架构两家共享,相对 GPT-5.5 的差距几乎肯定继续保持。

价格,以及”每分基准成本”实际买的是什么

挂牌价直接看。有意思的是每一刀换回多少能力。

模型输入($/M)输出($/M)混合(2:1)*每 SWE-bench Pro 分点
Claude Fable 5$10.00$50.00$23.33约 $0.62
Claude Opus 4.8$5.00$25.00$11.67约 $0.36
GPT-5.5$5.00$30.00$13.33约 $0.50

混合价按编程工作负载常见的 2:1 输入对输出比测算(上下文多、产出少)。通过 ofox.ai 调用走同样的 per-token 费率,不加价。

每 SWE-bench Pro 分点的成本是大多数团队应该真正盯的指标,因为这就是你 agent 编程流量起规模以后月账单的样子。Fable 5 $0.62 比 Opus 4.8 $0.36 贵了 72%。GPT-5.5 卡中间 $0.50——绝对能力两个 Claude 都打不过,但每分比 Fable 5 便宜。

有两件事可以在你把 Fable 5 当奢侈品扔掉之前,把数学拉回 Fable 5 一边:

Fable 5 完成同样任务用更少的轮次。Anthropic 的官方数据加上独立实测显示,Fable 5 在 agent 类电子表格和代码库任务上比 Opus 4.8 少 25–30% 的轮次。如果你的瓶颈本来就是输出 token 体量——长 agent 自主跑常见——这个效率部分对冲了 2 倍的挂牌价。Opus 4.8 相比 4.7 已经省了 35% 的输出 token;Fable 5 继续往前推了一步。

能力天花板在最难的 10–20% 是真实存在的。如果你团队现在的升级路径是”Opus 4.8 三次失败后转人工”,把这批转给 Fable 5 可能直接搞定不再需要人介入。这时候问题就不再是”每 token 谁便宜”,而是”哪个模型能把一个高级工程师从循环里拿走”。这个对比通常 Fable 5 的溢价是付得过的。

用自己的工作量直接验证决策。通过 ofox.ai,一个 key 今天就能调到 Opus 4.8 和 GPT-5.5(Fable 5 正在接入),都在同一个 OpenAI 兼容端点上。把同一批 prompt 喂三个模型跑一遍,看 token 数和质量再决定要不要升级。

什么时候切:一棵能照搬的决策树

正确的问题不是”哪个模型最强”——Fable 5 在大多数基准上最强。正确的问题是”在我的活儿和我的账单上,哪个最强”。下面这套路由逻辑把公开数据翻成可执行的选择。

1. 主战场是长 horizon agent 编程(小时级运行、跨代码库迁移)。用 Fable 5。Senior Engineer 那 91 分、FrontierCode Diamond 的领先、25–30% 的轮次缩减——这些优势在长跑里会叠加。溢价被更少的浪费轮次和更少的人工介入抵掉。Claude Opus 4.7 vs DeepSeek V4 Pro 旗舰对比 走过这种规模下的路由权衡(数字针对上一代,但路由思路一样适用)。

2. 主战场是终端 CLI、运维自动化,或者你已经在 Codex CLI 上。用 GPT-5.5。Terminal-Bench 2.1 是它唯一领先的基准,而且 Codex 中心的工作流里这个领先是真实的、不是噪音。7 周的集成头部时间也算筹码。

3. 主战场是别的——重构、code review、规模化日常 agent loop。用 Opus 4.8。同样的 $5/$25、GDPval-AA 真实工作榜单第一、相比上代少 35% 的输出 token。对 2026 年 80% 的团队来说这就是正确答案——而且会一直正确,直到你的工作量顶到能力天花板。

4. 需要 1M token 级别的上下文检索(法律审阅、代码库审计、长 transcript)。用 Opus 4.8(或者预算允许的话上 Fable 5)。GPT-5.5 在 1M token GraphWalks BFS 上只有 45.4%——这是直接 disqualify 的数字,意味着模型在前 200K token 之后已经不能稳定地把事实捞出来。这个规模只有 Claude 家族的架构当前还撑得住。

5. 撞上 Fable 5 拒答或被路由回 Opus 4.8。这是预期行为,不是 bug。Fable 5 三道安全分类器(网络安全、生物化学、蒸馏攻击)按 Anthropic 数据触发约 5% 会话,回退是静默的——请求会在 Opus 4.8 上重跑。如果你的工作量本身就落在这三个领域(安全研究、生物科技、模型训练流水线),别绕分类器,直接调 Opus 4.8 省一层中转。

新数字下唯一不再成立的路由模式:“Opus 做日常,GPT-5.5 跑数学和长上下文”。5 月之前还对。GraphWalks 把长上下文的差距堵上了,Opus 4.8 把数学差距也堵上了(USAMO 2026 从 Opus 4.7 的 69.3% 跳到 4.8 的 96.7%)。如果你现在还把数学和长上下文路由给 GPT-5.5,那就是用更贵的输出 token 换更差的结果。

怎么通过 ofox.ai 接入

三个模型都落在同一个 OpenAI 兼容端点上,所以从”只用一个”升级到”同时测三个”就是改一行 base URL。

from openai import OpenAI

client = OpenAI(
    base_url="https://api.ofox.ai/v1",
    api_key="your-ofox-key",
)

# Claude Opus 4.8 —— 日常主力
opus = client.chat.completions.create(
    model="anthropic/claude-opus-4.8",
    messages=[{"role": "user", "content": "审一下这个服务有没有竞态条件..."}],
)

# GPT-5.5 —— 终端密集场景
gpt = client.chat.completions.create(
    model="openai/gpt-5.5",
    messages=[{"role": "user", "content": "写个 shell 脚本..."}],
)

Opus 4.8 和 GPT-5.5 在 ofox.ai 上已经可用,模型 ID 分别是 anthropic/claude-opus-4.8openai/gpt-5.5。Fable 5 正在接入聚合器——上线 ID 看模型广场或更新日志。一个 key 三家全覆盖,走聚合器还有个隐藏好处:你能用同一批 prompt、同一个端点,在自己的真实流量上把”能力 vs 成本”问题做实证,而不是看官方营销稿。

如果要用 Anthropic 原生协议(Opus 4.8 的 adaptive thinking 和 effort 控制),把 SDK 的 base URL 指到 https://api.ofox.ai/anthropic 就行。两种协议的接入路径在企业级 LLM 网关对比 里有更深的展开。

结论

Fable 5 是新的能力天花板。Opus 4.8 是新的性价比地板。GPT-5.5 是仍守住一个关键赛道的生态玩法。

如果你在 2026 年要把 agent 编程推上生产,路由层不该再是”选一个用到底”。默认走 Opus 4.8,把最难的 10–20% 升到 Fable 5,给 Codex CLI 工作流留着 GPT-5.5。这套路由复杂度带来的折算收益,在前几千次请求里就能收回。

唯一没变的事:独立榜单永远比厂商口径可信。盯一下 Artificial Analysis 的 GDPval-AA 看 Fable 5 真实工作 Elo 落到多少。那个数字会告诉你 2 倍价格在基准之外是不是仍然撑得住——撑得住的话,路由层的复杂度就买得过。


相关阅读:Claude Opus 4.8 发布解读——日常主力的 Claude 详细评测。GPT-5.5 发布指南——OpenAI 旗舰最新一代。Claude Opus 4.7 vs DeepSeek V4 Pro——上一代旗舰对比的路由思路。Codex CLI 配置指南——Codex 工作流深度配置。