Claude Fable 5 vs Opus 4.8 vs GPT-5.5: SWE-Bench, цена и когда переключаться
TL;DR — Anthropic выпустила Claude Fable 5 9 июня 2026 года — это первая публично доступная модель Mythos-класса. Она берёт 95,0% на SWE-bench Verified и 80,3% на SWE-bench Pro — отрыв от Opus 4.8 в 11 пунктов и от GPT-5.5 — в 21,7. Цена — $10/$50 за миллион токенов, ровно 2× Opus 4.8. GPT-5.5 всё ещё держит Terminal-Bench 2.1 (82,7% против 80,5%), Opus 4.8 — лидерство по длинному контексту и цене на балл, а математика апгрейда сводится к тому, во что вы упёрлись: в способности или в счёт. Ниже — реальные цифры, расчёт стоимости балла и дерево решений, которое можно применить сегодня.
Fable 5 — первая публично доступная модель, пробившая 80% на SWE-bench Pro и 95% на Verified, но при $10/$50 за миллион токенов стоимость одного балла SWE-bench Pro оказывается на 72% выше, чем у Opus 4.8.
Что выпустили эти три релиза
Три релиза за семь недель полностью перепрошили вершину код-лидербордов.
GPT-5.5 вышел 23 апреля 2026 года как единый флагман OpenAI — больше нет разделения Standard/Pro по способностям, есть только две поверхности (GPT-5.5 и GPT-5.5 Pro) для разной цены и латентности. Релиз был построен вокруг Codex CLI и computer use, заголовком стал «агентный кодинг». 5 мая GPT-5.5 Instant стал моделью по умолчанию в ChatGPT.
Claude Opus 4.8 вышел 28 мая 2026 года по той же цене $5/$25, что и 4.7. SWE-bench Pro прыгнул с 64,3% до 69,2%, OSWorld-Verified до 83,4%, а независимый лидерборд GDPval-AA от Artificial Analysis вывел его на 121 балл Elo выше GPT-5.5 на реальной экономической работе — при этом тратя на 35% меньше выходных токенов на задачу, чем 4.7. Та же цена, выше балл, ниже счёт. Полный разбор — в нашем обзоре релиза Opus 4.8.
Claude Fable 5 вышел 9 июня 2026 — буквально вчера на момент написания. Это первая общедоступная модель из Mythos-класса, семейства, которое Anthropic раньше не выпускала публично из-за киберспособностей, признанных слишком рискованными для широкого релиза. Fable 5 — это та же Mythos-модель с тремя слоями классификаторов безопасности поверх: когда запрос попадает в шаблоны кибербезопасности, био/химии или попытки дистилляции, он автоматически роутится на Opus 4.8. Цена — $10/$50, вдвое дешевле, чем за Mythos Preview, но всё ещё 2× Opus 4.8.
Главная новость не в том, что Anthropic выпустила две модели за две недели. А в том, что разрыв между лидером возможностей и лидером цена/качество увеличился — и теперь они оба внутри семьи Claude.
SWE-Bench: три модели лицом к лицу
Бенчмарки на код шумят. SWE-bench Verified и SWE-bench Pro — два, которые имеют значение для продакшен-решений, потому что прогоняются end-to-end на реальных задачах GitHub с ground truth от мейнтейнеров. Вот как идут все трое:
| Бенчмарк | Fable 5 | Opus 4.8 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Verified | 95,0% | 88,6% | — |
| SWE-bench Pro | 80,3% | 69,2% | 58,6% |
| Terminal-Bench 2.1 | 80,5% | 74,6% | 82,7% |
| FrontierCode Diamond | лидер (×5 к GPT-5.5, ×2 к Opus) | — | — |
| Every Senior Engineer (из 100) | 91 | 63 | 62 |
| GraphWalks BFS @ 1M токенов | — | 68,1% | 45,4% |
| OSWorld-Verified | — | 83,4% | 78,7% |
| GDPval-AA (Elo, реальная работа) | — | 1890 | 1769 |
В этой таблице три вещи стоят больше, чем заголовочные цифры.
Senior Engineer от Every — это самое чистое чтение потолка возможностей. Every прогоняет тест на самых сложных задачах кодинга, какие они могут написать: вроде тех, что у синиор-инженера займут рабочий день. Fable 5 с 91 из 100 попадает в диапазон тех самых живых инженеров, которые проходили тест. Opus 4.8 с 63 и GPT-5.5 с 62 фактически на одном уровне и оба сидят в зоне «джуниор с отладчиком». Разрыв в 28 пунктов между Fable 5 и Opus 4.8 на этом тесте — это и есть тот разрыв, который оправдывает премию по цене, если ваша работа живёт на этом потолке.
Terminal-Bench — единственное место, где GPT-5.5 всё ещё впереди, и сноска важна. GPT-5.5 берёт 82,7% против 80,5% у Fable 5 — близко, но реальное лидерство. Сноска: счёт GPT-5.5 получен через Codex CLI — самую отлаженную агентную поверхность OpenAI под терминальную работу. Счёт Fable 5 — это модель в обычном harness’е. На Codex-центричных воркфлоу у GPT-5.5 было два месяца, чтобы вшиться в реальные пайплайны; «переключиться на Fable» — это не бесплатный апгрейд, если у вас Codex уже в центре стека. Разбор компромисса — в гайде по конфигурации Codex CLI.
Длинный контекст — это лидерство семьи Claude, и оно сложилось. На GraphWalks BFS при 1M токенов Opus 4.8 даёт 68,1% против 45,4% у GPT-5.5 — разрыв 22,7 пункта, который на практике означает «агент действительно помнит, что было на ходу 12». Anthropic пока не опубликовала прямого балла Fable 5 на GraphWalks, но архитектура длинного контекста у двух моделей общая, так что разрыв с GPT-5.5 на retrieval по миллионам токенов почти наверняка сохраняется.
Цена и что на самом деле покупает «стоимость одного балла бенчмарка»
Прайс прозрачный. Интересна цифра, сколько модель отдаёт на каждый потраченный доллар.
| Модель | Вход ($/M) | Выход ($/M) | Смешанная (2:1)* | За балл SWE-bench Pro |
|---|---|---|---|---|
| Claude Fable 5 | $10,00 | $50,00 | $23,33 | ~$0,62 |
| Claude Opus 4.8 | $5,00 | $25,00 | $11,67 | ~$0,36 |
| GPT-5.5 | $5,00 | $30,00 | $13,33 | ~$0,50 |
Смешанная цена рассчитана при типичном для кодинга соотношении вход/выход 2:1 (контекста на вход больше, чем кода на выход). Роутинг через ofox.ai сохраняет те же ставки, без наценки.
Стоимость одного балла SWE-bench Pro — метрика, которую большинству команд стоит реально отслеживать, потому что именно так выглядит месячный счёт, когда вы масштабируете трафик агентного кодинга. У Fable 5 — $0,62, это на 72% дороже за балл, чем $0,36 у Opus 4.8. GPT-5.5 посередине на $0,50 — проигрывает обоим Claude по абсолютным способностям, но дешевле за балл, чем Fable 5.
Две поправки сдвигают математику в пользу Fable 5, прежде чем списывать его как роскошь:
Fable 5 завершает ту же задачу за меньшее число ходов. Цифры Anthropic, подтверждённые независимыми прогонами, показывают, что Fable 5 тратит примерно на 25–30% меньше ходов, чем Opus 4.8, на агентных задачах по таблицам и кодовым базам. Если ваше узкое место — объём выходных токенов (обычная история на длинных автономных прогонах), эта эффективность частично гасит 2× ставку прайса. Opus 4.8 уже даёт на 35% меньше выходных токенов, чем 4.7; Fable 5 двинул эту планку дальше.
Потолок возможностей реален на самых трудных 10–20%. Если в вашей команде сегодня цепочка эскалации выглядит как «после трёх неудачных попыток Opus 4.8 передаём задачу живому инженеру», переадресация этих случаев на Fable 5 может закрыть задачу без человека в цикле. Тогда сравнение перестаёт быть «какая модель дешевле за токен» и становится «какая модель убирает синиор-инженера из цикла». В этой постановке премия Fable 5 обычно отбивается.
Прогоните математику роутинга на собственной нагрузке. Через ofox.ai один ключ открывает доступ к Opus 4.8 и GPT-5.5 уже сегодня (Fable 5 подключается), всё на одном OpenAI-совместимом эндпоинте. Пропустите одни и те же промпты через все три модели, сравните расход токенов и качество на вашей нагрузке прежде, чем принимать решение об апгрейде.
Когда переключаться: дерево решений
Правильный вопрос не «какая модель победит» — Fable 5 выигрывает большинство бенчмарков. Правильный вопрос: «какая модель победит на моей задаче и моём счёте». Вот логика роутинга, которая переводит опубликованные цифры в защищаемый выбор.
1. Основная нагрузка — длинный агентный кодинг (часовые прогоны, миграции через всю кодовую базу). Берите Fable 5. Senior Engineer-бенчмарк, лидерство на FrontierCode Diamond и сокращение на 25–30% числа ходов — всё это накапливается на длинных прогонах. Премию покрывают меньше пустых ходов и меньше передач задачи живому человеку. Похожие схемы роутинга разбираются в сравнении Cursor 3 vs Claude Code.
2. Основная нагрузка — терминальные CLI-задачи, ops-автоматизация, или вы уже на Codex CLI. Берите GPT-5.5. Terminal-Bench 2.1 — единственный бенчмарк, где GPT-5.5 впереди, и отрыв на Codex-центричных воркфлоу реальный, а не шум бенчмарка. 7 недель форы по интеграции тут считаются.
3. Основная нагрузка — всё остальное: рефакторинги, code review, ежедневные агентные циклы в масштабе. Берите Opus 4.8. Тот же прайс $5/$25, что у 4.7, лидерство в реальной работе на GDPval-AA, на 35% меньше выходных токенов, чем у прошлого поколения. Для 80% команд в 2026 это правильный ответ — и он останется правильным, пока ваша нагрузка не упрётся в потолок возможностей.
4. Нужен retrieval на миллионе токенов (юридический ревью, аудит кодовой базы, длинные транскрипты). Берите Opus 4.8 (или Fable 5, если бюджет позволяет). 45,4% у GPT-5.5 на GraphWalks BFS при 1M токенов — это дисквалифицирующая цифра: модель уже неустойчиво находит факты после ~200K токенов. Только архитектура семьи Claude сегодня выдерживает этот масштаб.
5. Вы натыкаетесь на отказы или роутинг обратно на Opus 4.8 при работе с Fable 5. Это ожидаемое поведение, не баг. Три классификатора безопасности Fable 5 (кибербез, био/химия, попытки дистилляции) срабатывают, по данным Anthropic, примерно в 5% сессий, и фолбэк молчаливый — запрос всё равно отрабатывает Opus 4.8. Если ваша нагрузка живёт в одной из этих трёх зон (security research, биотех, пайплайны обучения моделей), не пытайтесь обходить классификатор. Просто зовите Opus 4.8 напрямую и пропускайте лишний хоп.
Единственная схема роутинга, которая не пережила новые цифры: «Opus как ежедневная рабочая лошадка, GPT-5.5 — для математики и длинного контекста». До мая это было верно. GraphWalks закрыл разрыв по длинному контексту. Opus 4.8 закрыл и разрыв по математике (USAMO 2026 прыгнул с 69,3% на Opus 4.7 до 96,7% на 4.8). Если вы сегодня отправляете математику и длинный контекст на GPT-5.5, вы платите больше за выходной токен ради худшего результата.
Как подключиться через ofox.ai
Все три модели приземляются на одном OpenAI-совместимом эндпоинте, так что путь от «использую одну модель» до «тестирую все три» — это одно изменение base URL.
from openai import OpenAI
client = OpenAI(
base_url="https://api.ofox.ai/v1",
api_key="your-ofox-key",
)
# Claude Opus 4.8 — ежедневная рабочая лошадка
opus = client.chat.completions.create(
model="anthropic/claude-opus-4.8",
messages=[{"role": "user", "content": "Проверь этот сервис на гонки..."}],
)
# GPT-5.5 — терминалоцентричные сценарии
gpt = client.chat.completions.create(
model="openai/gpt-5.5",
messages=[{"role": "user", "content": "Напиши shell-скрипт, который..."}],
)
Opus 4.8 и GPT-5.5 уже живы на ofox.ai сегодня под ID anthropic/claude-opus-4.8 и openai/gpt-5.5. Fable 5 подключается в агрегатор сейчас — ID появится в каталоге моделей или changelog. Один ключ закрывает все три, а агрегатор делает вопрос «способности vs цена» проверяемым эмпирически: те же промпты, три модели, один эндпоинт, реальные цифры на вашем трафике.
Для нативного протокола Anthropic (adaptive thinking, контроль effort у Opus 4.8) направьте официальный SDK Anthropic на https://api.ofox.ai/anthropic. Обе схемы интеграции — в сравнении Qwen 3.7 Max и Claude на кодинге, там разобраны компромиссы.
Итог
Fable 5 — это новый потолок возможностей. Opus 4.8 — новый пол цена/качество. GPT-5.5 — это ставка на экосистему, которая всё ещё выигрывает один важный бенчмарк.
Если вы катите агентный кодинг в продакшен в 2026 году, миграционный путь больше не «выбери одну и забудь». Роутьте Opus 4.8 по умолчанию, эскалируйте самые трудные 10–20% на Fable 5, держите GPT-5.5 на Codex CLI-воркфлоу, где у него лидерство по интеграции. Стоимость одного балла оправдывает сложность роутинга уже на первых нескольких тысячах запросов.
Что не изменилось: независимым лидербордам по-прежнему доверяют больше, чем заявкам вендора. Следите за GDPval-AA от Artificial Analysis на Elo Fable 5 на реальной работе, когда тот появится. Эта цифра скажет, держится ли 2× ценник под нагрузкой за пределами бенчмарка против 25–30% сокращения числа ходов.
Связанное чтение: Обзор релиза Claude Opus 4.8 — Claude как ежедневная рабочая лошадка в деталях. Конфигурация Codex CLI — глубокая настройка под Codex-воркфлоу. Cursor 3 vs Claude Code — сравнение AI-агентов. Qwen 3.7 Max vs Claude на кодинге — реальные цифры на кодовой арене.


