GLM-5.2 против GPT-5.5: стоимость токенов при 10K/100K/1M запросов в день (2026)
(updated )

GLM-5.2 против GPT-5.5: стоимость токенов при 10K/100K/1M запросов в день (2026)

TL;DR — По прайс-листу ofox.io GLM-5.2 стоит $1.4 input / $4.4 output за миллион токенов; GPT-5.5 — $5 / $30. Blended при соотношении input к output 2:1 это $2.40 против $13.33 за миллион токенов — соотношение стоимости 5.56x. При 100K запросах в день на prompt по 3K токенов вы потратите примерно $720/день на GLM-5.2 против $4,000/день на GPT-5.5 — около $21,600 против $120,000 в месяц. Prompt caching помогает обеим, но разрыв не закрывает. Обе модели доступны на одном OpenAI-совместимом endpoint на ofox.io, так что сравнение — это замена модели в одну строку.

Стоимость токена у GPT-5.5 в 5.56x выше, чем у GLM-5.2, при типичном миксе для кодинга — и в 6.82x на чистых output-токенах. Вопрос перестал быть «достаточно ли хорош GLM-5.2»; теперь он звучит так: какая нагрузка всё ещё оправдывает доплату за GPT-5.5.

Если хотите пропустить математику и просто прогнать A/B обеих моделей на своей нагрузке, ofox.io хостит и z-ai/glm-5.2, и openai/gpt-5.5 за одним ключом — pay-as-you-go, без месячной платы и с той же формой SDK, что у OpenAI Python-клиента. Вся математика ниже использует прайс ofox за токен, проверенный 21 июня 2026.

TL;DR: какую выбрать?

СценарийВыборПочему
Чувствительные к стоимости batch-агенты для кодингаGLM-5.2в 5.56x дешевле при миксе 2:1, тот же контекст 1M
Рефакторинг с длинным контекстом (>500K input)GLM-5.2тот же контекст 1M и лимит output 128K; input дешевле в 3.57x и доминирует на input-heavy задачах
Пайплайны генерации кода с упором на outputGLM-5.2в 6.82x дешевле за output-токен
Codex CLI / агентные workflow с упором на Terminal-BenchGPT-5.5глубина интеграции и 82.7% Terminal-Bench 2.1
Чувствительное к latency интерактивное парное программированиеGPT-5.5заточен под скорость первого токена на коротких prompt
Закупки на базе Azure / требования compliance MicrosoftGPT-5.5линейка GPT-5.5 в ofox работает на Azure
Air-gapped развёртывание или необходимость forkGLM-5.2 self-hostвеса MIT на Hugging Face

Честный вердикт для большинства команд-кодеров в 2026: направляйте чувствительный к стоимости дефолтный трафик на z-ai/glm-5.2, держите openai/gpt-5.5 на поверхности Codex CLI / интерактива, эскалируйте самые сложные 10% на Claude. Разделение на две модели ниже покрывает реалистичные 80% вашего трафика без миграции поставщика.

Что каждая модель предлагает на ofox

Обе модели живут на api.ofox.io/v1 по OpenAI-совместимому протоколу, а также на endpoint протокола Anthropic для drop-in использования в Claude Code. Скучные цифры, проверенные по каталогу моделей ofox 21 июня 2026:

ХарактеристикаGLM-5.2GPT-5.5
Появилась на ofox16 июня 202624 апреля 2026
ID модели на ofoxz-ai/glm-5.2openai/gpt-5.5
Страница моделиofox.io/en/models/z-ai/glm-5.2ofox.io/en/models/openai/gpt-5.5
Цена input$1.4 / M токенов$5.00 / M токенов
Цена output$4.4 / M токенов$30.00 / M токенов
Цена чтения из cache$0.26 / M токенов$0.50 / M токенов
Add-on web search$0.01 / запрос$0.01 / запрос
Context window1,000,000 токенов1,000,000 токенов (922K in / 128K out)
Максимальный output128,000 токенов128,000 токенов
ПровайдерZ.ai (Zhipu)Azure (OpenAI через Microsoft)
ВесаОткрытые (MIT, Hugging Face zai-org)Закрытые (только API)

Из спецификации стоит выделить два момента. Первое: context windows и потолки output практически идентичны — обе указывают контекст 1M и лимит output 128K, так что ни одна модель не позволяет выдать в одном вызове патч крупнее другой; на длинных задачах рефакторинга решающим фактором становится стоимость за токен, а не объём output. Второе: GPT-5.5 на ofox работает на Azure. Это аргумент по закупкам для тех, кто уже внутри периметра compliance Microsoft; на прайс-лист, видимый большинству аккаунтов, это не влияет, но означает, что вышестоящий провайдер — Microsoft, а не OpenAI напрямую.

Полный путь доступа к GLM-5.2 — тарифы, таймлайн весов MIT, собственный Coding Plan от Z.ai — смотрите в нашем гайде по доступу к GLM-5.2. Картину бенчмарков GPT-5.5 по кодингу против других frontier-моделей 2026 года смотрите в разборе MiniMax M3 vs GPT-5.5 по SWE-Bench.

Реальная математика за токен: три сценария нагрузки

Прайс из ценника — это просто. Интересная цифра — как выглядит инвойс на вашем реальном масштабе. Берём три сценария по реалистичному диапазону объёмов, который команды встречают в продакшене.

Блок допущений (фиксированный для всех трёх):

  • 3,000 токенов на запрос, разбивка 2:1 input к output (2K in, 1K out)
  • 30 дней в месяце
  • Без попаданий в cache в заглавной цифре (влияние cache добавим в следующем разделе)
  • Add-on web search исключён

Лёгкий: 10K запросов в день

Примерно форма небольшой команды, гоняющей один coding-agent на умеренной интенсивности, или pet-проекта на масштабе.

  • Input-токенов в день: 10K × 2K = 20M
  • Output-токенов в день: 10K × 1K = 10M
МодельСтоимость input / деньСтоимость output / деньИтого / деньИтого / месяц
GLM-5.220M × $1.4 = $2810M × $4.4 = $44$72~$2,160
GPT-5.520M × $5.0 = $10010M × $30 = $300$400~$12,000
Разница$328/день~$9,840/месяц

Средний: 100K запросов в день

Форма команды из 10 инженеров, гоняющей coding-агентов на полную, или продуктовой фичи, открывающей модель конечным пользователям при умеренной concurrency.

  • Input-токенов в день: 100K × 2K = 200M
  • Output-токенов в день: 100K × 1K = 100M
МодельСтоимость input / деньСтоимость output / деньИтого / деньИтого / месяц
GLM-5.2200M × $1.4 = $280100M × $4.4 = $440$720~$21,600
GPT-5.5200M × $5.0 = $1,000100M × $30 = $3,000$4,000~$120,000
Разница$3,280/день~$98,400/месяц

Тяжёлый: 1M запросов в день

Форма продакшен-флота агентов, SaaS для разработчиков на масштабе или внутренней платформы, открытой для организации с четырёхзначным числом инженеров.

  • Input-токенов в день: 1M × 2K = 2B
  • Output-токенов в день: 1M × 1K = 1B
МодельСтоимость input / деньСтоимость output / деньИтого / деньИтого / месяц
GLM-5.22B × $1.4 = $2,8001B × $4.4 = $4,400$7,200~$216,000
GPT-5.52B × $5.0 = $10,0001B × $30 = $30,000$40,000~$1,200,000
Разница$32,800/день~$984,000/месяц

Соотношение 5.56x держится на каждом уровне объёма — масштабируются только абсолютные траты. На лёгком объёме это полезная экономия; на среднем она окупает двух senior-инженеров в месяц; на тяжёлом это разница между тем, выйдет фича или будет убита по причине unit-экономики.

Эти таблицы верны для стандартного микса input к output 2:1. Соотношение дрейфует в зависимости от формы нагрузки: при 1:1 (диалоговые реплики) соотношение стоимости 6.03x; при 1:3 с упором на output (генерация кода из короткого prompt) — 6.51x; при 3:1 с упором на input (суммаризация длинного контекста) соотношение сужается до 5.23x, потому что скидка GLM-5.2 на input-токен (input дешевле в 3.57x) меньше, чем скидка на output-токен (output дешевле в 6.82x). Нагрузки с доминированием output склоняются к GLM-5.2 сильнее; нагрузки с доминированием input склоняются менее жёстко, но всё равно в пользу GLM при любом реалистичном миксе.

Влияние cache: насколько prompt caching закрывает разрыв?

Обе модели тарифицируют чтение из cache ниже полной input-ставки: GLM-5.2 по $0.26/M (скидка 81% к input), GPT-5.5 по $0.50/M (скидка 90% к input). Уровни попаданий в cache выше 50% реалистичны для нагрузок code-review, где контекст кодовой базы повторяется между запросами. Вот что 50% попаданий в input cache делают с blended-стоимостью.

При 50% попаданий в input cache (половина input-токенов отдаётся из cache, output без изменений):

МодельНезакешированный input ($/M)Закешированный input ($/M)Эффективный input ($/M)Output ($/M)Blended ($/M) при 2:1Падение vs без cache
GLM-5.2$1.40$0.26$0.83$4.40$2.02−15.8%
GPT-5.5$5.00$0.50$2.75$30.00$11.83−11.2%

При 100% попаданий в input cache (каждый input-токен закеширован):

МодельInput ($/M, всё закешировано)Output ($/M)Blended ($/M) при 2:1Падение vs без cache
GLM-5.2$0.26$4.40$1.64−31.7%
GPT-5.5$0.50$30.00$10.33−22.5%

Здесь два прочтения. Первое: cache экономит больше абсолютных долларов у GPT-5.5 на закешированный токен — вы избегаете $4.50 на закешированный миллион у GPT-5.5 против $1.14 у GLM-5.2. Если ваш CFO оценивает cache-программу по сырым сэкономленным долларам, выигрывает GPT-5.5. Второе: cache экономит большую долю всего счёта GLM-5.2 — поскольку input составляет большую часть blended-стоимости GLM-5.2, срезание input-затрат даёт больший пропорциональный эффект. При 100% попаданий в input cache GLM срезает 31.7% своего blended-счёта; GPT-5.5 — 22.5%.

Итог в том, что GLM-5.2 остаётся дешевле при любом уровне попаданий в cache. Соотношение стоимости на самом деле слегка растёт по мере роста уровня попаданий — с 5.56x без cache до 5.86x при 50% попаданий в input cache и до 6.30x при 100% попаданий в input cache. Звучит контринтуитивно, но математика простая: cache съедает большую долю blended-счёта GLM-5.2, чем у GPT-5.5, так что счёт GLM сокращается быстрее в процентах. Prompt caching — это равномерная скидка только на input; он не меняет output-ставку GPT-5.5, а именно в output живёт абсолютный долларовый разрыв.

Когда выигрывает GLM-5.2 (и когда разрыв по бенчмаркам приемлем)

Пять нагрузок, где GLM-5.2 — очевидно верное решение по маршрутизации:

  1. Batch code review и асинхронные прогоны рефакторинга. Ночные апгрейды зависимостей, генерация документации, пакетные lint-фиксы — работа, где доминируют общие траты на токены, а latency отдельного запроса не имеет значения. Разрыв в стоимости 5.56x накапливается через тысячи запросов за ночь.
  2. Рефакторинг с длинным контекстом. Контекст 1M у GLM-5.2 позволяет отправить целый модуль среднего размера в одном prompt. Его лимит output 128K идентичен GPT-5.5, так что очень крупные переписывания всё равно дробятся на обеих моделях — но GLM-5.2 выдаёт те же патчи при стоимости за токен ниже в 5.56x, а его input дешевле в 3.57x, что доминирует на input-heavy проходах рефакторинга.
  3. Пайплайны генерации кода с упором на output. Стоимость за output-токен — это дифференциатор на уровне 6.82x. Если ваш agent выдаёт больше кода, чем читает (генерация тестов, скаффолдинг, применение codemod), GLM-5.2 выигрывает непропорционально.
  4. Нагрузки с высоким уровнем попаданий в cache. Code-review агенты, переиспользующие один контекст кодовой базы, RAG-пайплайны со стабильными корпусами — чтение из cache у GLM-5.2 по $0.26/M вдвое дешевле, чем $0.50/M у GPT-5.5, и пропорциональная выгода от cache у GLM больше.
  5. Страховка open-weight. Веса под лицензией MIT означают, что если Z.ai изменит хостинговый прайс или условия, вы можете откатиться на self-hosting той же модели. У GPT-5.5 нет on-prem пути. Даже если вы никогда не развернёте веса, ценность опциона реальна.

Честная оговорка: разрыв по бенчмаркам с GPT-5.5 реален на агентной работе в стиле Terminal-Bench. Z.ai не публиковала результаты SWE-Bench Verified на момент запуска GLM-5.2, а независимые сторонние бенчмарки по состоянию на середину июня 2026 были в ожидании. Если ваша нагрузка зависит от многошагового shell-агентного цикла, который измеряет Terminal-Bench, GPT-5.5 всё ещё лидирует — для всего остального аргумент стоимости решающий.

Когда GPT-5.5 всё ещё имеет смысл

Три нагрузки, где доплата в 5.56x оправдывает себя:

  1. Codex CLI — ваша основная поверхность. Терминальный agent от OpenAI заточен под GPT-5.5 на уровне протокола — file handles, история shell, восстановление через несколько ходов после неудачных команд. Результат Terminal-Bench 2.1 (82.7%) отражает глубину интеграции не меньше, чем способности модели. Поменять модель за Codex — не бесплатный ход.
  2. Чувствительный к latency интерактивный кодинг. Потоки парного программирования, где каждая лишняя секунда latency первого токена бьёт по adoption. GPT-5.5 заточен под короткие prompt и быстрый первый токен; на интерактивном prompt в 5K токенов GPT-5.5 обычно выигрывает по latency.
  3. Закупки на базе Azure. Линейка GPT-5.5 в ofox работает на Azure, что закрывает вопрос с закупками без новой проверки поставщика для тех, кто уже внутри compliance Microsoft. Стоимость закупки нового поставщика моделей часто превышает экономию за токен для команд ниже нескольких сотен тысяч токенов в день.

Четвёртый сценарий — смешанная reasoning-нагрузка: если ваш coding-agent иногда пишет архитектурные сводки, постмортемы или research-брифы, общий потолок reasoning у GPT-5.5 выше, чем у GLM-5.2. При этом для чисто кодинговых нагрузок аргумент стоимости GLM-5.2 доминирует.

Паттерн A/B-маршрутизации через ofox: один ключ, один endpoint, две модели

И z-ai/glm-5.2, и openai/gpt-5.5 доступны на https://api.ofox.io/v1 по OpenAI-совместимому протоколу. Замена модели — это изменение одной строки. Минимальная полезная A/B-обвязка:

Python — A/B обеих моделей в одном цикле

from openai import OpenAI
import os, time

client = OpenAI(base_url="https://api.ofox.io/v1", api_key=os.environ["OFOX_API_KEY"])

prompt = "Refactor this Python function to use async/await and return early on empty list: ..."

for model in ["z-ai/glm-5.2", "openai/gpt-5.5"]:
    t0 = time.time()
    resp = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": prompt}],
    )
    elapsed = time.time() - t0
    print(f"{model}: {elapsed:.1f}s, {resp.usage.total_tokens} tokens")
    print(resp.choices[0].message.content[:200])

Это даёт сырую latency, общий счётчик токенов и output бок о бок на вашей собственной задаче. Прогоните это на 20-30 репрезентативных кейсах из вашей реальной нагрузки — это единственный честный вход для решения о маршрутизации.

Node — та же форма

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "https://api.ofox.io/v1",
  apiKey: process.env.OFOX_API_KEY,
});

const prompt = "Refactor this Python function to use async/await and return early on empty list: ...";

for (const model of ["z-ai/glm-5.2", "openai/gpt-5.5"]) {
  const t0 = Date.now();
  const resp = await client.chat.completions.create({
    model,
    messages: [{ role: "user", content: prompt }],
  });
  console.log(`${model}: ${(Date.now() - t0) / 1000}s, ${resp.usage.total_tokens} tokens`);
  console.log(resp.choices[0].message.content.slice(0, 200));
}

Продакшен-маршрутизация — замена модели в одну строку

Тот же вызов SDK, тот же ключ, та же строка биллинга. Чтобы направить чувствительную к стоимости половину трафика на GLM-5.2 и оставить интерактивную половину на GPT-5.5:

def pick_model(request_type: str) -> str:
    if request_type in {"batch_refactor", "code_review", "doc_generation"}:
        return "z-ai/glm-5.2"
    return "openai/gpt-5.5"

resp = client.chat.completions.create(
    model=pick_model(request_type),
    messages=messages,
)

Никакой миграции, никакого нового ключа, никакой отдельной сверки биллинга. Колонка модели в вашем инвойсе говорит, во что обошёлся каждый запрос; функция маршрутизации — единственное место для настройки разделения. Более широкий паттерн маршрутизации по всему каталогу ofox — включая Claude для эскалаций — смотрите в нашем гайде по AI-стеку для кодинга за $30.

Источники и справка по ценам

При соотношении стоимости 5.56x, которое держится на всех уровнях объёма, и разрыве 6.82x на чистых output-токенах вопрос маршрутизации больше не «достаточно ли хорош GLM-5.2» — он звучит так: «какая нагрузка всё ещё оправдывает доплату за GPT-5.5», и «шоп на Codex CLI» — самый чистый честный ответ.