Маршрутизация GLM-5.2, DeepSeek V4, MiniMax M3 и Kimi K2.6 через один API (2026)

4 модели за одним ключом ofox: blended от $0.19/M (V4 Flash) до $2.40/M (GLM-5.2), разрыв 12.86x. Таблица на 1,000 задач/день режет $4,205/мес до $1,453 (−65.5%). Python + Node.

Маршрутизация GLM-5.2, DeepSeek V4, MiniMax M3 и Kimi K2.6 через один API (2026)

TL;DR — Поставьте GLM-5.2, DeepSeek V4 (Pro и Flash), MiniMax M3 и Kimi K2.6 за один API-ключ ofox и маршрутизируйте под задачу, а не платите цену одной модели за каждую работу. Blended-стоимость за токен при миксе input к output 2:1 варьируется от $0.19/M (V4 Flash) до $2.40/M (GLM-5.2) — разрыв 12.86x. Разобранная таблица маршрутизации на 1,000 задач/день ниже режет счёт $4,205/мес на all-GLM до $1,453 (−65.5%). Правило маршрутизации короткое: бюджет/batch → V4 Flash, длинный контекст (до 1M токенов) → V4 Pro или GLM-5.2, reasoning/код → GLM-5.2 или Kimi K2.6, изображения → MiniMax M3 или Kimi K2.6. Все четыре сидят на одном OpenAI-совместимом endpoint, так что маршрутизация — это замена в одну строку — циклы на Python и Node прилагаются.

Команды совершают ошибку, выбирая одну модель и прогоняя через неё всё. Batch-задача суммаризации и сложная reasoning-задача не заслуживают одной цены за токен. С одним ключом на все четыре модели самый дешёвый тариф стоит в 12.86x меньше самого способного — так что вся игра сводится к сопоставлению каждого класса задач с самой дешёвой моделью, которая проходит его планку качества.

Это how-to с воспроизводимой математикой стоимости, а не обзор «какой роутер лучше». Каждая цифра ниже взята из листовых ставок ofox за токен, проверенных 23 июня 2026, и любую таблицу можно пересчитать из спецификации.

TL;DR: какая модель для какой задачи?

Вердикт в одну строку: по умолчанию направляйте batch-трафик на самый дешёвый тариф и эскалируйте только те задачи, которым это нужно. Вот карта маршрутизации по форме задачи.

Форма задачиМаршрут наID модели на ofoxПочему
Бюджет / высокообъёмный batchDeepSeek V4 Flashdeepseek/deepseek-v4-flash$0.19/M blended, в 12.86x дешевле GLM-5.2
Чувствительная к стоимости общая работаDeepSeek V4 Prodeepseek/deepseek-v4-pro$0.59/M blended, бесплатное чтение из cache, контекст 1M
Длинный контекст (до ~1M токенов)V4 Pro или GLM-5.2deepseek/deepseek-v4-pro / z-ai/glm-5.2V4 Pro — самый дешёвый input на 1M ($0.45/M); GLM-5.2 — лучший reasoning на 1M
Сложный reasoning / агентный кодингGLM-5.2 или Kimi K2.6z-ai/glm-5.2 / moonshotai/kimi-k2.6Сильнейший reasoning-тариф; Kimi K2.6 — мультимодальная альтернатива
Ввод изображения (vision-задачи)MiniMax M3 или Kimi K2.6minimax/minimax-m3 / moonshotai/kimi-k2.6Только две из четырёх принимают image_url; M3 дешевле
Очень длинный одиночный outputDeepSeek V4 Pro/Flashdeepseek/deepseek-v4-pro384K max output, больше всех из четырёх

Честный дефолт для большинства команд 2026: отправляйте основную массу трафика на deepseek/deepseek-v4-flash или deepseek/deepseek-v4-pro, эскалируйте по-настоящему сложный reasoning на z-ai/glm-5.2, а всё, где есть изображение, направляйте на minimax/minimax-m3. Это покрывает реалистичные 90% смешанных нагрузок за одним ключом без миграции поставщика.

Быстрое сравнение характеристик

Проверено по каталогу ofox /v1/models 23 июня 2026. Цены — за миллион токенов.

ХарактеристикаGLM-5.2DeepSeek V4 ProDeepSeek V4 FlashMiniMax M3Kimi K2.6
ID модели на ofoxz-ai/glm-5.2deepseek/deepseek-v4-prodeepseek/deepseek-v4-flashminimax/minimax-m3moonshotai/kimi-k2.6
Окно контекста1,048,5761,000,0001,000,0001,131,000262,144
Max output128,000384,000384,000131,000262,144
Input $/M$1.40$0.45$0.14$0.60$0.95
Output $/M$4.40$0.88$0.28$2.40$4.00
Чтение из cache $/M$0.26~$0.00~$0.00$0.12$0.16
Модальностьтексттексттексттекст + изображениетекст + изображение

Три структурных факта определяют каждое решение по маршрутизации ниже:

  1. DeepSeek V4 Flash — ценовой пол. По $0.14/$0.28 он в 12.86x дешевле GLM-5.2 в blended. Всё, чему не нужен reasoning высшего тарифа, начинается здесь.
  2. Чтение из cache у DeepSeek V4 фактически бесплатное. Оба тарифа V4 тарифицируют чтение из cache по округляющейся к нулю ставке против $0.26/M у GLM-5.2. На нагрузках с повторяющимся контекстом это крупная, часто упускаемая экономия.
  3. Только MiniMax M3 и Kimi K2.6 принимают изображения. GLM-5.2 и оба тарифа DeepSeek — только текст. У vision-задач ровно два допустимых маршрута, и MiniMax M3 из них дешевле.

Blended-стоимость: цифра, которая определяет маршрутизацию

Заглавная цена input у модели — это половина истории. Сколько вы платите, зависит от вашего соотношения input к output. Coding-агент много читает (большой контекст) и мало пишет (diff) — примерно 2:1 input к output. Диалог ближе к 1:1. Чистая генерация кода из короткого prompt — с упором на output, около 1:3.

Вот blended-стоимость за миллион токенов при типичном для кодинга миксе 2:1 (две трети input, одна треть output) и множитель против GLM-5.2 как якоря reasoning-тарифа:

МодельBlended $/M (2:1)vs GLM-5.2
DeepSeek V4 Flash$0.187в 12.86x дешевле
DeepSeek V4 Pro$0.593в 4.04x дешевле
MiniMax M3$1.200в 2.00x дешевле
Kimi K2.6$1.967в 1.22x дешевле
GLM-5.2$2.4001.00x (якорь)

Самая дешёвая модель в этом списке стоит в 12.86x меньше самой способной. Этот разрыв — весь экономический смысл маршрутизации: не в том, какая модель «побеждает», а в том, какие задачи могут ехать на дешёвом тарифе так, что никто не заметит.

Расстановка немного сдвигается с формой нагрузки. При 1:3 с упором на output (генерация кода) GLM-5.2 поднимается до $3.65/M, а Kimi K2.6 — до $3.24/M, тогда как V4 Flash остаётся на $0.245/M. Работа с доминированием output ещё сильнее склоняется к тарифам DeepSeek, потому что их output-токен — самый дешёвый из пяти. Если запоминать только одно правило: чем больше задача пишет, тем выгоднее уводить её с GLM-5.2 и Kimi K2.6.

Если хотите перестать оценивать и измерить эти цифры на собственном трафике, прогоните все пять моделей через один ключ ofox — pay-as-you-go, без месячной платы, та же форма OpenAI SDK, а A/B-цикл в конце этого поста меняет модели заменой строки в одну строку.

Стоимость за задачу: во что обходится один прогон агента на каждой модели

Решения по маршрутизации легче прочувствовать в долларах за прогон, чем в ставках за миллион токенов. Возьмём репрезентативный прогон агента: 50,000 input-токенов, 15,000 output-токенов (прочитать кусок кодовой базы, выдать изменение).

МодельСтоимость за прогон (50K in / 15K out)
DeepSeek V4 Flash$0.0112
DeepSeek V4 Pro$0.0357
MiniMax M3$0.0660
Kimi K2.6$0.1075
GLM-5.2$0.1360

При 10,000 таких прогонов в месяц это $112 на V4 Flash против $1,360 на GLM-5.2 за одну и ту же работу. Если хотя бы половина этих прогонов достаточно рутинна для бюджетного тарифа, решение о маршрутизации окупается многократно. Суть не в том, что V4 Flash всегда прав, — а в том, что платить цену GLM-5.2 за задачу, которую потянул бы V4 Flash, — это чистые потери.

Матрица решений по маршрутизации (разобранный пример)

Вот та часть, которую большинство статей «используйте роутер» пропускают: реальная дневная математика. Допустим, 1,000 смешанных задач в день с таким реалистичным распределением:

Класс задачКол-во/деньТокены (in / out)Маршрут на
Бюджет / batch60010K / 2KDeepSeek V4 Flash
Длинный контекст250300K / 8KDeepSeek V4 Pro
Reasoning / код10040K / 12KGLM-5.2
Мультимодальные (изображение)5016.5K / 3KMiniMax M3

Прогон всего на GLM-5.2 (ловушка одной модели) против маршрутизации каждого класса на подходящую по стоимости модель:

СтратегияСтоимость/деньВ месяц (×30)
Базовый all-GLM-5.2$140.17~$4,205
С маршрутизацией$48.42~$1,453
Экономия$91.75/день~$2,753/мес (−65.5%)

Разбивка итога с маршрутизацией:

Класс задачМодельСтоимость/день
Бюджет / batch (600)V4 Flash$1.18
Длинный контекст (250)V4 Pro$35.51
Reasoning / код (100)GLM-5.2$10.88
Мультимодальные (50)MiniMax M3$0.85
Итого$48.42

600 batch-задач — 60% объёма — обходятся в $1.18/день на V4 Flash. На GLM-5.2 те же 600 задач стоили бы около $13.68/день — примерно в 11.6× больше. Это единственное правило маршрутизации (дешёвый batch → V4 Flash) делает основную часть работы. Класс длинного контекста — это где доллары на самом деле концентрируются, поэтому следующий раздел и важен.

flowchart TD
    A[Входящий запрос] --> B{Нужен ввод изображения?}
    B -->|Да| C[minimax/minimax-m3]
    B -->|Нет| D{Сложный reasoning<br/>или агентный кодинг?}
    D -->|Да| E[z-ai/glm-5.2]
    D -->|Нет| F{Контекст > 200K<br/>токенов?}
    F -->|Да| G[deepseek/deepseek-v4-pro<br/>бесплатное чтение из cache, контекст 1M]
    F -->|Нет| H[deepseek/deepseek-v4-flash<br/>самый дешёвый тариф]

Чтение из cache: тихое преимущество DeepSeek V4 по стоимости

Класс длинного контекста выше — это где кеширование меняет математику. DeepSeek V4 Pro и Flash тарифицируют чтение из cache фактически по $0/M. GLM-5.2 тарифицирует их по $0.26/M, MiniMax M3 — по $0.12/M, Kimi K2.6 — по $0.16/M.

Возьмём задачу длинного контекста на 300K input из таблицы маршрутизации (стоимость за прогон включает 8K output), где 80% input отдаётся из cache (реалистично для циклов code-review, где один и тот же контекст кодовой базы повторяется между запросами):

МодельБез cache80% input из cacheЭкономия
DeepSeek V4 Pro$0.1420$0.034076.0%
GLM-5.2$0.4552$0.181660.1%

V4 Pro стартует дешевле и экономит большую долю, потому что его чтение из cache округляется к нулю, тогда как GLM-5.2 всё равно платит $0.26/M на закешированной части. Для любой нагрузки, которая повторно отправляет один и тот же длинный контекст — RAG по фиксированному корпусу, итеративный code review, Q&A по документам — маршрутизируйте на DeepSeek V4 Pro, и бесплатное чтение из cache накапливается. Это входной фактор маршрутизации, который более сильный reasoning у GLM-5.2 не всегда оправдывает перебить.

Разделение reasoning-тарифа: GLM-5.2 vs Kimi K2.6

Матрица маршрутизации отправляет «сложный reasoning / агентный кодинг» на GLM-5.2 или Kimi K2.6, и это «или» заслуживает правила, а не подбрасывания монетки. Обе — дорогой край этой линейки: GLM-5.2 по $1.40/$4.40, Kimi K2.6 по $0.95/$4.00 — и при миксе 2:1 Kimi K2.6 в blended получается чуть дешевле ($1.97/M против $2.40/M), потому что у неё ниже input-ставка. Три конкретных фактора решают маршрут:

Фактор решенияМаршрут на GLM-5.2Маршрут на Kimi K2.6
Нужная длина контекстаДо 1,048,576 токеновПотолок 262,144 — исключите для задач >256K
Ввод изображения в задачеНе поддерживается (только текст)Поддерживается (текст + изображение)
Дешевле blended при 2:1$2.40/M$1.97/M (на 18% ниже)
Max одиночный output128,000 токенов262,144 токенов

Практическое правило: если reasoning-задача несёт большой контекст (>256K токенов), GLM-5.2 — единственная из двух, что подходит: Kimi K2.6 отвергнет input. Если контекст уверенно ниже 256K, а задача включает изображение или требует более дешёвой ставки за токен, Kimi K2.6 — лучший маршрут. Для большинства коротких ходов агентного кодинга более низкая input-цена Kimi K2.6 делает её value-выбором внутри reasoning-тарифа; держите GLM-5.2 для длинноконтекстного reasoning, который вмещает только её окно 1M. Гайд по релизу Kimi K2.6 глубже разбирает её агентное поведение.

Именно поэтому клиентская маршрутизация бьёт привязку к одной модели: «лучшая reasoning-модель» зависит от формы reasoning-задачи, а строка model — это самый дешёвый из возможных переключателей между ними.

Latency и throughput тоже входные факторы маршрутизации

Стоимость — самый громкий сигнал маршрутизации, но не единственный. Две операционные заметки, которые меняют реальные решения по маршрутизации:

  • Интерактив vs batch. Для user-facing ассистента, где ощущается latency первого токена, самая дешёвая модель не автоматически верная — чуть более дорогая модель, которая отвечает быстрее, может стоить того на интерактивной поверхности, тогда как ночные batch-задачи должны ехать на самом дешёвом тарифе независимо от скорости. Маршрутизируйте по поверхности, а не только по цене: интерактивный трафик терпит более высокую стоимость за токен, batch-трафик — нет.
  • Потолок output как жёсткое ограничение. Если один ответ должен превысить 128,000 токенов — переписывание целых файлов, крупные структурированные экспорты — GLM-5.2 и MiniMax M3 упираются в потолок, и вызов обрезается. Только тарифы DeepSeek V4 (384K) и Kimi K2.6 (262K) проходят эту планку в одном вызове. Это бинарный шлюз маршрутизации, а не компромисс по стоимости: отправляйте задачи с негабаритным output на модель, которая физически способна выдать эти токены.

Оба этих случая ваша функция pick_model может закодировать как простые условия — тип поверхности и ожидаемый размер output обычно известны на момент запроса.

Когда НЕ маршрутизировать (и что использовать вместо этого)

Маршрутизация — это не бесплатная инженерия. Три случая, где разделение на несколько моделей — неверный ход:

  • Один разработчик, < 1,000 вызовов/день, всё одного типа задач. Логика маршрутизации и тестирование качества по моделям стоят больше времени, чем вы сэкономите. Выберите deepseek/deepseek-v4-pro как сильный, дешёвый дефолт и двигайтесь дальше. Blended-стоимость $0.59/M уже достаточно низкая, чтобы микрооптимизация не стоила ветвящегося кода.
  • Вам реально нужно серверное автоматическое слияние. ofox маршрутизирует по вашему полю model — он не выбирает модель сам и не сливает выводы. Если вам конкретно нужен авто-выбор по качеству или слияние ответов (идея в духе OpenRouter Auto / Sakana), это другая категория продуктов. Используйте один из таких инструментов или прочитайте наш честный обзор того, надёжен ли OpenRouter, прежде чем решать, что авто-роутер стоит непредсказуемости.
  • Каждой задаче по-настоящему нужен reasoning высшего тарифа. Если ваш трафик — это 100% сложный агентный кодинг без бюджетной работы, маршрутизировать нечего: гоните GLM-5.2 (или Kimi K2.6) и пропустите матрицу. Маршрутизация окупается, только когда ваша нагрузка смешанная. Для чистого reasoning-разделения на две модели наш паттерн гибридной маршрутизации Claude Code покрывает этот более узкий случай.

Выигрыш от маршрутизации пропорционален тому, насколько разнороден ваш трафик. Однородный трафик → одна модель. Смешанный трафик → матрица выше.

Попробуйте через ofox: все пять в одном цикле

Все пять моделей делят https://api.ofox.ai/v1 и один ключ ofox. Маршрутизация — это клиентское решение: вы задаёте поле model на каждом запросе. Вот функция маршрутизации и A/B-цикл на Python и Node.

Python — маршрут под задачу, затем A/B кандидатов

from openai import OpenAI

client = OpenAI(base_url="https://api.ofox.ai/v1", api_key="<OFOXAI_API_KEY>")

def pick_model(task):
    if task["has_image"]:         return "minimax/minimax-m3"        # only M3/Kimi take images
    if task["hard_reasoning"]:                                       # split the reasoning tier
        return "z-ai/glm-5.2" if task["context"] > 256_000 else "moonshotai/kimi-k2.6"
    if task["context"] > 200_000: return "deepseek/deepseek-v4-pro"  # free cache reads, 1M ctx
    return "deepseek/deepseek-v4-flash"                              # cheapest tier

def run(task, messages):
    model = pick_model(task)
    return client.chat.completions.create(model=model, messages=messages)

Чтобы сравнить кандидатов на собственном трафике, пройдитесь циклом по ID моделей с фиксированным prompt — меняйте строку, держите всё остальное неизменным:

CANDIDATES = ["deepseek/deepseek-v4-flash", "deepseek/deepseek-v4-pro", "z-ai/glm-5.2"]
for model in CANDIDATES:
    r = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": "Refactor this function for readability: ..."}],
    )
    u = r.usage
    print(model, u.prompt_tokens, u.completion_tokens)  # log tokens to price each route

Node — та же форма

import OpenAI from "openai";

const client = new OpenAI({ baseURL: "https://api.ofox.ai/v1", apiKey: process.env.OFOXAI_API_KEY });

const pickModel = (t) =>
  t.hasImage        ? "minimax/minimax-m3"
  : t.hardReasoning ? (t.context > 256000 ? "z-ai/glm-5.2" : "moonshotai/kimi-k2.6")
  : t.context > 200000 ? "deepseek/deepseek-v4-pro"
  : "deepseek/deepseek-v4-flash";

const r = await client.chat.completions.create({
  model: pickModel(task),
  messages: [{ role: "user", content: "Summarize this changelog: ..." }],
});

Только мультимодальное: прикрепите скриншот к MiniMax M3 или Kimi K2.6

GLM-5.2 и оба тарифа DeepSeek — только текст; вызов ниже физически падает на них. Маршрутизируйте ввод изображения на minimax/minimax-m3 или moonshotai/kimi-k2.6:

import base64

img = base64.b64encode(open("screenshot.png", "rb").read()).decode()
r = client.chat.completions.create(
    model="minimax/minimax-m3",   # or moonshotai/kimi-k2.6
    messages=[{"role": "user", "content": [
        {"type": "text", "text": "What error is shown in this screenshot?"},
        {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{img}"}},
    ]}],
)

Это весь роутер: функция pick_model и один OpenAI-клиент. Никакого нового SDK, никакого API-ключа на каждую модель, одна строка биллинга. Страницы с деталями по каждой модели связаны в таблице — z-ai/glm-5.2, deepseek/deepseek-v4-pro, deepseek/deepseek-v4-flash, minimax/minimax-m3 и moonshotai/kimi-k2.6.

Альтернативы

Если роутер с одним ключом и клиентской маршрутизацией подходит вашей нагрузке, ofox — простейший путь: один OpenAI-совместимый endpoint, один баланс, все пять ID моделей. Для других форм:

  • ofox — один ключ, 100+ моделей, OpenAI-совместимый. Вы контролируете маршрутизацию через поле model; биллинг и endpoint унифицированы. Лучше всего, когда нужна предсказуемая по стоимости детерминированная маршрутизация, которую вы пишете сами. См. разбор альтернатив OpenRouter о том, как он сравнивается по наценке и надёжности.
  • OpenRouter — большой каталог с опциональным серверным роутером Auto, который выбирает модель за вас. Полезно, если вам конкретно нужен автоматический выбор и вы терпите менее предсказуемую маршрутизацию и наценку платформы.
  • Прямые API провайдеров — вызов DeepSeek, Zhipu (GLM), MiniMax и Moonshot напрямую даёт самый сырой прайс, но четыре ключа, четыре SDK и четыре строки биллинга для сверки. Оправдано лишь на очень высоком объёме у одного провайдера.
  • Self-hosting — GLM и DeepSeek публикуют открытые веса, так что air-gapped или требующее форка развёртывание возможно. Экономика работает только на масштабе; см. наш разбор стоимости железа для self-host GLM-5.2 с математикой точки безубыточности против хостинговой цены за токен.

Для более глубокого контекста по моделям гайд по доступу к GLM-5.2, разбор стоимости GLM-5.2 vs GPT-5.5, сравнение DeepSeek V4 Pro vs Flash, гайд по релизу DeepSeek V4 и бенчмарк кодинга MiniMax M3 vs GPT-5.5 — каждый уходит на слой глубже, чем этот обзор маршрутизации.

FAQ

Блок FAQ во frontmatter выше отвечает на самые частые вопросы по маршрутизации (один ключ для маршрутизации, самая дешёвая модель, самый длинный контекст, какие модели работают с vision, реальная экономия, бесплатное чтение из cache, отсутствие серверного авто-роутера, max output и как провести A/B). Эти ответы зеркалят таблицы в посте — цифры стоимости, ID моделей и правила маршрутизации согласованы по всему тексту.

Источники, проверенные для этого обновления

  • Живой каталог API ofox /v1/models — все пять ID моделей, окна контекста, max output и прайс за токен (input / output / чтение из cache) проверены 2026-06-23
  • ofox llms-full.txt — OpenAI-совместимый base_url https://api.ofox.ai/v1 и единый ключ на все модели подтверждены (2026-06-23)
  • Страницы деталей моделей ofox для z-ai/glm-5.2, deepseek/deepseek-v4-pro, deepseek/deepseek-v4-flash, minimax/minimax-m3, moonshotai/kimi-k2.6 — все вернули HTTP 200 (2026-06-23)
  • OpenAI Python SDK (openai 2.43.0 на PyPI) и OpenAI Node SDK — форма SDK, использованная в примерах кода (2026-06-23)
  • Все таблицы стоимости пересчитываются из ставок за токен в таблице быстрых характеристик