Можно ли маршрутизировать между GLM-5.2, DeepSeek V4, MiniMax M3 и Kimi K2.6 за одним API key?

Да. Все четыре живут на одном OpenAI-совместимом endpoint по адресу https://api.ofox.ai/v1. Один ключ ofox аутентифицирует любую модель — вы маршрутизируете, меняя строку `model` на каждом запросе: `z-ai/glm-5.2`, `deepseek/deepseek-v4-pro`, `deepseek/deepseek-v4-flash`, `minimax/minimax-m3` или `moonshotai/kimi-k2.6`. Тот же ключ, тот же SDK, один баланс. Серверного авто-роутера нет; ваш клиент сам выбирает модель под задачу.

Какая модель дешевле всех за токен?

DeepSeek V4 Flash по $0.14 input / $0.28 output за миллион токенов — blended-стоимость $0.187/M при миксе input к output 2:1, в 12.86x дешевле, чем blended $2.40/M у GLM-5.2. Дальше идёт DeepSeek V4 Pro по $0.45/$0.88 ($0.593/M blended). MiniMax M3 — $0.60/$2.40 ($1.20/M), Kimi K2.6 — $0.95/$4.00 ($1.97/M), а GLM-5.2 — $1.40/$4.40, самая дорогая из четырёх, но сильнейшая в reasoning.

У какой модели самое длинное окно контекста?

MiniMax M3 с 1,131,000 токенов, чуть впереди GLM-5.2 с 1,048,576 и DeepSeek V4 (Pro и Flash) с 1,000,000. Kimi K2.6 выбивается из ряда с 262,144 токенами. Для задач, которым нужен полный input на 1M токенов — рефакторинг крупных монорепо, анализ длинных документов — маршрутизируйте на V4 Pro (самый дешёвый input класса 1M по $0.45/M) или GLM-5.2 (лучший reasoning на 1M).

Какие из этих моделей работают с изображениями?

Две из четырёх: MiniMax M3 и Kimi K2.6 принимают текст плюс изображение. GLM-5.2 и оба тарифа DeepSeek V4 — только текст; отправка им content-блока `image_url` вызовет ошибку. Любую vision-задачу маршрутизируйте на MiniMax M3 (дешевле, $0.60/$2.40, контекст 1.131M) или Kimi K2.6 ($0.95/$4.00), а текстовые задачи держите на более дешёвых тарифах DeepSeek.

Сколько на самом деле экономит маршрутизация по сравнению с прогоном всего на одной модели?

В разобранном примере ниже — 1,000 смешанных задач в день: бюджетные, длинноконтекстные, reasoning и мультимодальные — прогон всего на GLM-5.2 обходится примерно в $140.17/день ($4,205/мес). Маршрутизация каждого класса задач на подходящую по стоимости модель снижает это до $48.42/день ($1,453/мес), экономия 65.5%. Экономия идёт от отправки 600 дешёвых batch-задач на V4 Flash вместо оплаты премиума GLM-5.2 за работу, которой это не нужно.

Имеет ли реальное значение бесплатное чтение из cache у DeepSeek V4?

Да, на повторяющихся длинноконтекстных задачах. DeepSeek V4 Pro и Flash тарифицируют чтение из cache фактически по $0/M (указанная ставка $0.0000037/M округляется до нуля). На задаче с input 300K при 80% попаданий в cache V4 Pro падает с $0.142 до $0.034 за прогон — экономия input 76%. У GLM-5.2 чтение из cache стоит $0.26/M, поэтому та же задача экономит лишь 60.1%. В циклах code-review, где один и тот же контекст кодовой базы повторяется, бесплатное чтение из cache у V4 Pro накапливается быстро.

Есть ли на ofox серверный автоматический роутер?

Нет. ofox — это OpenAI-совместимый прокси: один base_url, один ключ, 100+ моделей. Маршрутизация — это клиентское решение: ваш код задаёт поле `model` на каждом запросе под задачу. Автоматическое слияние моделей или авто-роутинг по качеству (идея в духе OpenRouter Auto или Sakana) — это отдельная категория продуктов; ofox даёт вам единый биллинг и endpoint, а контроль над тем, какая модель работает, остаётся за вами. Обычно именно это и нужно для предсказуемой по стоимости продакшен-маршрутизации.

Каков лимит максимального output у каждой модели?

Лидируют DeepSeek V4 Pro и Flash с 384,000 токенов максимального output, Kimi K2.6 — 262,144, GLM-5.2 — 128,000, MiniMax M3 — 131,000. Если вы генерируете очень длинные одиночные ответы — переписывание целых файлов, крупные структурированные выводы — тарифы DeepSeek дают больше всего запаса в одном вызове. Для большинства агентных циклов потолок output на вызов редко становится связывающим ограничением; решает стоимость за токен.

Можно ли провести A/B этих моделей на своей нагрузке перед выбором?

Да, и стоит. Поскольку все четыре делят один endpoint и ключ, A/B-обвязка — это цикл на Python по списку ID моделей: меняйте строку, держите prompt фиксированным, логируйте токены и latency. Цикл из 10 строк в конце этого поста прогоняет одну и ту же задачу через `deepseek/deepseek-v4-flash`, `z-ai/glm-5.2` и остальные, так что вы измеряете реальную стоимость на своём трафике, а не доверяете blended-оценке.

Маршрутизация GLM-5.2, DeepSeek V4, MiniMax M3 и Kimi K2.6 через один API (2026)

TL;DR — Поставьте GLM-5.2, DeepSeek V4 (Pro и Flash), MiniMax M3 и Kimi K2.6 за один API-ключ ofox и маршрутизируйте под задачу, а не платите цену одной модели за каждую работу. Blended-стоимость за токен при миксе input к output 2:1 варьируется от $0.19/M (V4 Flash) до $2.40/M (GLM-5.2) — разрыв 12.86x. Разобранная таблица маршрутизации на 1,000 задач/день ниже режет счёт $4,205/мес на all-GLM до $1,453 (−65.5%). Правило маршрутизации короткое: бюджет/batch → V4 Flash, длинный контекст (до 1M токенов) → V4 Pro или GLM-5.2, reasoning/код → GLM-5.2 или Kimi K2.6, изображения → MiniMax M3 или Kimi K2.6. Все четыре сидят на одном OpenAI-совместимом endpoint, так что маршрутизация — это замена в одну строку — циклы на Python и Node прилагаются.

Команды совершают ошибку, выбирая одну модель и прогоняя через неё всё. Batch-задача суммаризации и сложная reasoning-задача не заслуживают одной цены за токен. С одним ключом на все четыре модели самый дешёвый тариф стоит в 12.86x меньше самого способного — так что вся игра сводится к сопоставлению каждого класса задач с самой дешёвой моделью, которая проходит его планку качества.

Это how-to с воспроизводимой математикой стоимости, а не обзор «какой роутер лучше». Каждая цифра ниже взята из листовых ставок ofox за токен, проверенных 23 июня 2026, и любую таблицу можно пересчитать из спецификации.

TL;DR: какая модель для какой задачи?

Вердикт в одну строку: по умолчанию направляйте batch-трафик на самый дешёвый тариф и эскалируйте только те задачи, которым это нужно. Вот карта маршрутизации по форме задачи.

Форма задачи	Маршрут на	ID модели на ofox	Почему
Бюджет / высокообъёмный batch	DeepSeek V4 Flash	`deepseek/deepseek-v4-flash`	$0.19/M blended, в 12.86x дешевле GLM-5.2
Чувствительная к стоимости общая работа	DeepSeek V4 Pro	`deepseek/deepseek-v4-pro`	$0.59/M blended, бесплатное чтение из cache, контекст 1M
Длинный контекст (до ~1M токенов)	V4 Pro или GLM-5.2	`deepseek/deepseek-v4-pro` / `z-ai/glm-5.2`	V4 Pro — самый дешёвый input на 1M ($0.45/M); GLM-5.2 — лучший reasoning на 1M
Сложный reasoning / агентный кодинг	GLM-5.2 или Kimi K2.6	`z-ai/glm-5.2` / `moonshotai/kimi-k2.6`	Сильнейший reasoning-тариф; Kimi K2.6 — мультимодальная альтернатива
Ввод изображения (vision-задачи)	MiniMax M3 или Kimi K2.6	`minimax/minimax-m3` / `moonshotai/kimi-k2.6`	Только две из четырёх принимают `image_url`; M3 дешевле
Очень длинный одиночный output	DeepSeek V4 Pro/Flash	`deepseek/deepseek-v4-pro`	384K max output, больше всех из четырёх

Честный дефолт для большинства команд 2026: отправляйте основную массу трафика на deepseek/deepseek-v4-flash или deepseek/deepseek-v4-pro, эскалируйте по-настоящему сложный reasoning на z-ai/glm-5.2, а всё, где есть изображение, направляйте на minimax/minimax-m3. Это покрывает реалистичные 90% смешанных нагрузок за одним ключом без миграции поставщика.

Быстрое сравнение характеристик

Проверено по каталогу ofox /v1/models 23 июня 2026. Цены — за миллион токенов.

Характеристика	GLM-5.2	DeepSeek V4 Pro	DeepSeek V4 Flash	MiniMax M3	Kimi K2.6
ID модели на ofox	`z-ai/glm-5.2`	`deepseek/deepseek-v4-pro`	`deepseek/deepseek-v4-flash`	`minimax/minimax-m3`	`moonshotai/kimi-k2.6`
Окно контекста	1,048,576	1,000,000	1,000,000	1,131,000	262,144
Max output	128,000	384,000	384,000	131,000	262,144
Input $/M	$1.40	$0.45	$0.14	$0.60	$0.95
Output $/M	$4.40	$0.88	$0.28	$2.40	$4.00
Чтение из cache $/M	$0.26	~$0.00	~$0.00	$0.12	$0.16
Модальность	текст	текст	текст	текст + изображение	текст + изображение

Три структурных факта определяют каждое решение по маршрутизации ниже:

DeepSeek V4 Flash — ценовой пол. По $0.14/$0.28 он в 12.86x дешевле GLM-5.2 в blended. Всё, чему не нужен reasoning высшего тарифа, начинается здесь.
Чтение из cache у DeepSeek V4 фактически бесплатное. Оба тарифа V4 тарифицируют чтение из cache по округляющейся к нулю ставке против $0.26/M у GLM-5.2. На нагрузках с повторяющимся контекстом это крупная, часто упускаемая экономия.
Только MiniMax M3 и Kimi K2.6 принимают изображения. GLM-5.2 и оба тарифа DeepSeek — только текст. У vision-задач ровно два допустимых маршрута, и MiniMax M3 из них дешевле.

Blended-стоимость: цифра, которая определяет маршрутизацию

Заглавная цена input у модели — это половина истории. Сколько вы платите, зависит от вашего соотношения input к output. Coding-агент много читает (большой контекст) и мало пишет (diff) — примерно 2:1 input к output. Диалог ближе к 1:1. Чистая генерация кода из короткого prompt — с упором на output, около 1:3.

Вот blended-стоимость за миллион токенов при типичном для кодинга миксе 2:1 (две трети input, одна треть output) и множитель против GLM-5.2 как якоря reasoning-тарифа:

Модель	Blended $/M (2:1)	vs GLM-5.2
DeepSeek V4 Flash	$0.187	в 12.86x дешевле
DeepSeek V4 Pro	$0.593	в 4.04x дешевле
MiniMax M3	$1.200	в 2.00x дешевле
Kimi K2.6	$1.967	в 1.22x дешевле
GLM-5.2	$2.400	1.00x (якорь)

Самая дешёвая модель в этом списке стоит в 12.86x меньше самой способной. Этот разрыв — весь экономический смысл маршрутизации: не в том, какая модель «побеждает», а в том, какие задачи могут ехать на дешёвом тарифе так, что никто не заметит.

Расстановка немного сдвигается с формой нагрузки. При 1:3 с упором на output (генерация кода) GLM-5.2 поднимается до $3.65/M, а Kimi K2.6 — до $3.24/M, тогда как V4 Flash остаётся на $0.245/M. Работа с доминированием output ещё сильнее склоняется к тарифам DeepSeek, потому что их output-токен — самый дешёвый из пяти. Если запоминать только одно правило: чем больше задача пишет, тем выгоднее уводить её с GLM-5.2 и Kimi K2.6.

Если хотите перестать оценивать и измерить эти цифры на собственном трафике, прогоните все пять моделей через один ключ ofox — pay-as-you-go, без месячной платы, та же форма OpenAI SDK, а A/B-цикл в конце этого поста меняет модели заменой строки в одну строку.

Стоимость за задачу: во что обходится один прогон агента на каждой модели

Решения по маршрутизации легче прочувствовать в долларах за прогон, чем в ставках за миллион токенов. Возьмём репрезентативный прогон агента: 50,000 input-токенов, 15,000 output-токенов (прочитать кусок кодовой базы, выдать изменение).

Модель	Стоимость за прогон (50K in / 15K out)
DeepSeek V4 Flash	$0.0112
DeepSeek V4 Pro	$0.0357
MiniMax M3	$0.0660
Kimi K2.6	$0.1075
GLM-5.2	$0.1360

При 10,000 таких прогонов в месяц это $112 на V4 Flash против $1,360 на GLM-5.2 за одну и ту же работу. Если хотя бы половина этих прогонов достаточно рутинна для бюджетного тарифа, решение о маршрутизации окупается многократно. Суть не в том, что V4 Flash всегда прав, — а в том, что платить цену GLM-5.2 за задачу, которую потянул бы V4 Flash, — это чистые потери.

Матрица решений по маршрутизации (разобранный пример)

Вот та часть, которую большинство статей «используйте роутер» пропускают: реальная дневная математика. Допустим, 1,000 смешанных задач в день с таким реалистичным распределением:

Класс задач	Кол-во/день	Токены (in / out)	Маршрут на
Бюджет / batch	600	10K / 2K	DeepSeek V4 Flash
Длинный контекст	250	300K / 8K	DeepSeek V4 Pro
Reasoning / код	100	40K / 12K	GLM-5.2
Мультимодальные (изображение)	50	16.5K / 3K	MiniMax M3

Прогон всего на GLM-5.2 (ловушка одной модели) против маршрутизации каждого класса на подходящую по стоимости модель:

Стратегия	Стоимость/день	В месяц (×30)
Базовый all-GLM-5.2	$140.17	~$4,205
С маршрутизацией	$48.42	~$1,453
Экономия	$91.75/день	~$2,753/мес (−65.5%)

Разбивка итога с маршрутизацией:

Класс задач	Модель	Стоимость/день
Бюджет / batch (600)	V4 Flash	$1.18
Длинный контекст (250)	V4 Pro	$35.51
Reasoning / код (100)	GLM-5.2	$10.88
Мультимодальные (50)	MiniMax M3	$0.85
Итого		$48.42

600 batch-задач — 60% объёма — обходятся в $1.18/день на V4 Flash. На GLM-5.2 те же 600 задач стоили бы около $13.68/день — примерно в 11.6× больше. Это единственное правило маршрутизации (дешёвый batch → V4 Flash) делает основную часть работы. Класс длинного контекста — это где доллары на самом деле концентрируются, поэтому следующий раздел и важен.

flowchart TD
    A[Входящий запрос] --> B{Нужен ввод изображения?}
    B -->|Да| C[minimax/minimax-m3]
    B -->|Нет| D{Сложный reasoning<br/>или агентный кодинг?}
    D -->|Да| E[z-ai/glm-5.2]
    D -->|Нет| F{Контекст > 200K<br/>токенов?}
    F -->|Да| G[deepseek/deepseek-v4-pro<br/>бесплатное чтение из cache, контекст 1M]
    F -->|Нет| H[deepseek/deepseek-v4-flash<br/>самый дешёвый тариф]

Чтение из cache: тихое преимущество DeepSeek V4 по стоимости

Класс длинного контекста выше — это где кеширование меняет математику. DeepSeek V4 Pro и Flash тарифицируют чтение из cache фактически по $0/M. GLM-5.2 тарифицирует их по $0.26/M, MiniMax M3 — по $0.12/M, Kimi K2.6 — по $0.16/M.

Возьмём задачу длинного контекста на 300K input из таблицы маршрутизации (стоимость за прогон включает 8K output), где 80% input отдаётся из cache (реалистично для циклов code-review, где один и тот же контекст кодовой базы повторяется между запросами):

Модель	Без cache	80% input из cache	Экономия
DeepSeek V4 Pro	$0.1420	$0.0340	76.0%
GLM-5.2	$0.4552	$0.1816	60.1%

V4 Pro стартует дешевле и экономит большую долю, потому что его чтение из cache округляется к нулю, тогда как GLM-5.2 всё равно платит $0.26/M на закешированной части. Для любой нагрузки, которая повторно отправляет один и тот же длинный контекст — RAG по фиксированному корпусу, итеративный code review, Q&A по документам — маршрутизируйте на DeepSeek V4 Pro, и бесплатное чтение из cache накапливается. Это входной фактор маршрутизации, который более сильный reasoning у GLM-5.2 не всегда оправдывает перебить.

Разделение reasoning-тарифа: GLM-5.2 vs Kimi K2.6

Матрица маршрутизации отправляет «сложный reasoning / агентный кодинг» на GLM-5.2 или Kimi K2.6, и это «или» заслуживает правила, а не подбрасывания монетки. Обе — дорогой край этой линейки: GLM-5.2 по $1.40/$4.40, Kimi K2.6 по $0.95/$4.00 — и при миксе 2:1 Kimi K2.6 в blended получается чуть дешевле ($1.97/M против $2.40/M), потому что у неё ниже input-ставка. Три конкретных фактора решают маршрут:

Фактор решения	Маршрут на GLM-5.2	Маршрут на Kimi K2.6
Нужная длина контекста	До 1,048,576 токенов	Потолок 262,144 — исключите для задач >256K
Ввод изображения в задаче	Не поддерживается (только текст)	Поддерживается (текст + изображение)
Дешевле blended при 2:1	$2.40/M	$1.97/M (на 18% ниже)
Max одиночный output	128,000 токенов	262,144 токенов

Практическое правило: если reasoning-задача несёт большой контекст (>256K токенов), GLM-5.2 — единственная из двух, что подходит: Kimi K2.6 отвергнет input. Если контекст уверенно ниже 256K, а задача включает изображение или требует более дешёвой ставки за токен, Kimi K2.6 — лучший маршрут. Для большинства коротких ходов агентного кодинга более низкая input-цена Kimi K2.6 делает её value-выбором внутри reasoning-тарифа; держите GLM-5.2 для длинноконтекстного reasoning, который вмещает только её окно 1M. Гайд по релизу Kimi K2.6 глубже разбирает её агентное поведение.

Именно поэтому клиентская маршрутизация бьёт привязку к одной модели: «лучшая reasoning-модель» зависит от формы reasoning-задачи, а строка model — это самый дешёвый из возможных переключателей между ними.

Latency и throughput тоже входные факторы маршрутизации

Стоимость — самый громкий сигнал маршрутизации, но не единственный. Две операционные заметки, которые меняют реальные решения по маршрутизации:

Интерактив vs batch. Для user-facing ассистента, где ощущается latency первого токена, самая дешёвая модель не автоматически верная — чуть более дорогая модель, которая отвечает быстрее, может стоить того на интерактивной поверхности, тогда как ночные batch-задачи должны ехать на самом дешёвом тарифе независимо от скорости. Маршрутизируйте по поверхности, а не только по цене: интерактивный трафик терпит более высокую стоимость за токен, batch-трафик — нет.
Потолок output как жёсткое ограничение. Если один ответ должен превысить 128,000 токенов — переписывание целых файлов, крупные структурированные экспорты — GLM-5.2 и MiniMax M3 упираются в потолок, и вызов обрезается. Только тарифы DeepSeek V4 (384K) и Kimi K2.6 (262K) проходят эту планку в одном вызове. Это бинарный шлюз маршрутизации, а не компромисс по стоимости: отправляйте задачи с негабаритным output на модель, которая физически способна выдать эти токены.

Оба этих случая ваша функция pick_model может закодировать как простые условия — тип поверхности и ожидаемый размер output обычно известны на момент запроса.

Когда НЕ маршрутизировать (и что использовать вместо этого)

Маршрутизация — это не бесплатная инженерия. Три случая, где разделение на несколько моделей — неверный ход:

Один разработчик, < 1,000 вызовов/день, всё одного типа задач. Логика маршрутизации и тестирование качества по моделям стоят больше времени, чем вы сэкономите. Выберите deepseek/deepseek-v4-pro как сильный, дешёвый дефолт и двигайтесь дальше. Blended-стоимость $0.59/M уже достаточно низкая, чтобы микрооптимизация не стоила ветвящегося кода.
Вам реально нужно серверное автоматическое слияние. ofox маршрутизирует по вашему полю model — он не выбирает модель сам и не сливает выводы. Если вам конкретно нужен авто-выбор по качеству или слияние ответов (идея в духе OpenRouter Auto / Sakana), это другая категория продуктов. Используйте один из таких инструментов или прочитайте наш честный обзор того, надёжен ли OpenRouter, прежде чем решать, что авто-роутер стоит непредсказуемости.
Каждой задаче по-настоящему нужен reasoning высшего тарифа. Если ваш трафик — это 100% сложный агентный кодинг без бюджетной работы, маршрутизировать нечего: гоните GLM-5.2 (или Kimi K2.6) и пропустите матрицу. Маршрутизация окупается, только когда ваша нагрузка смешанная. Для чистого reasoning-разделения на две модели наш паттерн гибридной маршрутизации Claude Code покрывает этот более узкий случай.

Выигрыш от маршрутизации пропорционален тому, насколько разнороден ваш трафик. Однородный трафик → одна модель. Смешанный трафик → матрица выше.

Попробуйте через ofox: все пять в одном цикле

Все пять моделей делят https://api.ofox.ai/v1 и один ключ ofox. Маршрутизация — это клиентское решение: вы задаёте поле model на каждом запросе. Вот функция маршрутизации и A/B-цикл на Python и Node.

Python — маршрут под задачу, затем A/B кандидатов

from openai import OpenAI

client = OpenAI(base_url="https://api.ofox.ai/v1", api_key="<OFOXAI_API_KEY>")

def pick_model(task):
    if task["has_image"]:         return "minimax/minimax-m3"        # only M3/Kimi take images
    if task["hard_reasoning"]:                                       # split the reasoning tier
        return "z-ai/glm-5.2" if task["context"] > 256_000 else "moonshotai/kimi-k2.6"
    if task["context"] > 200_000: return "deepseek/deepseek-v4-pro"  # free cache reads, 1M ctx
    return "deepseek/deepseek-v4-flash"                              # cheapest tier

def run(task, messages):
    model = pick_model(task)
    return client.chat.completions.create(model=model, messages=messages)

Чтобы сравнить кандидатов на собственном трафике, пройдитесь циклом по ID моделей с фиксированным prompt — меняйте строку, держите всё остальное неизменным:

CANDIDATES = ["deepseek/deepseek-v4-flash", "deepseek/deepseek-v4-pro", "z-ai/glm-5.2"]
for model in CANDIDATES:
    r = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": "Refactor this function for readability: ..."}],
    )
    u = r.usage
    print(model, u.prompt_tokens, u.completion_tokens)  # log tokens to price each route

Node — та же форма

import OpenAI from "openai";

const client = new OpenAI({ baseURL: "https://api.ofox.ai/v1", apiKey: process.env.OFOXAI_API_KEY });

const pickModel = (t) =>
  t.hasImage        ? "minimax/minimax-m3"
  : t.hardReasoning ? (t.context > 256000 ? "z-ai/glm-5.2" : "moonshotai/kimi-k2.6")
  : t.context > 200000 ? "deepseek/deepseek-v4-pro"
  : "deepseek/deepseek-v4-flash";

const r = await client.chat.completions.create({
  model: pickModel(task),
  messages: [{ role: "user", content: "Summarize this changelog: ..." }],
});

Только мультимодальное: прикрепите скриншот к MiniMax M3 или Kimi K2.6

GLM-5.2 и оба тарифа DeepSeek — только текст; вызов ниже физически падает на них. Маршрутизируйте ввод изображения на minimax/minimax-m3 или moonshotai/kimi-k2.6:

import base64

img = base64.b64encode(open("screenshot.png", "rb").read()).decode()
r = client.chat.completions.create(
    model="minimax/minimax-m3",   # or moonshotai/kimi-k2.6
    messages=[{"role": "user", "content": [
        {"type": "text", "text": "What error is shown in this screenshot?"},
        {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{img}"}},
    ]}],
)

Это весь роутер: функция pick_model и один OpenAI-клиент. Никакого нового SDK, никакого API-ключа на каждую модель, одна строка биллинга. Страницы с деталями по каждой модели связаны в таблице — z-ai/glm-5.2, deepseek/deepseek-v4-pro, deepseek/deepseek-v4-flash, minimax/minimax-m3 и moonshotai/kimi-k2.6.

Альтернативы

Если роутер с одним ключом и клиентской маршрутизацией подходит вашей нагрузке, ofox — простейший путь: один OpenAI-совместимый endpoint, один баланс, все пять ID моделей. Для других форм:

ofox — один ключ, 100+ моделей, OpenAI-совместимый. Вы контролируете маршрутизацию через поле model; биллинг и endpoint унифицированы. Лучше всего, когда нужна предсказуемая по стоимости детерминированная маршрутизация, которую вы пишете сами. См. разбор альтернатив OpenRouter о том, как он сравнивается по наценке и надёжности.
OpenRouter — большой каталог с опциональным серверным роутером Auto, который выбирает модель за вас. Полезно, если вам конкретно нужен автоматический выбор и вы терпите менее предсказуемую маршрутизацию и наценку платформы.
Прямые API провайдеров — вызов DeepSeek, Zhipu (GLM), MiniMax и Moonshot напрямую даёт самый сырой прайс, но четыре ключа, четыре SDK и четыре строки биллинга для сверки. Оправдано лишь на очень высоком объёме у одного провайдера.
Self-hosting — GLM и DeepSeek публикуют открытые веса, так что air-gapped или требующее форка развёртывание возможно. Экономика работает только на масштабе; см. наш разбор стоимости железа для self-host GLM-5.2 с математикой точки безубыточности против хостинговой цены за токен.

Для более глубокого контекста по моделям гайд по доступу к GLM-5.2, разбор стоимости GLM-5.2 vs GPT-5.5, сравнение DeepSeek V4 Pro vs Flash, гайд по релизу DeepSeek V4 и бенчмарк кодинга MiniMax M3 vs GPT-5.5 — каждый уходит на слой глубже, чем этот обзор маршрутизации.

FAQ

Блок FAQ во frontmatter выше отвечает на самые частые вопросы по маршрутизации (один ключ для маршрутизации, самая дешёвая модель, самый длинный контекст, какие модели работают с vision, реальная экономия, бесплатное чтение из cache, отсутствие серверного авто-роутера, max output и как провести A/B). Эти ответы зеркалят таблицы в посте — цифры стоимости, ID моделей и правила маршрутизации согласованы по всему тексту.

Источники, проверенные для этого обновления

Живой каталог API ofox /v1/models — все пять ID моделей, окна контекста, max output и прайс за токен (input / output / чтение из cache) проверены 2026-06-23
ofox llms-full.txt — OpenAI-совместимый base_url https://api.ofox.ai/v1 и единый ключ на все модели подтверждены (2026-06-23)
Страницы деталей моделей ofox для z-ai/glm-5.2, deepseek/deepseek-v4-pro, deepseek/deepseek-v4-flash, minimax/minimax-m3, moonshotai/kimi-k2.6 — все вернули HTTP 200 (2026-06-23)
OpenAI Python SDK (openai 2.43.0 на PyPI) и OpenAI Node SDK — форма SDK, использованная в примерах кода (2026-06-23)
Все таблицы стоимости пересчитываются из ставок за токен в таблице быстрых характеристик