Kimi K2.7 Code: снизит ли счёт сокращение токенов на 30%? (2026)

Kimi K2.7 Code стоит за токен столько же, сколько K2.6 ($0.95/$4.00). Срез thinking-токенов на 30% урезает счёт на ~13% при тяжёлом рассуждении и менее 1% при тяжёлом вводе.

Kimi K2.7 Code: снизит ли счёт сокращение токенов на 30%? (2026)

TL;DR. Kimi K2.7 Code стоит за токен ровно столько же, сколько K2.6 ($0.95/M на вход, $4.00/M на выход), а его чтение кэша чуть хуже ($0.19/M против $0.16/M). Так что снижение счёта целиком держится на заявлении Moonshot, что модель жжёт на ~30% меньше thinking-токенов. Этот срез превращается в реальные деньги только там, где рассуждение доминирует в расходах. На задаче с тяжёлым рассуждением счёт падает примерно на 13%, а не на 30. На задаче с тяжёлым вводом он падает менее чем на 1%. Берите K2.7 Code (moonshotai/kimi-k2.7-code) под текстовую работу с рассуждением, оставайтесь на K2.6 (moonshotai/kimi-k2.6) под изображения или задачи с короткими выходами. Бенчмарки за хайпом — все вендорские и неподтверждённые, так что единственная цифра, которой стоит верить, — это ваш собственный счёт.

TL;DR: что из них брать?

Вердикт в одну строку: если ваш кодинг-трафик текстовый и с тяжёлым рассуждением, K2.7 Code сэкономит реальные доллары; везде в остальном «срез на 30%» в основном испаряется к моменту, когда доходит до вашего счёта.

Ловушка — читать «на 30% меньше токенов» как «на 30% дешевле». Это не так. Та же цена за токен, то же окно контекста, чуть худший кэш. Экономия живёт ровно в одном месте, и вам надо под неё подойти.

Ваша нагрузкаЧто братьПочему
Текстовый кодинг с тяжёлым рассуждением (длинные цепочки thinking)K2.7 CodeThinking-токены составляют большую часть расходов на выход, так что срез на 30% бьёт сильно
Агентные циклы с длинными автономными прогонамиK2.7 CodeСокращение reasoning-токенов накапливается на множестве шагов
Vision / скриншоты / ввод изображенийK2.6K2.7 Code только текстовый; блок image_url на нём провалится
Тяжёлый ввод, короткие выходы (RAG, суммаризация, классификация)K2.6Выход — крошечная доля счёта, так что срез выхода на 30% экономит менее 1%
Активное переиспользование кэша на повторяющемся контекстеK2.6Чтение кэша у K2.7 Code — $0.19/M против $0.16/M у K2.6, так что на кэшированном вводе K2.6 дешевле
Вы ещё не измерили своё соотношение thinking/выходсначала измерьтеВсё решение упирается в это соотношение; A/B-цикл ниже даёт его за 10 строк

Если не делаете ничего больше, отнеситесь к последней строке всерьёз. Каждая цифра в долларах в этом посте зависит от доли ваших выходных токенов, уходящей на рассуждение, и это число специфично для вашего трафика. Вендорские бенчмарки вам его не скажут. Ваши собственные логи скажут.

Быстрое сравнение спецификаций

Сверено с каталогом моделей ofox на 26 июня 2026. Цены — за миллион токенов.

СпецификацияKimi K2.7 CodeKimi K2.6
model ID на ofoxmoonshotai/kimi-k2.7-codemoonshotai/kimi-k2.6
Окно контекста262 144262 144
Максимальный вывод262 144262 144
Вход $/M$0.95$0.95
Выход $/M$4.00$4.00
Чтение кэша $/M$0.19$0.16
Модальностьтолько тексттекст + изображение
АрхитектураMoE 1T / 32B активныхMoE
Встроенное мышлениедада (режимы thinking / non-thinking)
Выпуск2026-06-122026-04-21
ЛицензияModified MIT (open weights)open weights

Три факта решают всё, что ниже:

  1. Цена за токен идентична. $0.95 на вход, $4.00 на выход у обеих. Если вы уже посчитали стоимость K2.6, вы уже знаете цену за токен у K2.7 Code.
  2. Чтение кэша хуже у K2.7 Code. $0.19/M против $0.16/M. Если ваш пайплайн активно переиспользует кэшированный контекст, K2.7 Code дороже по этой статье. Немного, но это работает против рамки «дешевле».
  3. K2.7 Code только текстовый. Деталь, которую упускают: вариант Code на ofox не принимает изображения. K2.6 принимает. Есть ещё вариант moonshotai/kimi-k2.7-code-highspeed по той же цене, тоже только текстовый.

Так что паритет цены плюс худшая ставка кэша означают, что снизить счёт может ровно один рычаг — сокращение thinking-токенов. Весь остальной пост о том, двигает ли этот рычаг именно ваш счёт.

Кодинг-бенчмарк: что заявляет Moonshot (и что не подтверждено)

Стартовые цифры Moonshot для K2.7 Code против K2.6 выглядят сильно. Вот они, с оговоркой, прикреплённой к каждой строке.

БенчмаркK2.6K2.7 CodeЗаявленный приростПодтверждено третьей стороной?
Kimi Code Bench v250.962.0+21.8%Нет
Program Bench48.353.6+11.0%Нет
MLS Bench Lite26.735.1+31.5%Нет

Прочитайте последний столбец дважды. Все три — собственные проприетарные бенчмарки Moonshot. Независимого воспроизведения нет, и на момент релиза 12 июня публичных результатов на SWE-bench Verified, LiveCodeBench или GPQA — бенчмарках, против которых сравнивает себя остальное поле, — не было.

VentureBeat осветил релиз под заголовком, что практики говорят, будто бенчмарки не сходятся. Исследователь Elliot Arledge прогнал K2.7 Code против K2.6 на KernelBench-Hard, публичном бенчмарке GPU-ядер, и его счёт по MoE-ядру упал до 0.157 с 0.222 у K2.6 на худшем тюнинге. Так что картина извне Moonshot в лучшем случае смешанная, а в худшем указывает в обратную сторону хотя бы на одном публичном тесте.

Есть структурная причина не доверять этим цифрам, помимо «они первой стороны». Вендорский бенчмарк с узким разбросом баллов может показать большой прирост в процентах от маленького абсолютного сдвига, а проприетарный harness можно подтюнить, намеренно или нет, под модель, которая с ним отгружается. Бенчмарк, который реально решил бы вопрос для решения о маршрутизации, — это бенчмарк с широким разбросом по моделям и публичной методологией, где реальный разрыв в возможностях проявляется как большой разрыв в баллах. K2.7 Code на такой тест на релизе не отправляли. Так что у вас есть три впечатляющих процента и никакого способа сопоставить их с моделями, на которые вы могли бы маршрутизировать вместо.

Это особенно важно для работы по стоимости. Если вы переходите на K2.7 Code отчасти потому, что ждёте лучшего качества вывода (меньше повторов, меньше раундов исправлений), вендорские бенчмарки — не то доказательство, на которое можно опереться. Меньше повторов было бы реальной экономией, ведь каждая провальная попытка — это токены, за которые вы заплатили, но эту экономию нельзя заявлять с цифр, которые никто за пределами Moonshot не воспроизвёл. Честная позиция: считайте K2.7 Code примерно класса K2.6 по качеству, пока ваши собственные оценки не скажут иное, и оправдывайте переход одной только математикой токенов, а не дельтами бенчмарков. По базовым цифрам K2.6, которые по крайней мере публичны дольше, см. гайд по релизу Kimi K2.6 и кодинг-бенчмарк Kimi K2.6 против Claude Opus 4.6.

Математика токенов: куда на самом деле оседает 30%

Вот часть, которую маркетинг пропускает. Сокращение на 30% касается thinking/reasoning-токенов, а thinking-токены тарифицируются как выходные (completion) токены. Ваши входные токены не двигаются вообще.

Так что структура счёта Kimi такая:

bill = input_tokens × $0.95/M  +  output_tokens × $4.00/M

where output_tokens = thinking_tokens + visible_tokens

Заявление K2.7 Code режет только кусок thinking_tokens, на ~30%. Всё остальное остаётся на месте. Это даёт чистую формулу реальной экономии:

bill reduction ≈ 0.30 × (thinking spend / total spend)

Если thinking — это весь ваш счёт, вы получите близко к 30%. Если thinking — крошечная доля, вы получите крошечную долю. Переменная, решающая ваш исход, — это доля расходов, уходящая на рассуждение, и она колеблется от почти полной (агентный многошаговый кодинг) до почти нулевой (длинный ввод, однострочный ответ).

Собственная рамка Moonshot делает это конкретным на агентном примере: 12-часовой прогон падает с ~2M reasoning-токенов до ~1.4M, та самая цифра 30%. Это вендорский пример, а не измеренный результат на вашем трафике, но он показывает форму: работа, где доминируют reasoning-токены, — ровно то, где срез задуман окупаться.

Ошибка — обобщать этот 12-часовой агентный прогон на каждую задачу. Вызов суммаризации, который читает 200K токенов и пишет 200, — противоположный профиль, и он почти ничего не увидит. Следующий раздел кладёт доллары на оба конца.

Вам не нужно гадать о доле расходов на thinking — API сам говорит. Каждый ответ несёт объект usage с prompt_tokens и completion_tokens. Thinking-токены свёрнуты в completion-токены, так что нужная вам доля — это completion_tokens × $4.00/M, делённое на весь счёт. Залогируйте это на репрезентативной неделе реального трафика, и вы будете точно знать, где на диапазоне от 1% до 26% сидите, ещё до того как поменять хоть одну строку с моделью. Это измеренное соотношение, а не пример Moonshot, и решает, окупается ли переход.

Математика цены: реальный месячный счёт

Два проработанных примера, пересчитанных от ставок $0.95/$4.00. Попадания в кэш не предполагаются, так что это изолирует эффект thinking-токенов. Арифметику можно перепрогнать; она намеренно простая.

Пример 1: кодинг-задача с тяжёлым рассуждением

Профиль: 50 000 входных токенов, 20 000 выходных, из которых 70% (14 000) — thinking и 30% (6 000) — видимый ответ. Это форма агентного кодинга: планируй, рассуждай, правь.

СтрокаK2.6K2.7 Code
Вход (50 000 × $0.95/M)$0.0475$0.0475
Thinking-токены14 0009 800 (−30%)
Видимые токены6 0006 000
Выходных токенов всего20 00015 800
Стоимость выхода (× $4.00/M)$0.0800$0.0632
Итого за задачу$0.1275$0.1107

Снижение счёта: ($0.1275 − $0.1107) / $0.1275 = 13.2%.

Заметьте, что произошло. Thinking-токены упали на 30% (14 000 → 9 800). Всего выходных токенов упало только на 21% (20 000 → 15 800), потому что видимый ответ не сжался. А счёт упал только на 13.2%, потому что входные токены, треть стоимости здесь, не двинулись вообще. Заголовочные «30%» стали 13% к моменту, когда добрались до счёта. Это совпадает с формулой: 0.30 × (расход на thinking $0.0560 / итого $0.1275) = 13.2%.

Масштабируйте на реальную нагрузку, 1 000 таких задач в день, 30 дней:

МодельМесячный счёт
K2.6$3,825.00
K2.7 Code$3,321.00
Экономия$504.00/мес (−13.2%)

$504 в месяц стоит иметь. Только не закладывайте в бюджет $1,147, которые наивные «30% от $3,825» пообещали бы.

Пример 2: задача с тяжёлым вводом (срез едва заметен)

Профиль: 200 000 входных токенов, 4 000 выходных, из которых 40% (1 600) — thinking. Это RAG, Q&A по длинному документу или суммаризация: большой объём чтения, короткая запись.

СтрокаK2.6K2.7 Code
Вход (200 000 × $0.95/M)$0.1900$0.1900
Выходных токенов всего4 0003 520 (thinking 1 600 → 1 120)
Стоимость выхода (× $4.00/M)$0.0160$0.0141
Итого за задачу$0.2060$0.2041

Снижение счёта: ($0.2060 − $0.2041) / $0.2060 = 0.93%.

Меньше одного процента. Выход — это погрешность округления против ввода, так что срез на 30% от части выхода невидим в счёте. Для этого профиля нагрузки переход на K2.7 Code ради стоимости бессмыслен, а если вы опираетесь на кэшированный ввод, более дешёвое чтение кэша у K2.6 ($0.16 против $0.19) делает её дешевле модели прямо.

Пример 3: 12-часовой агентный прогон (верхний предел)

Заголовочный пример Moonshot — 12-часовой агентный прогон, где reasoning-токены падают с ~2M до ~1.4M. Это их цифра, не моя, но её стоит просчитать, потому что это профиль, ближе всего подходящий к заголовочным 30%. Допустим, прогон за свою жизнь также читает около 500K ввода и выдаёт ~200K видимого вывода (вызовы инструментов, правки файлов, финальные сводки).

СтрокаK2.6K2.7 Code
Вход (500 000 × $0.95/M)$0.475$0.475
Reasoning-токены2 000 0001 400 000 (−30%)
Видимый вывод200 000200 000
Стоимость выхода (× $4.00/M)$8.800$6.400
Итого за прогон$9.275$6.875

Снижение счёта: ($9.275 − $6.875) / $9.275 = 25.9%.

Лучше уже не будет. Рассуждение здесь — подавляющая доля счёта, так что срез проходит почти полностью. Даже так это 26%, а не 30%, потому что ввод и видимый вывод не двигаются. Прогоните 20 таких в день за месяц, и разрыв реален:

МодельМесячный счёт (20 прогонов/день × 30 дней)
K2.6$5,565
K2.7 Code$4,125
Экономия$1,440/мес (−25.9%)

Если ваш трафик действительно выглядит как длинные автономные агентные прогоны, K2.7 Code отрабатывает своё. Чем дальше ваша нагрузка дрейфует от этого профиля к Примеру 2, тем меньше он делает.

Три примера ограничивают реальный мир. Снижение вашего счёта оседает где-то между ~1% и ~26% в зависимости от того, насколько тяжело рассуждение в вашем трафике, а типичная смешанная кодинг-нагрузка сидит около середины в 13%. Чем ближе ваш выход к сплошному thinking, тем ближе вы к заголовку; чем больше ваш счёт — это ввод, тем меньше экономии. Если хотите маршрутизировать смесь этих форм задач по более дешёвым моделям целиком, это другой рычаг, описанный в маршрутизации нескольких моделей через один API.

Статья кэша работает против K2.7 Code

Ещё одна цифра, которую история «на 30% дешевле» игнорирует: чтение кэша. K2.7 Code тарифицирует кэшированный ввод по $0.19/M; K2.6 — по $0.16/M. Это премия в 19% на каждый кэшированный токен, на той самой модели, которая должна быть более дешёвым выбором.

Это важно всякий раз, когда вы переиспользуете контекст. Циклы код-ревью по тому же репозиторию, многошаговые агентные сессии, которые переотправляют системный промпт и кодовую базу, RAG по стабильному корпусу — все они попадают в кэш на большей части ввода. Возьмём задачу на 300K ввода при 80% попадания в кэш, выход держим равным между двумя моделями, чтобы изолировать эффект кэша:

СтрокаK2.6K2.7 Code
Свежий ввод (60 000 × $0.95/M)$0.0570$0.0570
Кэшированный ввод (240 000)× $0.16/M = $0.0384× $0.19/M = $0.0456
Стоимость ввода$0.0954$0.1026

K2.7 Code стоит на $0.0072 дороже за задачу только на вводе. На 1 000 кэш-тяжёлых задач в день за месяц это около $216/мес сверху, которые экономия thinking-токенов должна перекрыть, прежде чем вы выйдете в ноль. На профиле задачи, тяжёлом на кэшированных чтениях и лёгком на reasoning-выводе (форма Примера 2 с добавленным кэшированием), K2.7 Code может оказаться более дорогой моделью. Стоит проверить против вашей собственной ставки попадания в кэш, прежде чем предполагать «новее = дешевле».

Когда брать K2.7 Code

Берите moonshotai/kimi-k2.7-code, когда всё это верно:

  • Ваша работа только текстовая. Никаких изображений в цикле.
  • Ваши задачи тяжелы на рассуждении, то есть длинные цепочки thinking относительно видимого ответа. Агентный кодинг, многошаговая отладка, задачи с тяжёлым планированием.
  • Вы не опираетесь сильно на переиспользование кэша (если опираетесь, чтение кэша K2.7 Code по $0.19/M стоит дороже, чем $0.16/M у K2.6).

Это профиль, где срез thinking-токенов на 30% переводится в двузначное снижение счёта. Это настоящий выигрыш для этой конкретной формы работы. Используйте moonshotai/kimi-k2.7-code-highspeed, если хотите больше пропускной способности по той же цене; математика токенов не меняется.

Когда оставаться на K2.6

Оставайтесь на moonshotai/kimi-k2.6, когда верно любое из этого:

  • Вам нужен ввод изображений. K2.7 Code этого не может, точка.
  • Ваши задачи тяжелы на вводе с короткими выходами. Экономия округляется до нуля (Пример 2), и более дешёвое чтение кэша делает K2.6 более низким счётом.
  • Вы опираетесь на режим non-thinking ради быстрых, прямых ответов. Если вы не генерируете thinking-токены, срезу на 30% нечего урезать.
  • Вы уже валидировали качество K2.6 в продакшене и не имеете измеренной причины ожидать, что K2.7 Code делает работу лучше, поскольку бенчмарки, поддерживающие это, не подтверждены.

K2.6 — консервативный дефолт. Она делает всё, что делает K2.7 Code, кроме диеты на reasoning-токенах, плюс принимает изображения и имеет более дешёвый кэш. По деталям цены и доступа K2.6 см. гайд по цене и доступу к API Kimi K2.5, который переносит ту же структуру за токен вперёд.

Когда НЕ использовать ни одну (и что использовать вместо)

Обе модели Kimi сидят на $0.95/$4.00. Это середина поля, не дёшево. Если ваш ведущий ограничитель — голая стоимость за токен, а задача не требует рассуждения класса Kimi, ни одна из них — не правильный ответ.

  • Под бюджетную, высокообъёмную пакетную работу (классификация, извлечение, массовая суммаризация) маршрутизируйте на более дешёвый уровень. DeepSeek V4 Flash в листинге $0.14/$0.28, примерно в 6 раз дешевле Kimi по смешанной ставке. См. гайд по релизу DeepSeek V4.
  • Под тяжёлое рассуждение, где вам нужны сильные стороны другого семейства моделей, GLM-5.2 — альтернатива reasoning-уровня на ofox. См. гайд по доступу к GLM-5.2.
  • Смешанный трафик по всему вышеперечисленному? Не выбирайте одну модель. Маршрутизируйте каждый класс задач на самую дешёвую модель, которая берёт его планку качества; это бьёт любой выбор одной модели по стоимости. Разбор мульти-модельного роутера содержит проработанную таблицу маршрутизации.

Смысл K2.7 Code — узкий прирост эффективности на тексте с тяжёлым рассуждением. Если это не ваше узкое место, тратьте усилия оптимизации на маршрутизацию, а не на эту одну замену модели. Команда, платящая $4.00/M на выход Kimi за работу массовой классификации, оставляет на столе куда больше, чем 13%, которые K2.7 Code когда-либо вернёт, потому что правильное решение там — более дешёвая модель целиком, а не более экономная версия дорогой. Сначала сопоставьте уровень модели с задачей; оптимизируйте внутри уровня вторым шагом.

Попробуйте обе через ofox: A/B за 10 строк

Каждая цифра выше зависит от вашего собственного соотношения thinking-к-выходу, и его можно измерить напрямую. Обе модели делят один OpenAI-совместимый endpoint и один ключ ofox, так что A/B — это цикл по двум строкам с моделью. Прогоните свой реальный промпт через обе, залогируйте счётчики токенов, которые возвращает API, и посчитайте счёт на своём трафике вместо доверия оценке.

Python, A/B обеих моделей в одном цикле

from openai import OpenAI

client = OpenAI(base_url="https://api.ofox.ai/v1", api_key="YOUR_OFOX_KEY")

prompt = "Refactor this 200-line module into composable functions: <paste code>"

for model in ["moonshotai/kimi-k2.6", "moonshotai/kimi-k2.7-code"]:
    r = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": prompt}],
    )
    u = r.usage
    bill = u.prompt_tokens * 0.95e-6 + u.completion_tokens * 4.00e-6
    print(f"{model}: in={u.prompt_tokens} out={u.completion_tokens} bill=${bill:.4f}")

Node, та же форма

import OpenAI from "openai";

const client = new OpenAI({ baseURL: "https://api.ofox.ai/v1", apiKey: process.env.OFOX_KEY });

const prompt = "Refactor this 200-line module into composable functions: <paste code>";

for (const model of ["moonshotai/kimi-k2.6", "moonshotai/kimi-k2.7-code"]) {
  const r = await client.chat.completions.create({
    model,
    messages: [{ role: "user", content: prompt }],
  });
  const u = r.usage;
  const bill = u.prompt_tokens * 0.95e-6 + u.completion_tokens * 4.0e-6;
  console.log(`${model}: in=${u.prompt_tokens} out=${u.completion_tokens} bill=$${bill.toFixed(4)}`);
}

Замена — одна строка. Прогоните цикл по своим топ-20 реальных промптов, просуммируйте счета, и у вас есть ваше фактическое снижение, а не брошюрное.

Одна загвоздка: K2.7 Code только текстовый

K2.6 принимает изображения. K2.7 Code — нет. Тот же content-блок image_url, который работает на moonshotai/kimi-k2.6, провалится на moonshotai/kimi-k2.7-code:

# Works on K2.6, fails on K2.7 Code (text-only)
client.chat.completions.create(
    model="moonshotai/kimi-k2.6",            # swap to kimi-k2.7-code -> error
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "What's in this screenshot?"},
            {"type": "image_url", "image_url": {"url": "data:image/png;base64,<...>"}},
        ],
    }],
)

Если задача в вашем A/B-наборе отправляет изображение, держите её на K2.6 и не маршрутизируйте на K2.7 Code вообще.

FAQ

Дешевле ли Kimi K2.7 Code, чем K2.6? Нет. Цена за токен идентична ($0.95/M на вход, $4.00/M на выход). Чтение кэша дороже у K2.7 Code ($0.19/M против $0.16/M). Единственный путь к более низкому счёту — сокращение thinking-токенов на ~30%, и только на работе с тяжёлым рассуждением.

Значит ли срез токенов на 30%, что счёт упадёт на 30%? Нет. Срез применяется к thinking-токенам, которые тарифицируются как выходные; входные токены не меняются. Реальное снижение — это примерно 30%, умноженные на вашу долю расходов на thinking. Задача с тяжёлым рассуждением: ~13%. Задача с тяжёлым вводом: менее 1%.

Какой model ID у Kimi K2.7 Code на ofox? moonshotai/kimi-k2.7-code на endpoint https://api.ofox.ai/v1. Есть также moonshotai/kimi-k2.7-code-highspeed по той же цене. K2.6 — это moonshotai/kimi-k2.6.

Принимает ли Kimi K2.7 Code изображения? Нет. Вариант K2.7 Code работает только text-to-text; блок image_url провалится. Vision-задачи направляйте на moonshotai/kimi-k2.6, который принимает текст плюс изображение.

Подтверждены ли бенчмарк-цифры Kimi K2.7 Code? Независимо — нет. Приросты +21.8% / +11.0% / +31.5% — всё это проприетарные бенчмарки Moonshot без воспроизведения третьей стороной. VentureBeat сообщил, что практики говорят, будто бенчмарки не сходятся, а публичный прогон KernelBench-Hard показал регресс. Относитесь к ним как к заявленным вендором.

Какое окно контекста у Kimi K2.7 Code? 262 144 токена (256K) и для контекста, и для максимального вывода, как у K2.6. Это MoE на 1T суммарно / 32B активных со встроенным мышлением, выпущена 12 июня 2026 под open-weight лицензией Modified MIT.

Когда стоит перейти с K2.6 на K2.7 Code? Под текстовый кодинг с тяжёлым рассуждением, где thinking доминирует в расходах на выход. Оставайтесь на K2.6 под ввод изображений или задачи с тяжёлым вводом и короткими выходами, где экономия округляется до нуля.

Есть ли более быстрая версия? Да, moonshotai/kimi-k2.7-code-highspeed, та же цена $0.95/$4.00, выше пропускная способность. Математику токенов здесь она не меняет.

Источники, проверенные для этого апдейта