Kimi K2.7 Code:トークン 30% 削減で本当に請求額は下がる?(2026 年版)

Kimi K2.7 Code のトークン単価は K2.6 と同じ($0.95/$4.00)。思考トークン 30% 削減で、推論重視の請求は約 13%、入力重視ならほぼ 0% しか下がりません。

Kimi K2.7 Code:トークン 30% 削減で本当に請求額は下がる?(2026 年版)

TL;DR. Kimi K2.7 Code のトークン単価は K2.6 と完全に同じ(入力 $0.95/M、出力 $4.00/M)で、キャッシュ読み込みはわずかに悪い($0.19/M、K2.6 は $0.16/M)。だから請求が下がるかどうかは、モデルが思考トークンを ~30% 少なく消費するという Moonshot の主張に丸ごと乗っています。その削減が実弾になるのは、推論が支出を支配する場合だけです。推論重視のジョブで請求は約 13% 下がり、30 ではありません。入力重視のジョブなら 1% 未満 です。テキスト専用の推論作業には K2.7 Code(moonshotai/kimi-k2.7-code)を、画像や短い出力のジョブには K2.6(moonshotai/kimi-k2.6)を選んでください。煽りの裏にあるベンチマークはすべてベンダー報告で未検証なので、信用すべき唯一の数字は自分自身の請求書です。

TL;DR:どちらを選ぶべきか

一行の結論:コーディングのトラフィックが テキスト専用かつ推論重視 なら、K2.7 Code は実際にドルを削ります。それ以外の場所では「30% 削減」のほとんどが、請求書に届くまでに蒸発します。

罠は「トークン 30% 減」を「30% 安い」と読むことです。違います。トークン単価は同じ、コンテキストウィンドウも同じ、キャッシュはわずかに悪い。節約はただ一か所にしか存在せず、しかもその資格を満たす必要があります。

あなたのワークロード選ぶべき理由
テキスト専用、推論重視のコーディング(長い思考トレース)K2.7 Code思考トークンが出力支出の大半なので、30% 削減が強く効く
長時間の自律実行を伴う agentic ループK2.7 Code推論トークン削減が多ターンにわたって積み上がる
ビジョン / スクリーンショット / 画像入力K2.6K2.7 Code はテキスト専用。image_url ブロックは失敗する
入力重視、短い出力(RAG、要約、分類)K2.6出力は請求のごく一部なので、出力 30% 削減でも 1% 未満しか浮かない
繰り返すコンテキストでキャッシュを多用K2.6K2.7 Code のキャッシュ読み込みは $0.19/M、K2.6 は $0.16/M。キャッシュ済み入力では K2.6 が安い
まだ自分の思考/出力比率を測っていないまず計測判断はすべてこの比率で決まる。下の A/B ループが 10 行でそれを出す

他に何もしないとしても、最後の行は真剣に受け取ってください。本記事のあらゆるドル数字は、出力トークンのうち推論に回る割合に依存し、その数字はあなたのトラフィック固有です。ベンダーのベンチマークは教えてくれません。あなた自身のログが教えてくれます。

クイック仕様比較

2026 年 6 月 26 日、ofox のモデルカタログに照らして確認しました。価格は 100 万トークンあたりです。

仕様Kimi K2.7 CodeKimi K2.6
ofox モデル IDmoonshotai/kimi-k2.7-codemoonshotai/kimi-k2.6
コンテキストウィンドウ262,144262,144
最大出力262,144262,144
入力 $/M$0.95$0.95
出力 $/M$4.00$4.00
キャッシュ読み込み $/M$0.19$0.16
モダリティテキストのみテキスト + 画像
アーキテクチャ1T MoE / 32B アクティブMoE
思考機能内蔵ありあり(思考 / 非思考モード)
リリース2026-06-122026-04-21
ライセンスModified MIT(オープンウェイト)オープンウェイト

以下のすべてを決める事実が 3 つあります。

  1. トークン単価は同一。 入力 $0.95、出力 $4.00、両者とも。K2.6 を見積もったことがあるなら、K2.7 Code のトークン単価も見積もり済みです。
  2. キャッシュ読み込みは K2.7 Code の方が悪い。 $0.19/M 対 $0.16/M。パイプラインがキャッシュ済みコンテキストを多く再利用するなら、その項目では K2.7 Code が高いモデルです。小さいですが、「安い」という枠組みに逆らいます。
  3. K2.7 Code はテキスト専用。 見落とされがちな点:ofox 上の Code バリアントは画像を取りません。K2.6 は取ります。同価格の moonshotai/kimi-k2.7-code-highspeed バリアントもありますが、これもテキスト専用です。

つまり価格が並び、キャッシュレートが悪い以上、請求を下げられるレバーはちょうど 1 つ、それが思考トークン削減です。本記事の残りは、そのレバーがあなた固有の請求書を動かすかどうかの話です。

コーディングベンチマーク:Moonshot の報告(と未検証の部分)

K2.7 Code が K2.6 を上回るとする Moonshot のローンチ数字は強そうに見えます。全行に付く但し書きとともに掲げます。

ベンチマークK2.6K2.7 Code報告された伸び第三者検証あり?
Kimi Code Bench v250.962.0+21.8%なし
Program Bench48.353.6+11.0%なし
MLS Bench Lite26.735.1+31.5%なし

最後の列を二度読んでください。3 つすべてが Moonshot 独自のプロプライエタリベンチマーク です。独立した再現はなく、6 月 12 日のリリース時点では、業界が実際に比較に使う SWE-bench Verified、LiveCodeBench、GPQA の公開結果はありませんでした。

VentureBeat はこのリリースを、実務家がベンチマークは確かめられないと言っているという見出しで取り上げました。研究者の Elliot Arledge は公開 GPU カーネルベンチマークの KernelBench-Hard で K2.7 Code を K2.6 と対決させ、その MoE カーネルスコアはチューニングの悪化で K2.6 の 0.222 から 0.157 へ後退しました。つまり Moonshot 外から見た景色は、よくて入り混じり、悪くすると少なくとも 1 つの公開テストで逆方向を指しています。

「ファーストパーティだから」を超えて、これらの数字を割り引く構造的な理由もあります。スコアの幅が狭いベンダーベンチマークは、絶対的な動きが小さくても大きなパーセント上昇を示せますし、プロプライエタリなハーネスは、意図的かどうかにかかわらず、付属するモデルに合わせて調整されうるからです。ルーティング判断のために問いに決着をつけられるベンチマークは、モデル間で幅が広く、公開された手法を持ち、真の能力差がスコアの大きな差として現れるものです。K2.7 Code はローンチ時にその種のテストに提出されていません。だから印象的なパーセントが 3 つあっても、代わりに振り向けるかもしれないモデルと並べる手段がありません。

これはコスト作業に特に効いてきます。出力品質の向上(リトライ削減、修正ラウンド削減)を期待して K2.7 Code に切り替えるなら、ベンダーのベンチマークは当てにできる証拠ではありません。リトライ削減は本物のコスト節約になります。失敗した試行はすべて支払ったトークンですから。しかし Moonshot 外の誰も再現していない数字から、その節約を主張することはできません。誠実な立場:あなた自身の eval が別のことを言うまで、品質は K2.7 Code を K2.6 クラスとほぼ同等とみなし、切り替えはベンチマーク差ではなくトークン計算だけで正当化することです。少なくとも公開されて長い K2.6 のベースライン数字については、Kimi K2.6 リリースガイドKimi K2.6 と Claude Opus 4.6 のコーディングベンチマーク を参照してください。

トークン計算:30% が実際に着地する場所

ここがマーケティングが飛ばす部分です。30% 削減は 思考/推論トークン に対するもので、思考トークンは 出力(補完)トークン として課金されます。入力トークンはまったく動きません。

だから Kimi の請求の構造はこうです。

bill = input_tokens × $0.95/M  +  output_tokens × $4.00/M

where output_tokens = thinking_tokens + visible_tokens

K2.7 Code の主張が削るのは thinking_tokens の部分だけ、~30% です。それ以外はそのまま。これで実際の節約のきれいな式が得られます。

bill reduction ≈ 0.30 × (thinking spend / total spend)

思考が請求の全体なら、30% に近づきます。思考がごく一部なら、節約もごく一部です。結果を決める変数は、支出のうち推論に回る割合で、ほぼ全部(agentic な多ステップコーディング)からほぼゼロ(長い入力に一行の回答)まで幅があります。

Moonshot 自身の枠組みは、agentic な例でこれを具体化しています。12 時間の実行で推論トークンが ~2M から ~1.4M へ落ち、これが 30% の数字です。それはあなたのトラフィックで計測された結果ではなくベンダーの例ですが、形を示しています。推論トークンが支配する作業こそ、削減が報われるように設計された場所です。

間違いは、その 12 時間のエージェント実行をあらゆるジョブに一般化することです。20 万トークンを読んで 200 を書く要約呼び出しは正反対のプロファイルで、ほとんど何も得られません。次のセクションが両端にドルを当てます。

思考支出の割合は推測する必要はありません。API が教えてくれます。すべてのレスポンスは prompt_tokenscompletion_tokens を持つ usage オブジェクトを運びます。思考トークンは補完トークンに畳み込まれているので、知りたい割合は completion_tokens × $4.00/M を請求全体で割ったものです。実トラフィックの代表的な 1 週間にわたってこれをログすれば、モデル文字列を 1 つ変える前に、自分が 1% から 26% の範囲のどこにいるかが正確にわかります。切り替えが報われるかを決めるのは、Moonshot の例ではなく、その計測された比率です。

価格計算:実際の月間請求

$0.95/$4.00 のレートから再計算した実例を 2 つ。キャッシュヒットなしを仮定し、思考トークン効果を切り出します。算術は再実行できます。意図的にシンプルです。

例 1:推論重視のコーディングジョブ

プロファイル:入力 50,000 トークン、出力 20,000 トークン、うち 70%(14,000)が思考、30%(6,000)が可視の回答。これは agentic コーディングの形(計画、推論、修正)です。

項目K2.6K2.7 Code
入力(50,000 × $0.95/M)$0.0475$0.0475
思考トークン14,0009,800(−30%)
可視トークン6,0006,000
出力トークン合計20,00015,800
出力コスト(× $4.00/M)$0.0800$0.0632
ジョブあたり合計$0.1275$0.1107

請求削減:($0.1275 − $0.1107) / $0.1275 = 13.2%

何が起きたかに注目してください。思考トークンは 30% 落ちました(14,000 → 9,800)。総 出力 トークンは 21% しか落ちていません(20,000 → 15,800)。可視の回答が縮まなかったからです。そして 請求 は 13.2% しか落ちていません。ここでコストの 3 分の 1 を占める入力トークンがまったく動かなかったからです。「30%」の見出しは、請求書に届くまでに 13% になりました。これは式に沿います:0.30 ×(思考支出 $0.0560 / 合計 $0.1275)= 13.2%。

これを実ワークロードにスケールします。1 日 1,000 ジョブ、30 日:

モデル月間請求
K2.6$3,825.00
K2.7 Code$3,321.00
節約$504.00/月(−13.2%)

月 $504 は持つ価値があります。ただし、素朴な「$3,825 の 30% オフ」が約束したであろう $1,147 を予算に組まないでください。

例 2:入力重視のジョブ(削減がほとんど見えない)

プロファイル:入力 200,000 トークン、出力 4,000 トークン、うち 40%(1,600)が思考。これは RAG、長文書 Q&A、要約(大量に読み、短く書く)です。

項目K2.6K2.7 Code
入力(200,000 × $0.95/M)$0.1900$0.1900
出力トークン合計4,0003,520(思考 1,600 → 1,120)
出力コスト(× $4.00/M)$0.0160$0.0141
ジョブあたり合計$0.2060$0.2041

請求削減:($0.2060 − $0.2041) / $0.2060 = 0.93%

1 パーセント未満。出力は入力に対して丸め誤差なので、出力の一部に対する 30% 削減は請求書では見えません。このロードプロファイルでは、コスト目的で K2.7 Code へ切り替えるのは無意味で、キャッシュ済み入力に頼るなら、K2.6 の安いキャッシュ読み込み($0.16 対 $0.19)がそのまま K2.6 を安いモデルにします。

例 3:12 時間の agentic 実行(上限)

Moonshot の目玉の例は、推論トークンが ~2M から ~1.4M へ落ちる 12 時間の agentic 実行です。それは私のではなく彼らの数字ですが、30% の見出しに最も近づくプロファイルなのでコスト化する価値があります。この実行は生涯で約 500K の入力も読み、~200K の可視出力(ツール呼び出し、ファイル編集、最終要約)を出すと仮定します。

項目K2.6K2.7 Code
入力(500,000 × $0.95/M)$0.475$0.475
推論トークン2,000,0001,400,000(−30%)
可視出力200,000200,000
出力コスト(× $4.00/M)$8.800$6.400
実行あたり合計$9.275$6.875

請求削減:($9.275 − $6.875) / $9.275 = 25.9%

これがベストケースです。ここでは推論が請求の圧倒的多数なので、削減はほぼ完全に通り抜けます。それでも 26% で 30% ではありません。入力と可視出力が動かないからです。1 日 20 回、1 か月走らせれば差は本物です。

モデル月間請求(20 回/日 × 30 日)
K2.6$5,565
K2.7 Code$4,125
節約$1,440/月(−25.9%)

トラフィックが本当に長時間の自律エージェント実行のように見えるなら、K2.7 Code はその働きに見合います。ロードがそのプロファイルから例 2 の方へ流れるほど、効果は小さくなります。

3 つの例が現実世界を挟みます。あなたの請求削減は、トラフィックがどれだけ推論重視かに応じて ~1% から ~26% のどこかに着地し、典型的な混合コーディングワークロードは 13% の真ん中あたりに座ります。出力が思考だけに近いほど見出しに近づき、請求が入力ばかりなほど節約は減ります。これらのジョブ形状の混合を、丸ごと安いモデルに振り分けたいなら、それは別のレバーで、1 つの API 経由で複数モデルをルーティング で扱っています。

キャッシュの項目は K2.7 Code に逆らう

「30% 安い」という話が無視する数字がもう 1 つ:キャッシュ読み込みです。K2.7 Code はキャッシュ済み入力を $0.19/M で課金、K2.6 は $0.16/M。安い選択肢のはずのモデルが、キャッシュ済みトークンごとに 19% のプレミアムを取ります。

これはコンテキストを再利用するたびに効きます。同じリポジトリを巡るコードレビューループ、システムプロンプトとコードベースを再送する多ターンエージェントセッション、安定したコーパス上の RAG、これらはすべて入力の大半でキャッシュにヒットします。キャッシュヒット 80% の 30 万入力ジョブを取り、キャッシュ効果を切り出すため出力は両モデルで等しく保ちます。

項目K2.6K2.7 Code
新規入力(60,000 × $0.95/M)$0.0570$0.0570
キャッシュ済み入力(240,000)× $0.16/M = $0.0384× $0.19/M = $0.0456
入力コスト$0.0954$0.1026

K2.7 Code は入力だけで ジョブあたり $0.0072 多く かかります。キャッシュ重視のジョブ 1 日 1,000 件を 1 か月続けると、約 $216/月 余分 で、これを思考トークン節約が損益分岐前に上回らねばなりません。キャッシュ読み込みが多く推論出力が軽いジョブプロファイル(例 2 の形にキャッシュを加えたもの)では、K2.7 Code が より 高いモデルになりうるのです。「新しい = 安い」と決めつける前に、自分のキャッシュヒット率に照らして確認する価値があります。

K2.7 Code を選ぶとき

次のすべてが成り立つとき moonshotai/kimi-k2.7-code を選んでください。

  • 作業が テキスト専用。ループに画像がない。
  • ジョブが推論重視、つまり可視の回答に対して思考トレースが長い。agentic コーディング、多ステップのデバッグ、計画重視のタスク。
  • キャッシュ再利用 に強く頼っていない(頼っているなら、K2.7 Code の $0.19/M キャッシュ読み込みは K2.6 の $0.16/M より高い)。

そこが、思考トークン 30% 削減が二桁の請求削減に変わるプロファイルです。まさにその形の作業には本物の勝ちです。同価格でスループットが欲しいなら moonshotai/kimi-k2.7-code-highspeed を。トークン計算は変わりません。

K2.6 のままにするとき

次のいずれかが成り立つとき moonshotai/kimi-k2.6 のままにしてください。

  • 画像入力 が必要。K2.7 Code は不可、それだけです。
  • ジョブが 入力重視で出力が短い。節約はゼロに丸まり(例 2)、安いキャッシュ読み込みが K2.6 を低い請求にします。
  • 速い直接回答のために 非思考モード に頼っている。思考トークンを生成していないなら、30% 削減が削るものはありません。
  • すでに本番で K2.6 の品質を検証済みで、K2.7 Code の方が良い仕事をすると計測された理由がない。それを支えるベンチマークは未検証だからです。

K2.6 は保守的なデフォルトです。推論トークンダイエット以外、K2.7 Code がすることはすべてこなし、加えて画像を取り、安いキャッシュを持ちます。K2.6 の価格とアクセスの詳細は、同じトークン単価構造を引き継ぐ Kimi K2.5 API 価格とアクセスガイド を参照してください。

どちらも使わないとき(と代わりに何を使うか)

Kimi の両モデルとも $0.95/$4.00 です。ミッドパックで、安くはありません。駆動する制約が生のトークン単価で、タスクが Kimi クラスの推論を必要としないなら、どちらも正解ではありません。

  • 予算重視で大量のバッチ作業(分類、抽出、一括要約)なら、安いティアに振り分けてください。DeepSeek V4 Flash は $0.14/$0.28、ブレンドで Kimi の約 6 倍安い。DeepSeek V4 リリースガイド を参照。
  • 別のモデルファミリーの強みが欲しい難しい推論なら、GLM-5.2 が ofox 上の推論ティアの代替です。GLM-5.2 アクセスガイド を参照。
  • 上記すべてにまたがる混合トラフィック? 1 つのモデルを選ばないでください。各ジョブクラスを、その品質バーをクリアする最も安いモデルに振り分けてください。それはどの単一モデル選択よりもコストで勝ちます。マルチモデルルーターの手順 に作業済みのルーティングテーブルがあります。

K2.7 Code の眼目は、推論重視のテキストに対する狭い効率向上です。それがあなたのボトルネックでないなら、最適化の努力はこの 1 モデル交換ではなくルーティングに費やしてください。一括分類作業に Kimi の $4.00/M 出力を払っているチームは、K2.7 Code が返せる 13% よりはるかに多くを取りこぼしています。そこでの正しい修正は、高いモデルの痩せた版ではなく、丸ごと安いモデルだからです。まずモデルティアをジョブに合わせ、ティア内の最適化はその次です。

ofox で両方を試す:10 行で A/B

上記のあらゆる数字はあなた自身の思考対出力比率に依存し、それは直接計測できます。両モデルは 1 つの OpenAI 互換 endpoint と 1 つの ofox キーを共有するので、A/B は 2 つのモデル文字列を巡るループです。実プロンプトを両方に通し、API が返すトークン数をログし、推定を信じる代わりに自分のトラフィックで請求を計算してください。

Python、1 ループで両モデルを A/B

from openai import OpenAI

client = OpenAI(base_url="https://api.ofox.ai/v1", api_key="YOUR_OFOX_KEY")

prompt = "Refactor this 200-line module into composable functions: <paste code>"

for model in ["moonshotai/kimi-k2.6", "moonshotai/kimi-k2.7-code"]:
    r = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": prompt}],
    )
    u = r.usage
    bill = u.prompt_tokens * 0.95e-6 + u.completion_tokens * 4.00e-6
    print(f"{model}: in={u.prompt_tokens} out={u.completion_tokens} bill=${bill:.4f}")

Node、同じ形

import OpenAI from "openai";

const client = new OpenAI({ baseURL: "https://api.ofox.ai/v1", apiKey: process.env.OFOX_KEY });

const prompt = "Refactor this 200-line module into composable functions: <paste code>";

for (const model of ["moonshotai/kimi-k2.6", "moonshotai/kimi-k2.7-code"]) {
  const r = await client.chat.completions.create({
    model,
    messages: [{ role: "user", content: prompt }],
  });
  const u = r.usage;
  const bill = u.prompt_tokens * 0.95e-6 + u.completion_tokens * 4.0e-6;
  console.log(`${model}: in=${u.prompt_tokens} out=${u.completion_tokens} bill=$${bill.toFixed(4)}`);
}

差し替えは 1 文字列です。実プロンプトの上位 20 件にループを回し、請求を合計すれば、パンフレットのではなく自分の実際の削減がわかります。

1 つの落とし穴:K2.7 Code はテキスト専用

K2.6 は画像を取ります。K2.7 Code は取りません。moonshotai/kimi-k2.6 で動く同じ image_url コンテンツブロックは、moonshotai/kimi-k2.7-code では失敗します。

# Works on K2.6, fails on K2.7 Code (text-only)
client.chat.completions.create(
    model="moonshotai/kimi-k2.6",            # swap to kimi-k2.7-code -> error
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "What's in this screenshot?"},
            {"type": "image_url", "image_url": {"url": "data:image/png;base64,<...>"}},
        ],
    }],
)

A/B セット内のジョブが画像を送るなら、それは K2.6 に置いておき、K2.7 Code には一切振り分けないでください。

FAQ

Kimi K2.7 Code は K2.6 より安いですか? いいえ。トークン単価は同一です(入力 $0.95/M、出力 $4.00/M)。キャッシュ読み込みは K2.7 Code の方が高い($0.19/M 対 $0.16/M)。請求を下げる唯一の道は思考トークン ~30% 削減で、それも推論重視の作業に限ります。

トークン 30% 削減は請求 30% ダウンを意味しますか? いいえ。削減は出力として課金される思考トークンに適用され、入力トークンは変わりません。実際の削減はおよそ 30% × あなたの思考支出の割合です。推論重視のジョブ:~13%。入力重視のジョブ:1% 未満。

Kimi K2.7 Code の ofox モデル ID は何ですか? endpoint https://api.ofox.ai/v1 上の moonshotai/kimi-k2.7-code です。同価格の moonshotai/kimi-k2.7-code-highspeed もあります。K2.6 は moonshotai/kimi-k2.6

Kimi K2.7 Code は画像を受け付けますか? いいえ。K2.7 Code バリアントはテキスト to テキスト専用で、image_url ブロックは失敗します。ビジョンタスクは、テキストと画像を取る moonshotai/kimi-k2.6 に振り分けてください。

Kimi K2.7 Code のベンチマーク値は検証済みですか? 独立した検証はされていません。+21.8% / +11.0% / +31.5% の伸びはすべて Moonshot のプロプライエタリベンチマークで、第三者再現はありません。VentureBeat は実務家がベンチマークは確かめられないと言っていると報じ、公開された KernelBench-Hard の実行ではリグレッションが見られました。ベンダー報告値として扱ってください。

Kimi K2.7 Code のコンテキストウィンドウはどれくらいですか? コンテキストと最大出力のどちらも 262,144 トークン(256K)で、K2.6 と同じです。合計 1T / アクティブ 32B の MoE で思考機能を内蔵し、2026 年 6 月 12 日に Modified MIT オープンウェイトライセンスでリリースされました。

K2.6 から K2.7 Code へ切り替えるべきはいつですか? テキスト専用で推論重視のコーディング、思考が出力支出を支配する場合です。画像入力や、出力が短く入力重視のジョブで節約がゼロに丸まる場合は K2.6 のままに。

より高速な版はありますか? あります、moonshotai/kimi-k2.7-code-highspeed、同じ $0.95/$4.00 の価格でスループットが高め。ここでのトークン計算は変えません。

今回の更新で確認したソース