GLM-5.2 vs GPT-5.5 のコスト比較:10K/100K/1M リクエスト/日のトークン単価試算(2026年)
TL;DR — ofox.io の掲載価格では、GLM-5.2 は 100 万トークンあたり input $1.4 / output $4.4、GPT-5.5 は $5 / $30 です。input と output が 2:1 の比率でブレンドすると $2.40 vs $13.33(100 万トークンあたり)となり、5.56倍のコスト差です。3K トークンのプロンプトで 1 日 10 万リクエストなら、支出はおおよそ GLM-5.2 で $720/日、GPT-5.5 で $4,000/日 ——月にして 約 $21,600 vs $120,000 です。prompt caching は両方に効きますが、差は埋まりません。両モデルは ofox.io の同じ OpenAI 互換 endpoint 上にあるので、この比較はモデル名 1 行の入れ替えで試せます。
GPT-5.5 のトークン単価は、典型的なコーディングミックスで GLM-5.2 の 5.56倍——純粋な output トークンでは 6.82倍です。問いはもはや「GLM-5.2 は十分良いか」ではなくなり、「どのワークロードが GPT-5.5 の割増料金に見合うのか」になりました。
試算を飛ばして、自分のワークロードで両モデルをそのまま A/B したいなら、ofox.io が z-ai/glm-5.2 と openai/gpt-5.5 を同じキーでホストしています。従量課金、月額料金なし、OpenAI Python クライアントと同じ SDK の形です。以下の試算はすべて、2026年6月21日に確認した ofox の掲載トークン単価を使っています。
TL;DR:どちらを選ぶべきか
| シナリオ | 選ぶべきは | 理由 |
|---|---|---|
| コストに敏感なバッチコーディングエージェント | GLM-5.2 | 2:1 ミックスで 5.56倍安く、context も同じ 1M |
| 長い context のリファクタ作業(input >500K) | GLM-5.2 | context は同じ 1M、output 上限も 128K で同じ。input が 3.57倍安く、input 重めの作業を支配する |
| output 中心のコード生成パイプライン | GLM-5.2 | output トークンあたり 6.82倍安い |
| Codex CLI / Terminal-Bench 中心のエージェントワークフロー | GPT-5.5 | 統合の深さと Terminal-Bench 2.1 で 82.7% |
| レイテンシに敏感なインタラクティブペアプログラミング | GPT-5.5 | 短いプロンプトでの first-token 速度に最適化 |
| Azure バックエンドの調達 / Microsoft コンプライアンス環境 | GPT-5.5 | ofox の GPT-5.5 ラインは Azure バックエンド |
| エアギャップ環境やフォークが必須のデプロイ | GLM-5.2 セルフホスト | Hugging Face 上の MIT ウェイト |
2026年のほとんどのコーディングチームに対する正直な結論はこうです。コストに敏感なデフォルトトラフィックは z-ai/glm-5.2 にルーティングし、Codex CLI / インタラクティブな面では openai/gpt-5.5 を維持し、最も難しい 10% は Claude にエスカレーションする。以下で示す 2 モデルの分担は、ベンダー移行なしであなたのトラフィックの現実的な 80% をカバーします。
各モデルが ofox で提供するもの
両モデルとも api.ofox.io/v1 上で OpenAI 互換プロトコルとして提供され、Claude Code にそのまま差し込める Anthropic プロトコルの endpoint でも利用できます。地味な数字を、2026年6月21日に ofox のモデルカタログと照合して確認しました。
| 項目 | GLM-5.2 | GPT-5.5 |
|---|---|---|
| ofox での掲載日 | June 16, 2026 | April 24, 2026 |
| ofox model ID | z-ai/glm-5.2 | openai/gpt-5.5 |
| 詳細ページ | ofox.io/en/models/z-ai/glm-5.2 | ofox.io/en/models/openai/gpt-5.5 |
| input 料金 | $1.4 / M tokens | $5.00 / M tokens |
| output 料金 | $4.4 / M tokens | $30.00 / M tokens |
| cache 読み取り料金 | $0.26 / M tokens | $0.50 / M tokens |
| web search アドオン | $0.01 / request | $0.01 / request |
| context window | 1,000,000 tokens | 1,000,000 tokens(input 922K / output 128K) |
| 最大 output | 128,000 tokens | 128,000 tokens |
| プロバイダー基盤 | Z.ai(Zhipu) | Azure(OpenAI via Microsoft) |
| ウェイト | オープン(MIT、Hugging Face zai-org) | クローズド(API のみ) |
このスペック表から指摘しておきたいことが 2 つあります。1 つ目は、context window と output 上限は実質的に同一という点です。両方とも 1M の context と 128K の最大 output 上限を掲げており、どちらのモデルも 1 回の呼び出しで相手より大きなパッチを出せるわけではありません。長いリファクタ作業では決め手は output の容量ではなくトークン単価です。2 つ目は、ofox 上の GPT-5.5 は Azure バックエンドという点です。これは Microsoft のコンプライアンス境界の中にいる組織にとっての調達上の説明になります。ほとんどのアカウントに見える掲載料金表は変わりませんが、上流が OpenAI 直ではなく Microsoft であることを意味します。
GLM-5.2 のアクセス経路の全体——料金ティア、MIT ウェイトのタイムライン、Z.ai 自身の Coding Plan——については、GLM-5.2 アクセスガイド を参照してください。GPT-5.5 と 2026年のほかのフロンティアモデルとのコーディングベンチマークの全体像については、MiniMax M3 vs GPT-5.5 の SWE-Bench 分析 をご覧ください。
実際のトークン単価試算:3 つのワークロードシナリオ
カタログ価格は単純です。面白いのは、自分の実際の規模で請求書がどう見えるかという数字です。チームが本番で実際に当たる現実的なボリューム帯から、3 つのシナリオを使います。
前提ブロック(3 つすべてで一定に保つ):
- 1 リクエストあたり 3,000 トークン、input と output は 2:1 で分割(input 2K、output 1K)
- 1 か月 30 日
- 見出しの数字では cache hit なし(cache の効果は次のセクションで加える)
- web search アドオンは除外
軽量:1 日 10K リクエスト
小規模チームが単一のコーディングエージェントを中程度の強度で回している、あるいはサイドプロジェクトがある程度の規模になった、といった形です。
- 1 日の input トークン:10K × 2K = 20M
- 1 日の output トークン:10K × 1K = 10M
| モデル | input コスト/日 | output コスト/日 | 合計/日 | 合計/月 |
|---|---|---|---|---|
| GLM-5.2 | 20M × $1.4 = $28 | 10M × $4.4 = $44 | $72 | ~$2,160 |
| GPT-5.5 | 20M × $5.0 = $100 | 10M × $30 = $300 | $400 | ~$12,000 |
| 差額 | — | — | $328/日 | ~$9,840/月 |
中規模:1 日 100K リクエスト
10 人のエンジニアチームがコーディングエージェントをフルタイムで回している、あるいはプロダクト機能が中程度の同時実行でエンドユーザーにモデルを露出している、といった形です。
- 1 日の input トークン:100K × 2K = 200M
- 1 日の output トークン:100K × 1K = 100M
| モデル | input コスト/日 | output コスト/日 | 合計/日 | 合計/月 |
|---|---|---|---|---|
| GLM-5.2 | 200M × $1.4 = $280 | 100M × $4.4 = $440 | $720 | ~$21,600 |
| GPT-5.5 | 200M × $5.0 = $1,000 | 100M × $30 = $3,000 | $4,000 | ~$120,000 |
| 差額 | — | — | $3,280/日 | ~$98,400/月 |
大規模:1 日 1M リクエスト
本番のエージェントフリート、規模に達した開発者向けツールの SaaS、あるいは 4 桁規模のエンジニア組織に露出した社内プラットフォーム、といった形です。
- 1 日の input トークン:1M × 2K = 2B
- 1 日の output トークン:1M × 1K = 1B
| モデル | input コスト/日 | output コスト/日 | 合計/日 | 合計/月 |
|---|---|---|---|---|
| GLM-5.2 | 2B × $1.4 = $2,800 | 1B × $4.4 = $4,400 | $7,200 | ~$216,000 |
| GPT-5.5 | 2B × $5.0 = $10,000 | 1B × $30 = $30,000 | $40,000 | ~$1,200,000 |
| 差額 | — | — | $32,800/日 | ~$984,000/月 |
5.56倍の差はどのボリューム帯でも変わらず、変わるのは絶対額だけです。軽量ボリュームなら有用な節約、中規模なら毎月シニアエンジニア 2 人分の人件費に相当し、大規模なら機能が出荷できるか、ユニットエコノミクスの理由で潰されるかの分かれ目になります。
これらの表は標準的な 2:1 の input/output ミックスで成立します。比率はワークロードの形で変わります。1:1(チャット形式のやり取り)ではコスト比は 6.03倍、1:3 の output 重め(短いプロンプトからのコード生成)では 6.51倍、3:1 の input 重め(長い context の要約)では 5.23倍に縮みます。これは GLM-5.2 の input トークン単価の割引(input が 3.57倍安い)が、output トークン単価の割引(output が 6.82倍安い)より小さいためです。output 支配のワークロードはさらに GLM-5.2 に傾き、input 支配のワークロードは傾きが緩むものの、どの現実的なミックスでも GLM が有利です。
cache の効果:prompt caching はどこまで差を埋めるか
両モデルとも cache の読み取りはフル input 料金より安く課金されます。GLM-5.2 は $0.26/M(input から 81% 割引)、GPT-5.5 は $0.50/M(input から 90% 割引)です。リクエストをまたいでコードベースの context が繰り返されるコードレビューのワークロードでは、50% を超える cache hit 率は現実的です。input の cache hit 50% がブレンド単価にどう効くかを示します。
input の cache hit 50% 時(input トークンの半分が cache から提供、output は変わらず):
| モデル | 非 cache input($/M) | cache input($/M) | 実効 input($/M) | output($/M) | ブレンド($/M)2:1 時 | cache なし比 |
|---|---|---|---|---|---|---|
| GLM-5.2 | $1.40 | $0.26 | $0.83 | $4.40 | $2.02 | −15.8% |
| GPT-5.5 | $5.00 | $0.50 | $2.75 | $30.00 | $11.83 | −11.2% |
input の cache hit 100% 時(input トークンがすべて cache):
| モデル | input($/M、全 cache) | output($/M) | ブレンド($/M)2:1 時 | cache なし比 |
|---|---|---|---|---|
| GLM-5.2 | $0.26 | $4.40 | $1.64 | −31.7% |
| GPT-5.5 | $0.50 | $30.00 | $10.33 | −22.5% |
これには 2 つの読み方があります。1 つ目は、cache されたトークン 1 個あたりで節約できる絶対額は GPT-5.5 のほうが大きいという点です。cache された 100 万トークンあたり、GPT-5.5 では $4.50 を回避できるのに対し、GLM-5.2 では $1.14 です。CFO が cache プログラムを「節約できた絶対額」で評価するなら、GPT-5.5 が勝ちます。2 つ目は、GLM-5.2 の総請求額に占める節約の割合のほうが大きいという点です。GLM-5.2 のブレンドコストに占める input の割合が大きいため、input コストを削ると比例的な効果が大きくなります。input の cache hit 100% では、GLM はブレンド請求額の 31.7% が下がり、GPT-5.5 は 22.5% が下がります。
結果として、GLM-5.2 はどの cache hit 率でも安いままです。コスト比はむしろ cache hit 率が上がるほどわずかに広がります——cache なしの 5.56倍から、input の cache hit 50% で 5.86倍、100% で 6.30倍へ。直感に反するように聞こえますが、計算は単純です。cache は GPT-5.5 よりも GLM-5.2 のブレンド請求額に占める割合を大きく食うため、GLM の請求額のほうがパーセントで速く縮みます。prompt caching は input だけの一律割引であり、GPT-5.5 の output 料金は変えません。そして絶対額の差が生まれるのは output です。
GLM-5.2 が勝つとき(そしてベンチマーク差が許容できるとき)
GLM-5.2 が明らかに正しいルーティング判断になる 5 つのワークロードです。
- バッチのコードレビューと非同期のリファクタ一括処理。 夜間の依存関係アップグレード、ドキュメント生成、まとめての lint 修正——総トークン支出が支配的で、個々のリクエストのレイテンシは問題にならない作業です。5.56倍のコスト差は、一晩に数千件のリクエストで積み重なります。
- 長い context のリファクタ作業。 GLM-5.2 の 1M context なら、中規模のモジュール全体を 1 つのプロンプトで投入できます。output 上限の 128K は GPT-5.5 と同じなので、非常に大きな書き換えは両モデルとも依然チャンク分割になります——ただし GLM-5.2 は同じパッチをトークンあたり 5.56倍安く出力し、input は 3.57倍安いので、input 重めのリファクタパスでは input が支配します。
- output 中心のコード生成パイプライン。 output トークン単価が差別化要因で、その差は 6.82倍です。エージェントが読む量より多くのコードを出力するなら(テスト生成、スキャフォールディング、codemod の適用)、GLM-5.2 が不釣り合いに勝ちます。
- cache hit 率の高いワークロード。 同じコードベースの context を再利用するコードレビューエージェント、安定したコーパスを持つ RAG パイプライン——GLM-5.2 の cache 読み取りは $0.26/M で GPT-5.5 の $0.50/M の半分であり、GLM では比例的な cache の恩恵も大きくなります。
- オープンウェイトという保険。 MIT ライセンスのウェイトがあるので、Z.ai がホスト版の価格や条件を変えても、同じモデルのセルフホストにフォールバックできます。GPT-5.5 にはオンプレの経路がありません。ウェイトを一度もデプロイしなくても、そのオプション価値は本物です。
正直な但し書きとして、Terminal-Bench 系のエージェント作業では GPT-5.5 とのベンチマーク差は本物です。Z.ai は GLM-5.2 のローンチ時点で SWE-Bench Verified のスコアを公表しておらず、独立した第三者のベンチマーク値は 2026年6月中旬時点で保留中でした。ワークロードが Terminal-Bench の測る複数ステップのシェルエージェントループに依存するなら、依然 GPT-5.5 が先行します——それ以外のすべてでは、コストの論拠が決定的です。
それでも GPT-5.5 が理にかなうとき
5.56倍の割増がその価値を稼ぐ 3 つのワークロードです。
- Codex CLI が主戦場である。 OpenAI のターミナルエージェントはプロトコルレベルで GPT-5.5 に最適化されています——ファイルハンドル、シェル履歴、失敗したコマンドからのマルチターンの回復。Terminal-Bench 2.1 のスコア(82.7%)は、モデル能力と同じくらい統合の深さを反映しています。Codex の裏のモデルを差し替えるのは無料の操作ではありません。
- レイテンシに敏感なインタラクティブコーディング。 first-token のレイテンシが 1 秒延びるごとに採用率が下がるペアプログラミングのフローです。GPT-5.5 は短いプロンプトと速い first-token に最適化されており、5K トークンのインタラクティブなプロンプトでは、レイテンシ比較で GPT-5.5 が通常勝ちます。
- Azure バックエンドの調達。 ofox の GPT-5.5 ラインは Azure バックエンドなので、すでに Microsoft のコンプライアンス内にいる組織にとって、新たなベンダー審査なしで調達の説明がつきます。新しいモデルベンダーを追加する調達コストは、1 日あたり数十万トークン未満のチームではトークン単価の節約をしばしば上回ります。
4 つ目のシナリオは 混在ワークロードの推論負荷です。コーディングエージェントがときどきアーキテクチャ要約・ポストモーテム・リサーチブリーフを書くなら、GPT-5.5 の一般的な推論の上限は GLM-5.2 より高くなります。とはいえ、純粋なコーディングワークロードでは、GLM-5.2 のコストの論拠が支配的です。
ofox 経由の A/B ルーティングパターン:1 つのキー、1 つの endpoint、2 つのモデル
z-ai/glm-5.2 と openai/gpt-5.5 の両方が、OpenAI 互換プロトコルとして https://api.ofox.io/v1 上で稼働しています。モデルの切り替えは文字列 1 つの変更です。最小限で実用的な A/B ハーネスはこちらです。
Python — 1 つのループで両モデルを A/B
from openai import OpenAI
import os, time
client = OpenAI(base_url="https://api.ofox.io/v1", api_key=os.environ["OFOX_API_KEY"])
prompt = "Refactor this Python function to use async/await and return early on empty list: ..."
for model in ["z-ai/glm-5.2", "openai/gpt-5.5"]:
t0 = time.time()
resp = client.chat.completions.create(
model=model,
messages=[{"role": "user", "content": prompt}],
)
elapsed = time.time() - t0
print(f"{model}: {elapsed:.1f}s, {resp.usage.total_tokens} tokens")
print(resp.choices[0].message.content[:200])
これで生のレイテンシ、総トークン数、自分のタスクでの並列の出力が得られます。実際のワークロードから代表的な 20〜30 ケースで回してください——それがルーティング判断への唯一の正直な入力です。
Node — 同じ形
import OpenAI from "openai";
const client = new OpenAI({
baseURL: "https://api.ofox.io/v1",
apiKey: process.env.OFOX_API_KEY,
});
const prompt = "Refactor this Python function to use async/await and return early on empty list: ...";
for (const model of ["z-ai/glm-5.2", "openai/gpt-5.5"]) {
const t0 = Date.now();
const resp = await client.chat.completions.create({
model,
messages: [{ role: "user", content: prompt }],
});
console.log(`${model}: ${(Date.now() - t0) / 1000}s, ${resp.usage.total_tokens} tokens`);
console.log(resp.choices[0].message.content.slice(0, 200));
}
本番ルーティング — 1 行のモデル切り替え
同じ SDK 呼び出し、同じキー、同じ請求ライン。コストに敏感な半分のトラフィックを GLM-5.2 にルーティングし、インタラクティブな半分を GPT-5.5 に残すには次のようにします。
def pick_model(request_type: str) -> str:
if request_type in {"batch_refactor", "code_review", "doc_generation"}:
return "z-ai/glm-5.2"
return "openai/gpt-5.5"
resp = client.chat.completions.create(
model=pick_model(request_type),
messages=messages,
)
移行なし、新しいキーなし、別の請求照合なし。請求書のモデル列が各リクエストのコストを教えてくれ、ルーティング関数 1 か所で分担を調整できます。Claude へのエスカレーションを含む ofox カタログ全体にわたるルーティングの広いパターンについては、$30 の AI コーディングスタックガイド を参照してください。
データソースと料金リファレンス
- ofox.io モデルカタログ:z-ai/glm-5.2 — input $1.4/M、output $4.4/M、cache $0.26/M、1M context、最大 output 128K、掲載日 June 16, 2026(2026年6月21日確認)
- ofox.io モデルカタログ:openai/gpt-5.5 — input $5/M、output $30/M、cache $0.5/M、1M context(input 922K / output 128K)、掲載日 April 24, 2026、Azure バックエンド(2026年6月21日確認)
- GLM-5.2 アクセスガイド — 料金ティア、MIT ウェイト、Z.ai Coding Plan
- MiniMax M3 vs GPT-5.5 SWE-Bench Pro コーディングベンチマーク — ベンチマーク主導の対になる比較記事
- Vellum — GPT-5.5 リファレンス — Terminal-Bench 2.1 スコア 82.7%、output トークン料金 $30/M を確認
ボリューム帯をまたいで成立する 5.56倍のコスト差、そして純粋な output トークンでの 6.82倍の差を踏まえれば、ルーティングの問いはもはや「GLM-5.2 は十分良いか」ではありません——「どのワークロードが依然 GPT-5.5 の割増を正当化するのか」であり、その最もきれいで正直な答えは「Codex CLI を使う環境」です。


