GLM-5.2 は GPT-5.5 と比べて、実際のトークン単価でどれくらい安いのですか？

ofox.io では、GLM-5.2 は input $1.4 / output $4.4（100 万トークンあたり）で掲載されています。GPT-5.5 は input $5 / output $30 です。input と output が 2:1 の比率（典型的なコーディングワークロード）の場合、GLM-5.2 のブレンド単価は 100 万トークンあたり $2.40、GPT-5.5 は $13.33 となり、5.56倍の差になります。1:1 の比率（チャット形式のやり取り）では GLM が $2.90/M、GPT-5.5 が $17.50/M で 6.03倍。output が支配的になるほど差は広がります。GPT-5.5 の output トークンは GLM-5.2 の 6.8倍高いためです。

1 日 10 万リクエストだと、月の請求額はどうなりますか？

1 リクエストあたり 3K トークン（input 2K、output 1K）と仮定すると、1 日 10 万リクエストは 1 日あたり 3 億トークンです。GLM-5.2 はおおよそ 1 日 $720、月約 $21,600 になります。GPT-5.5 はおおよそ 1 日 $4,000、月約 $120,000 です。同じワークロードなら 5.56倍の差はどの規模でも変わらず、変わるのは絶対額だけです。

prompt caching を使うと、どちらが安いかは変わりますか？

変わりません。絶対額の差は縮まりますが、順位は逆転しません。input の cache hit 率が 50% のとき、GLM-5.2 のブレンド単価は $2.40 から $2.02 per million tokens（−15.8%）へ、GPT-5.5 は $13.33 から $11.83（−11.2%）へ下がります。cache されたトークン 1 個あたりで節約できる絶対額は GPT-5.5 のほうが大きいですが、GLM-5.2 のほうがブレンド請求額に占める input の割合が大きいため、節約できる割合は GLM-5.2 のほうが大きくなります。input の cache hit が 100% のとき、GLM は 31.7%、GPT-5.5 は 22.5% 下がります。どの cache hit 率でも GLM のほうが安いままです。

それでも GPT-5.5 の割増料金が正当化される場面はどこですか？

3 つのワークロードです。1 つ目は Codex CLI での Terminal-Bench 中心の作業です。OpenAI のターミナルエージェントループは GPT-5.5 に最適化されており（Terminal-Bench 2.1 で 82.7%）、その統合の深さは無料で乗り換えられるものではありません。2 つ目は、総支出よりも first-token の速度が重要な、レイテンシに敏感なインタラクティブコーディングです。3 つ目は、すでに Azure 上で調達コンプライアンスを整えている組織です。ofox の GPT-5.5 ラインは Azure バックエンドなので、新たなベンダー審査なしで調達の説明がつきます。

GLM-5.2 の context window と最大 output はどれくらいですか？

input の context window は 1,000,000 トークン、最大 output は 128,000 トークンです。GPT-5.5 も 1M context で、内訳は input 922K + output 128K と開示されています。つまり両モデルとも 1 回の呼び出しでの output 上限は同じ 128K です。長い context のリファクタ作業では、決め手は output の上限ではなくコストです。同じ 128K 上限でも、2:1 のミックスなら GLM-5.2 はトークンあたり 5.56倍安く動きます。

GLM-5.2 のオープンウェイト公開は、コスト試算に関係しますか？

本番稼働率で 8x H100 を回せる場合に限り関係します。MIT ライセンスのウェイトは 2026年6月16日の週に zai-org として Hugging Face で公開されました。セルフホストすればトークン単価の課金はなくなりますが、GPU の減価償却・電力・運用コストが加わります。月あたりおよそ 5 億トークン未満なら、ofox 経由のホスト版 GLM-5.2 のほうがセルフホストより安くなります。それを超えると、損益分岐点は GPU のリース料率次第で動きます。ほとんどのチームにとってはホスト版の価格がすでに勝っており、ウェイトは将来の価格変更に対する保険です。

1 つの API キーで両モデルを A/B できますか？

できます。両モデルとも api.ofox.io/v1（OpenAI 互換）と Anthropic プロトコルの endpoint 上にあります。model 文字列を openai/gpt-5.5 から z-ai/glm-5.2 に変えるだけです。同じ SDK、同じキー、同じ請求ラインです。A/B 用のハーネスは短い Python ループ（15 行未満）、本番の切り替えは設定 1 か所の変更で済みます。

ofox 上のどちらかのモデルに、隠れたコストはありますか？

両モデルとも、検索ツールを使う場合に $0.01/request の web search アドオンがあります。cache の読み取りは、フル input 料金に対して GLM-5.2 が $0.26/M、GPT-5.5 が $0.5/M で課金されます。月額料金も最低利用額もなく、どちらも従量課金です。ofox 上の GPT-5.5 は Azure バックエンドで、cache と input 料金は一部のティアで 15% の Azure 割引が効きます。これは GPT-5.5 の請求額を縮めますが、5.56倍の差を埋めるほどではありません。

GLM-5.2 は OpenAI Python SDK で動きますか？

動きます。base_url を https://api.ofox.io/v1 に、api_key を自分の ofox キーに設定し、model="z-ai/glm-5.2" を渡すだけです。この 3 行以外にコード変更は不要で、標準の chat-completions インターフェースに加えて function calling と prompt caching を利用できます。

ワークロードが主に output 中心のコード生成だった場合はどうですか？

コスト差はさらに広がります。GPT-5.5 の output トークンは $30/M、GLM-5.2 は $4.4/M で、output 比率は 6.82倍です。input と output が 1:3 のミックス（短いプロンプトからのコード生成）では、GLM のブレンド単価は $3.65/M、GPT-5.5 は $23.75/M で 6.51倍になります。コストに敏感なコード生成パイプラインは GLM-5.2 に強く傾きます。唯一の反論は測定可能な output 品質の差で、Terminal-Bench はシェル中心の作業ではそれを示しますが、一般的なコード補完では示しません。

Jun 21, 2026 (updated Jun 21, 2026 )

glmopenaimodel-comparisonpricingcost-optimization

GLM-5.2 vs GPT-5.5 のコスト比較：10K/100K/1M リクエスト/日のトークン単価試算（2026年）

TL;DR — ofox.io の掲載価格では、GLM-5.2 は 100 万トークンあたり input $1.4 / output $4.4、GPT-5.5 は $5 / $30 です。input と output が 2:1 の比率でブレンドすると $2.40 vs $13.33（100 万トークンあたり）となり、5.56倍のコスト差です。3K トークンのプロンプトで 1 日 10 万リクエストなら、支出はおおよそ GLM-5.2 で $720/日、GPT-5.5 で $4,000/日 ——月にして 約 $21,600 vs $120,000 です。prompt caching は両方に効きますが、差は埋まりません。両モデルは ofox.io の同じ OpenAI 互換 endpoint 上にあるので、この比較はモデル名 1 行の入れ替えで試せます。

GPT-5.5 のトークン単価は、典型的なコーディングミックスで GLM-5.2 の 5.56倍——純粋な output トークンでは 6.82倍です。問いはもはや「GLM-5.2 は十分良いか」ではなくなり、「どのワークロードが GPT-5.5 の割増料金に見合うのか」になりました。

試算を飛ばして、自分のワークロードで両モデルをそのまま A/B したいなら、ofox.io が z-ai/glm-5.2 と openai/gpt-5.5 を同じキーでホストしています。従量課金、月額料金なし、OpenAI Python クライアントと同じ SDK の形です。以下の試算はすべて、2026年6月21日に確認した ofox の掲載トークン単価を使っています。

TL;DR：どちらを選ぶべきか

シナリオ	選ぶべきは	理由
コストに敏感なバッチコーディングエージェント	GLM-5.2	2:1 ミックスで 5.56倍安く、context も同じ 1M
長い context のリファクタ作業（input >500K）	GLM-5.2	context は同じ 1M、output 上限も 128K で同じ。input が 3.57倍安く、input 重めの作業を支配する
output 中心のコード生成パイプライン	GLM-5.2	output トークンあたり 6.82倍安い
Codex CLI / Terminal-Bench 中心のエージェントワークフロー	GPT-5.5	統合の深さと Terminal-Bench 2.1 で 82.7%
レイテンシに敏感なインタラクティブペアプログラミング	GPT-5.5	短いプロンプトでの first-token 速度に最適化
Azure バックエンドの調達 / Microsoft コンプライアンス環境	GPT-5.5	ofox の GPT-5.5 ラインは Azure バックエンド
エアギャップ環境やフォークが必須のデプロイ	GLM-5.2 セルフホスト	Hugging Face 上の MIT ウェイト

2026年のほとんどのコーディングチームに対する正直な結論はこうです。コストに敏感なデフォルトトラフィックは z-ai/glm-5.2 にルーティングし、Codex CLI / インタラクティブな面では openai/gpt-5.5 を維持し、最も難しい 10% は Claude にエスカレーションする。以下で示す 2 モデルの分担は、ベンダー移行なしであなたのトラフィックの現実的な 80% をカバーします。

各モデルが ofox で提供するもの

両モデルとも api.ofox.io/v1 上で OpenAI 互換プロトコルとして提供され、Claude Code にそのまま差し込める Anthropic プロトコルの endpoint でも利用できます。地味な数字を、2026年6月21日に ofox のモデルカタログと照合して確認しました。

項目	GLM-5.2	GPT-5.5
ofox での掲載日	June 16, 2026	April 24, 2026
ofox model ID	`z-ai/glm-5.2`	`openai/gpt-5.5`
詳細ページ	ofox.io/en/models/z-ai/glm-5.2	ofox.io/en/models/openai/gpt-5.5
input 料金	$1.4 / M tokens	$5.00 / M tokens
output 料金	$4.4 / M tokens	$30.00 / M tokens
cache 読み取り料金	$0.26 / M tokens	$0.50 / M tokens
web search アドオン	$0.01 / request	$0.01 / request
context window	1,000,000 tokens	1,000,000 tokens（input 922K / output 128K）
最大 output	128,000 tokens	128,000 tokens
プロバイダー基盤	Z.ai（Zhipu）	Azure（OpenAI via Microsoft）
ウェイト	オープン（MIT、Hugging Face zai-org）	クローズド（API のみ）

このスペック表から指摘しておきたいことが 2 つあります。1 つ目は、context window と output 上限は実質的に同一という点です。両方とも 1M の context と 128K の最大 output 上限を掲げており、どちらのモデルも 1 回の呼び出しで相手より大きなパッチを出せるわけではありません。長いリファクタ作業では決め手は output の容量ではなくトークン単価です。2 つ目は、ofox 上の GPT-5.5 は Azure バックエンドという点です。これは Microsoft のコンプライアンス境界の中にいる組織にとっての調達上の説明になります。ほとんどのアカウントに見える掲載料金表は変わりませんが、上流が OpenAI 直ではなく Microsoft であることを意味します。

GLM-5.2 のアクセス経路の全体——料金ティア、MIT ウェイトのタイムライン、Z.ai 自身の Coding Plan——については、GLM-5.2 アクセスガイドを参照してください。GPT-5.5 と 2026年のほかのフロンティアモデルとのコーディングベンチマークの全体像については、MiniMax M3 vs GPT-5.5 の SWE-Bench 分析をご覧ください。

実際のトークン単価試算：3 つのワークロードシナリオ

カタログ価格は単純です。面白いのは、自分の実際の規模で請求書がどう見えるかという数字です。チームが本番で実際に当たる現実的なボリューム帯から、3 つのシナリオを使います。

前提ブロック（3 つすべてで一定に保つ）：

1 リクエストあたり 3,000 トークン、input と output は 2:1 で分割（input 2K、output 1K）
1 か月 30 日
見出しの数字では cache hit なし（cache の効果は次のセクションで加える）
web search アドオンは除外

軽量：1 日 10K リクエスト

小規模チームが単一のコーディングエージェントを中程度の強度で回している、あるいはサイドプロジェクトがある程度の規模になった、といった形です。

1 日の input トークン：10K × 2K = 20M
1 日の output トークン：10K × 1K = 10M

モデル	input コスト/日	output コスト/日	合計/日	合計/月
GLM-5.2	20M × $1.4 = $28	10M × $4.4 = $44	$72	~$2,160
GPT-5.5	20M × $5.0 = $100	10M × $30 = $300	$400	~$12,000
差額	—	—	$328/日	~$9,840/月

中規模：1 日 100K リクエスト

10 人のエンジニアチームがコーディングエージェントをフルタイムで回している、あるいはプロダクト機能が中程度の同時実行でエンドユーザーにモデルを露出している、といった形です。

1 日の input トークン：100K × 2K = 200M
1 日の output トークン：100K × 1K = 100M

モデル	input コスト/日	output コスト/日	合計/日	合計/月
GLM-5.2	200M × $1.4 = $280	100M × $4.4 = $440	$720	~$21,600
GPT-5.5	200M × $5.0 = $1,000	100M × $30 = $3,000	$4,000	~$120,000
差額	—	—	$3,280/日	~$98,400/月

大規模：1 日 1M リクエスト

本番のエージェントフリート、規模に達した開発者向けツールの SaaS、あるいは 4 桁規模のエンジニア組織に露出した社内プラットフォーム、といった形です。

1 日の input トークン：1M × 2K = 2B
1 日の output トークン：1M × 1K = 1B

モデル	input コスト/日	output コスト/日	合計/日	合計/月
GLM-5.2	2B × $1.4 = $2,800	1B × $4.4 = $4,400	$7,200	~$216,000
GPT-5.5	2B × $5.0 = $10,000	1B × $30 = $30,000	$40,000	~$1,200,000
差額	—	—	$32,800/日	~$984,000/月

5.56倍の差はどのボリューム帯でも変わらず、変わるのは絶対額だけです。軽量ボリュームなら有用な節約、中規模なら毎月シニアエンジニア 2 人分の人件費に相当し、大規模なら機能が出荷できるか、ユニットエコノミクスの理由で潰されるかの分かれ目になります。

これらの表は標準的な 2:1 の input/output ミックスで成立します。比率はワークロードの形で変わります。1:1（チャット形式のやり取り）ではコスト比は 6.03倍、1:3 の output 重め（短いプロンプトからのコード生成）では 6.51倍、3:1 の input 重め（長い context の要約）では 5.23倍に縮みます。これは GLM-5.2 の input トークン単価の割引（input が 3.57倍安い）が、output トークン単価の割引（output が 6.82倍安い）より小さいためです。output 支配のワークロードはさらに GLM-5.2 に傾き、input 支配のワークロードは傾きが緩むものの、どの現実的なミックスでも GLM が有利です。

cache の効果：prompt caching はどこまで差を埋めるか

両モデルとも cache の読み取りはフル input 料金より安く課金されます。GLM-5.2 は $0.26/M（input から 81% 割引）、GPT-5.5 は $0.50/M（input から 90% 割引）です。リクエストをまたいでコードベースの context が繰り返されるコードレビューのワークロードでは、50% を超える cache hit 率は現実的です。input の cache hit 50% がブレンド単価にどう効くかを示します。

input の cache hit 50% 時（input トークンの半分が cache から提供、output は変わらず）：

モデル	非 cache input（$/M）	cache input（$/M）	実効 input（$/M）	output（$/M）	ブレンド（$/M）2:1 時	cache なし比
GLM-5.2	$1.40	$0.26	$0.83	$4.40	$2.02	−15.8%
GPT-5.5	$5.00	$0.50	$2.75	$30.00	$11.83	−11.2%

input の cache hit 100% 時（input トークンがすべて cache）：

モデル	input（$/M、全 cache）	output（$/M）	ブレンド（$/M）2:1 時	cache なし比
GLM-5.2	$0.26	$4.40	$1.64	−31.7%
GPT-5.5	$0.50	$30.00	$10.33	−22.5%

これには 2 つの読み方があります。1 つ目は、cache されたトークン 1 個あたりで節約できる絶対額は GPT-5.5 のほうが大きいという点です。cache された 100 万トークンあたり、GPT-5.5 では $4.50 を回避できるのに対し、GLM-5.2 では $1.14 です。CFO が cache プログラムを「節約できた絶対額」で評価するなら、GPT-5.5 が勝ちます。2 つ目は、GLM-5.2 の総請求額に占める節約の割合のほうが大きいという点です。GLM-5.2 のブレンドコストに占める input の割合が大きいため、input コストを削ると比例的な効果が大きくなります。input の cache hit 100% では、GLM はブレンド請求額の 31.7% が下がり、GPT-5.5 は 22.5% が下がります。

結果として、GLM-5.2 はどの cache hit 率でも安いままです。コスト比はむしろ cache hit 率が上がるほどわずかに広がります——cache なしの 5.56倍から、input の cache hit 50% で 5.86倍、100% で 6.30倍へ。直感に反するように聞こえますが、計算は単純です。cache は GPT-5.5 よりも GLM-5.2 のブレンド請求額に占める割合を大きく食うため、GLM の請求額のほうがパーセントで速く縮みます。prompt caching は input だけの一律割引であり、GPT-5.5 の output 料金は変えません。そして絶対額の差が生まれるのは output です。

GLM-5.2 が勝つとき（そしてベンチマーク差が許容できるとき）

GLM-5.2 が明らかに正しいルーティング判断になる 5 つのワークロードです。

バッチのコードレビューと非同期のリファクタ一括処理。 夜間の依存関係アップグレード、ドキュメント生成、まとめての lint 修正——総トークン支出が支配的で、個々のリクエストのレイテンシは問題にならない作業です。5.56倍のコスト差は、一晩に数千件のリクエストで積み重なります。
長い context のリファクタ作業。 GLM-5.2 の 1M context なら、中規模のモジュール全体を 1 つのプロンプトで投入できます。output 上限の 128K は GPT-5.5 と同じなので、非常に大きな書き換えは両モデルとも依然チャンク分割になります——ただし GLM-5.2 は同じパッチをトークンあたり 5.56倍安く出力し、input は 3.57倍安いので、input 重めのリファクタパスでは input が支配します。
output 中心のコード生成パイプライン。 output トークン単価が差別化要因で、その差は 6.82倍です。エージェントが読む量より多くのコードを出力するなら（テスト生成、スキャフォールディング、codemod の適用）、GLM-5.2 が不釣り合いに勝ちます。
cache hit 率の高いワークロード。 同じコードベースの context を再利用するコードレビューエージェント、安定したコーパスを持つ RAG パイプライン——GLM-5.2 の cache 読み取りは $0.26/M で GPT-5.5 の $0.50/M の半分であり、GLM では比例的な cache の恩恵も大きくなります。
オープンウェイトという保険。 MIT ライセンスのウェイトがあるので、Z.ai がホスト版の価格や条件を変えても、同じモデルのセルフホストにフォールバックできます。GPT-5.5 にはオンプレの経路がありません。ウェイトを一度もデプロイしなくても、そのオプション価値は本物です。

正直な但し書きとして、Terminal-Bench 系のエージェント作業では GPT-5.5 とのベンチマーク差は本物です。Z.ai は GLM-5.2 のローンチ時点で SWE-Bench Verified のスコアを公表しておらず、独立した第三者のベンチマーク値は 2026年6月中旬時点で保留中でした。ワークロードが Terminal-Bench の測る複数ステップのシェルエージェントループに依存するなら、依然 GPT-5.5 が先行します——それ以外のすべてでは、コストの論拠が決定的です。

それでも GPT-5.5 が理にかなうとき

5.56倍の割増がその価値を稼ぐ 3 つのワークロードです。

Codex CLI が主戦場である。 OpenAI のターミナルエージェントはプロトコルレベルで GPT-5.5 に最適化されています——ファイルハンドル、シェル履歴、失敗したコマンドからのマルチターンの回復。Terminal-Bench 2.1 のスコア（82.7%）は、モデル能力と同じくらい統合の深さを反映しています。Codex の裏のモデルを差し替えるのは無料の操作ではありません。
レイテンシに敏感なインタラクティブコーディング。 first-token のレイテンシが 1 秒延びるごとに採用率が下がるペアプログラミングのフローです。GPT-5.5 は短いプロンプトと速い first-token に最適化されており、5K トークンのインタラクティブなプロンプトでは、レイテンシ比較で GPT-5.5 が通常勝ちます。
Azure バックエンドの調達。 ofox の GPT-5.5 ラインは Azure バックエンドなので、すでに Microsoft のコンプライアンス内にいる組織にとって、新たなベンダー審査なしで調達の説明がつきます。新しいモデルベンダーを追加する調達コストは、1 日あたり数十万トークン未満のチームではトークン単価の節約をしばしば上回ります。

4 つ目のシナリオは 混在ワークロードの推論負荷です。コーディングエージェントがときどきアーキテクチャ要約・ポストモーテム・リサーチブリーフを書くなら、GPT-5.5 の一般的な推論の上限は GLM-5.2 より高くなります。とはいえ、純粋なコーディングワークロードでは、GLM-5.2 のコストの論拠が支配的です。

ofox 経由の A/B ルーティングパターン：1 つのキー、1 つの endpoint、2 つのモデル

z-ai/glm-5.2 と openai/gpt-5.5 の両方が、OpenAI 互換プロトコルとして https://api.ofox.io/v1 上で稼働しています。モデルの切り替えは文字列 1 つの変更です。最小限で実用的な A/B ハーネスはこちらです。

Python — 1 つのループで両モデルを A/B

from openai import OpenAI
import os, time

client = OpenAI(base_url="https://api.ofox.io/v1", api_key=os.environ["OFOX_API_KEY"])

prompt = "Refactor this Python function to use async/await and return early on empty list: ..."

for model in ["z-ai/glm-5.2", "openai/gpt-5.5"]:
    t0 = time.time()
    resp = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": prompt}],
    )
    elapsed = time.time() - t0
    print(f"{model}: {elapsed:.1f}s, {resp.usage.total_tokens} tokens")
    print(resp.choices[0].message.content[:200])

これで生のレイテンシ、総トークン数、自分のタスクでの並列の出力が得られます。実際のワークロードから代表的な 20〜30 ケースで回してください——それがルーティング判断への唯一の正直な入力です。

Node — 同じ形

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "https://api.ofox.io/v1",
  apiKey: process.env.OFOX_API_KEY,
});

const prompt = "Refactor this Python function to use async/await and return early on empty list: ...";

for (const model of ["z-ai/glm-5.2", "openai/gpt-5.5"]) {
  const t0 = Date.now();
  const resp = await client.chat.completions.create({
    model,
    messages: [{ role: "user", content: prompt }],
  });
  console.log(`${model}: ${(Date.now() - t0) / 1000}s, ${resp.usage.total_tokens} tokens`);
  console.log(resp.choices[0].message.content.slice(0, 200));
}

本番ルーティング — 1 行のモデル切り替え

同じ SDK 呼び出し、同じキー、同じ請求ライン。コストに敏感な半分のトラフィックを GLM-5.2 にルーティングし、インタラクティブな半分を GPT-5.5 に残すには次のようにします。

def pick_model(request_type: str) -> str:
    if request_type in {"batch_refactor", "code_review", "doc_generation"}:
        return "z-ai/glm-5.2"
    return "openai/gpt-5.5"

resp = client.chat.completions.create(
    model=pick_model(request_type),
    messages=messages,
)

移行なし、新しいキーなし、別の請求照合なし。請求書のモデル列が各リクエストのコストを教えてくれ、ルーティング関数 1 か所で分担を調整できます。Claude へのエスカレーションを含む ofox カタログ全体にわたるルーティングの広いパターンについては、$30 の AI コーディングスタックガイドを参照してください。

データソースと料金リファレンス

ofox.io モデルカタログ：z-ai/glm-5.2 — input $1.4/M、output $4.4/M、cache $0.26/M、1M context、最大 output 128K、掲載日 June 16, 2026（2026年6月21日確認）
ofox.io モデルカタログ：openai/gpt-5.5 — input $5/M、output $30/M、cache $0.5/M、1M context（input 922K / output 128K）、掲載日 April 24, 2026、Azure バックエンド（2026年6月21日確認）
GLM-5.2 アクセスガイド — 料金ティア、MIT ウェイト、Z.ai Coding Plan
MiniMax M3 vs GPT-5.5 SWE-Bench Pro コーディングベンチマーク — ベンチマーク主導の対になる比較記事
Vellum — GPT-5.5 リファレンス — Terminal-Bench 2.1 スコア 82.7%、output トークン料金 $30/M を確認

ボリューム帯をまたいで成立する 5.56倍のコスト差、そして純粋な output トークンでの 6.82倍の差を踏まえれば、ルーティングの問いはもはや「GLM-5.2 は十分良いか」ではありません——「どのワークロードが依然 GPT-5.5 の割増を正当化するのか」であり、その最もきれいで正直な答えは「Codex CLI を使う環境」です。