GPT-5.5 リリースガイド — 価格・性能・移行のポイント
TL;DR — OpenAI は 2026 年 4 月 23 日に GPT-5.5 を投入しました。GPT-4.5 以降はじめてのフルスクラッチ再学習で、Artificial Analysis Intelligence Index は 60 でトップ、Terminal-Bench 2.0 は 82.7%、ただし単価は $5 / $30 に倍増しています。Ofox からは初日対応済みで、openai/gpt-5.5 に書き換えるだけで使えます。
OpenAI が実際に何を出したのか
公式アナウンスによれば、GPT-5.5 は ChatGPT と Codex の新しい既定フロンティアモデルであり、API として 1M トークンのコンテキストウィンドウを備える最初の OpenAI モデルです。
ただ、本当に重要なのは「GPT-4.5 以降はじめての完全再学習ベースモデル」であるという点です。あいだの 5.1、5.2、5.3、5.4 はすべて同じベースモデルへのポストトレーニング更新でしたが、GPT-5.5 は違います。アーキテクチャ、事前学習コーパス、エージェント志向の学習目標がすべて作り直されています。
ポジショニングも明確で、これは「エージェントモデル」です。OpenAI 自身が「一連のアクションを取り、ツールを使い、自分の作業を検証し、タスクが終わるまで継続する」モデルであり、各ハンドオフで人間が再プロンプトする必要がないと表現しています。
2 つのバリアント
| バリアント | API モデル ID | コンテキスト | 入力 / 出力(1M トークン) |
|---|---|---|---|
| GPT-5.5 Thinking | openai/gpt-5.5 | 1M(Codex は 400K) | $5 / $30(約 750 円 / 4,500 円) |
| GPT-5.5 Pro | openai/gpt-5.5-pro | 1M | $30 / $180(約 4,500 円 / 27,000 円) |
Thinking が既定で、ChatGPT 上で GPT-5.4 を置き換えるのはこちらです。Pro は高精度・高レイテンシ版で、信頼性で数 % の上積みのために 6 倍払う価値があるタスク向け(後述)。
Batch・Flex 価格は標準の半額で、これは GPT-5.x シリーズの他モデルと同じです。
ベンチマーク:エージェントタスクで頭ひとつ抜けた
OpenAI が公開した比較表で目を引くのは、エージェント型タスクの数値です。
| ベンチマーク | GPT-5.5 Thinking | GPT-5.4 Thinking | Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | 69.4% | 68.5% |
| GDPval(知識労働) | 84.9% | 83.0% | 80.3% | 67.3% |
| OSWorld-Verified(PC 操作) | 78.7% | 75.0% | 78.0% | — |
| Toolathalon(エージェントツール使用) | 55.6% | 54.6% | — | 48.8% |
| BrowseComp(Pro) | 90.1% | 89.3% | 79.3% | 85.9% |
| FrontierMath T4(Pro) | 39.6% | 38.0% | 22.9% | 16.7% |
Terminal-Bench 2.0 で Opus 4.7 に 13 ポイントのリード、GDPval(OpenAI が定義した 44 職種の知識労働経済価値ベンチマーク)も 84.9%。Artificial Analysis の Intelligence Index でも 60 ポイントで単独トップに立ち、Claude Opus 4.7 と Gemini 3.1 Pro Preview(いずれも 57)の三つ巴が崩れた格好です。
ただし全戦全勝ではない
GPT-5.5 が負けているベンチマークも明確に存在します。
- SWE-Bench Pro:Opus 4.7 が 64.3% に対し GPT-5.5 は 58.6%。「実在の GitHub Issue を実コードベースで直す」タスクに最も近い指標で、ここは Opus が上です。
- SWE-Bench Verified:Opus 4.7 が 87.6%、GPT-5.5 はこの評価では未掲載。
- MCP-Atlas(スケールしたツール利用):Opus 4.7 77.3% vs GPT-5.5 75.3%。
- 多言語 Q&A(MMMLU):83.2% で、Opus 4.7(91.5%)と Gemini 3.1 Pro(92.6%)に明確に劣後。
- エージェント型金融分析(Finance Agent v1.1):Opus 4.7 64.4% vs 61.5%。
パターンは一貫しています。GPT-5.5 が強いのは計画と実行——Terminal-Bench、Toolathlon、PC 操作、長時間コーディング。Opus 4.7 が強いのはコードベースの問題解決と多言語理解です。同じ軸で競っていません。
日本語タスクへの影響
GPT-5.4 を本番で使っている日本のチームが気になるのは「日本語の品質はどうなったか」です。
GPT-5.5 は敬語処理(謙譲語と尊敬語の取り違えが GPT-5.4 比で目に見えて減少)、漢字混じりの長文要約、社内文書の引用生成といった「形式の整合」が要求されるタスクで安定感が増しました。サポート FAQ の自動生成や、議事録の要約・アクションアイテム抽出のような社内知識検索系のユースケースでは体感差が出ます。
一方、MMMLU の数値が示すように、日本語固有の知識問答(法律、医療、税務など専門領域の事実確認)では Opus 4.7 や Gemini 3.1 Pro のほうが正答率は高い傾向があります。日本語の専門ドメインでは、GPT-5.5 単独に寄せず、引き続き複数モデルで A/B を回せる構成にしておくのが現実的です。
ハルシネーション問題
GPT-5.4 を本番で GPT-5.5 に差し替える前に、必ず確認したい数値があります。Artificial Analysis の AA-Omniscience ベンチマークで、GPT-5.5(xhigh)は正答率 57% で過去最高ですが、ハルシネーション率も 86% で過去最高です。Opus 4.7(max)が 36%、Gemini 3.1 Pro Preview が 50% であることを考えると、相当に高い水準です。
AA-Omniscience が測っているのは「自信を持って主張した内容が間違っていた頻度」です。GPT-5.5 は知っているときの正答率は高いものの、知らないときに堂々と作話する傾向も強くなった、という解釈になります。
エージェント型ワークフローのように「自分で答えを評価しながら次のアクションを決める」設計では、これはリスクです。「自信を持って間違ったアクション」は「立ち止まって確認」よりずっと悪い結果を生みます。コンプライアンス、事実 Q&A、citation 生成などのタスクでは、GPT-5.5 の評価を慎重に行うべきです。
価格:単価は倍になった
GPT-5.4 が $2.50 / $15、GPT-5.5 が $5 / $30。トークン単価で 2 倍、GPT-5.x シリーズで最大の値上げです。1M トークン入力で約 750 円、出力で約 4,500 円(1 USD = 150 円換算)。
OpenAI の主張は「トークン効率が上がっている」というもので、Codex タスクで GPT-5.4 比でトークン消費が大幅に減ると説明しています。Artificial Analysis の実測では Intelligence Index 走破で総トークンが約 40% 減少し、結果として「最高知能ティアでの実コストは約 20% 増」に収まる、という分析です。
それでも Opus 4.7 と同等知能で見れば安いほうで、AA は「GPT-5.5(medium)は Claude Opus 4.7(max)と同じ Intelligence Index スコアを 1/4 のコスト(約 $1,200 vs $4,800、おおむね 18 万円 vs 72 万円)で達成」と評しています。Gemini 3.1 Pro Preview は同等スコアを約 $900(13.5 万円)で叩き出すので、最安ではないものの、極端に高いわけでもない、というポジショニングです。
1M コンテキストと、Codex の 400K
API 開発者は Responses でも Chat Completions でも 1M トークンを使えます。Codex は 400K に制限されます。理由はキャパシティとキャッシュ戦略の都合で、能力上の制限ではありません。中規模コードベースのソース全体に 1 年分のコミットとドキュメントを 1 ショットで渡すような使い方をするなら、Codex ではなく API を選ぶのが正解です。
ただし 1M トークンは「使えるが高い」リソースです。$5/M で入力ウィンドウを満タンにするだけで $5(約 750 円)が出力なしで消えます。長コンテキストはそれが本当に必要なタスクの道具であって、デフォルトではありません。
日本企業向け:移行判断のフレーム
日本のスタートアップ・事業会社で GPT-5.4 を本番投入しているチームが「上げるか上げないか」を意思決定するときに、現場で使われている観点を整理します。
コスト試算:月間 1,000 万トークンを GPT-5.4 で処理しているチームの場合、入出力比率を 1:1 と仮定すると現状は月 $87.5(約 1.3 万円)。GPT-5.5 にスイッチするとトークン消費 40% 減を考慮しても月 $105 前後(約 1.6 万円)です。スイッチで 20% 増加が現実的な見立て。月数千〜数万トークン規模なら誤差ですが、月 1 億トークンを超えるユースケースだと値上げ幅は無視できません。
契約・調達:日本企業の調達プロセスでは、モデル変更がベンダーアセスメントの再実施を要求するケースがあります。情シスやセキュリティ部門への「データ取り扱いに変更がない」確認、契約書のモデル指定条項のチェック、稟議の更新——これらをスイッチコストに含めて見積もるべきです。Ofox のような統合プラットフォームを経由していれば、契約上の窓口は変わらないので、このコストは大幅に抑えられます。
テスト工数:GPT-5.4 で安定運用しているプロンプトを GPT-5.5 で全面リプレースするなら、回帰テストは避けられません。とくに敬語の出力フォーマット、JSON Schema の遵守、Function Calling の引数生成あたりは、本番投入前に既存のゴールデンセットで通しておく必要があります。経験的にはプロンプト 1 本あたり 30〜60 サンプルのテストで違いが見えはじめます。
並走運用:いきなり 100% 切り替えるのではなく、最初の 1〜2 週間はトラフィックの 5〜10% を GPT-5.5 に流して観察するのが安全策です。レイテンシ、ハルシネーション率、コスト、ユーザー満足度を並走比較できる構成にしておくと、ロールバック判断も速くなります。
日本のスタートアップで効きそうな用途
実際に効果が出やすい領域を、用途別に整理しておきます。
カスタマーサポート自動化 — エージェント型のフロー(注文照会 → 状態取得 → ユーザーに回答)はまさに GPT-5.5 が強い領域です。Terminal-Bench や Toolathlon のスコアが高いことは、社内 API を叩きながら多段階で問い合わせをさばくシナリオに直結します。一次対応の自動化で、人間オペレーターのエスカレーションを減らす効果が期待できます。
社内ナレッジ検索・RAG — 1M コンテキストは、社内 Wiki やプロジェクトドキュメントを大量に渡して横断的に答えさせるユースケースで効きます。ただし「事実をハルシネーションするリスク」が高い点には注意が必要で、ソース引用を強制するプロンプト設計と、出力に対する self-check のステップを挟むのが定石です。
エージェント型コード支援 — Codex の 400K でも実用範囲のリポジトリには十分入ります。チケット駆動で「Issue を読んで、関連ファイルを開いて、修正を提案して、テストを書く」までの自動化は、GPT-5.5 のエージェント志向と相性が良いです。ただし、純粋に「この PR のレビュー」「この関数のリファクタ」のようなコードベース解決タスクでは、Opus 4.7 のほうが向いている場合があります。
使うべきとき・使わないでいいとき
GPT-5.4 を本番で動かしているチーム向けの判断軸です。
マルチステップなツール呼び出し、ターミナル操作、ブラウジング、PC 操作を伴うエージェント — 上げる価値あり。Terminal-Bench と OSWorld のギャップは無視できない大きさです。
コードベースや業務文書、研究資料に対する長コンテキスト解析 — 1M コンテキストの恩恵で上げる価値あり。ただし課金は予算化を。
GPT-5.4 や Opus 4.6 で安定しているコードベース解決タスク — 切り替え前にテスト。SWE-Bench Pro の数値を見るかぎり、Opus 4.7 のままが正解の可能性があります。
GPT-5.4 の単価で回している大量・低レイテンシのチャット — 据え置き推奨。GPT-5.4 が消えるわけではなく、1 リクエストあたりのコストは半分です。
ハルシネーションが致命的になるタスク(事実 Q&A、引用生成、コンプライアンス)— 切り替え前にテスト。AA-Omniscience の数値は実運用上のシグナルとして無視できません。
Ofox 経由でのアクセス
Ofox は GPT-5.5 を初日から提供しています。既存の Ofox 利用者なら、変更は実質 1 行です。
from openai import OpenAI
client = OpenAI(
api_key="sk-of-your-api-key",
base_url="https://api.ofox.ai/v1"
)
response = client.chat.completions.create(
model="openai/gpt-5.5",
messages=[{"role": "user", "content": "このサービスを構造化ツール呼び出しを使う形にリファクタしてください"}]
)
print(response.choices[0].message.content)
Pro バリアントも同じエンドポイントで使えます。
response = client.chat.completions.create(
model="openai/gpt-5.5-pro",
messages=[{"role": "user", "content": "全コンシューマを横断してこの競合状態を追跡してください"}]
)
同じ API キーで GPT-5.5、GPT-5.4、Claude Opus 4.7、Gemini 3.1 Pro を切り替えられます。「とりあえず GPT-5.5 を試してみたいが、ダメだったときに Opus 4.7 や Gemini 3.1 Pro でも比較したい」という日本のチームには、複数プロバイダ契約の手間なしに A/B が回せる構成は意外と効きます。Ofox のキーがまだなければ ofox.ai から発行できます。
GPT-5.5 はベースモデルから作り直されたという意味で確かに「本物の世代交代」です。ただし、エージェント型ベンチマークで強いことと、自分のプロダクトの特定ユースケースで効くことは別の問題です。2026 年初頭時点では、すぐに全面移行するよりも、トラフィックの一部で本番並走させて自社のメトリクスで判断するのが、もっとも誠実なアプローチだと言えそうです。
