Claude Opus 4.7 API レビュー — 4.6 からのアップグレード判断基準

Claude Opus 4.7 API レビュー — 4.6 からのアップグレード判断基準

TL;DR — Opus 4.7 は本物のアップグレードです。SWE-bench Verified 87.6%(4.6 比 +6.8pp)、視覚精度はおよそ 3 倍、Claude Code のデフォルトになった新しい xhigh 思考レベル。ただし新トークナイザのせいで同じプロンプトの実トークン数が 1.0〜1.35 倍に増えるので、表示価格は据え置きでも実請求額は上がります。多くのチームには十分割に合いますが、本番投入前にサンプルテストはしておくべきです。

Anthropic がリリースしたもの

Claude Opus 4.7 は 2026 年 4 月 16 日に公開され、3 週間ほど経った今、主要 API プラットフォームでは Opus のデフォルトが 4.7 に切り替わっています(ofox.ai も同様)。

ベンチマークOpus 4.6Opus 4.7変化
SWE-bench Verified80.8%87.6%+6.8pp
SWE-bench Pro53.4%64.3%+10.9pp
CursorBench58%70%+12pp
視覚精度54.5%98.5%+44pp
最大画像解像度約 1MP3.75MP約 3.75 倍

特に視覚処理の改善が顕著です。4.6 はスクリーンショットや図表、密度の高いダッシュボードの読み取りに難があり、画像タスクを GPT-5.4 や Gemini 3.1 Pro に逃がしていたチームも多かったはずです。4.7 ならその回避策はもう要りません。3.75 メガピクセルまでそのまま投げ込めます。

コーディングについては、SWE-bench Pro の 64.3% は GPT-5.4(57.7%)と Gemini 3.1 Pro(54.2%)を明確に上回ります。SWE-bench Pro は実際の GitHub Issue を解かせるベンチマークなので、合成タスクより現場感のある数字です。

トークナイザが地味に効く

4.7 は新トークナイザを採用しました。Anthropic の移行ガイドによれば、同じ内容に対して 4.6 比でおおむね 1.0〜1.35 倍のトークン数になります。

  • 自然言語の文章: 約 1.0〜1.05 倍(ほぼ無視できる)
  • コードと文章が混在するプロンプト: 約 1.1〜1.2 倍
  • コード密度の高い入出力(特に Python や TypeScript): 約 1.2〜1.35 倍

表示価格は据え置きで入力 $5 / 出力 $25 per 100 万トークン(1 USD = 150 円換算で入力約 750 円、出力約 3,750 円)。コードレビュー基盤に月 $2,000(約 30 万円)使っていたチームなら、同じ処理量で 4.7 に移行すると $2,200〜$2,700(約 33〜40.5 万円)を見込んでおくのが現実的です。性能向上ぶんで十分元は取れる範囲ですが、月次の請求書で驚かないよう経理にも先に共有しておくとよいでしょう。

xhigh 思考レベル

4.7 では推論段階に xhigh が追加され、これが Claude Code の新しいデフォルトになりました。

  • high: 思考トークン少なめ、高速
  • xhigh: 最大 10 万思考トークン、深さとレイテンシのバランス型
  • max: 思考無制限、最遅・最高コスト

多くのコーディングタスクでは xhigh が正解です。max ほどレイテンシを犠牲にせず、high より明らかに思考の余裕がある。API 直叩きで Claude Code と同じ挙動を再現したい場合はこう指定します。

import anthropic

client = anthropic.Anthropic(
    base_url="https://api.ofox.ai/anthropic",
    api_key="your-ofox-key",
)

response = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=8192,
    thinking={"type": "enabled", "budget_tokens": 100000},
    messages=[{"role": "user", "content": "..."}],
)

移行前にチェックすべき 4 つの変更点

4.7 はそのまま差し替えれば動く、というモデルではありません。Anthropic が告知している API 上の変更点が 4 つあります。

指示追従がより文字どおりになった。 「JSON で返答せよ」と書けば、補足が欲しい場面でも本当に JSON しか返ってきません。4.6 が気を利かせて補足してくれることに依存していたプロンプトは見直しが必要です。

出力フォーマットの遵守が厳しくなった。 指定したフォーマットから 4.7 は逸脱しません。構造化出力パイプラインには嬉しい変化ですが、雑談的な用途では融通が利かないと感じる場面もあります。

プロンプトキャッシュのヒット率が一時的に下がる。 トークナイザ変更でキャッシュキー基になるトークン列が変わるため、移行直後はヒット率が落ちてコストが上振れします。1〜2 週間で再構築されますが、移行ウィンドウは予算に余裕を見ておきたいところです。

画像入力のトークン換算が変わる。 3.75MP 対応に伴って画像のトークン化方式も更新されたので、ハードコードしたトークン見積もりがある場合は再計算してください。

価格を周辺モデルと並べる

100 万トークンあたり $5 / $25。フロンティアモデルの中での位置づけはこうなります。

モデル入力 / 100 万出力 / 100 万SWE-bench Verified
Claude Opus 4.7$5.00(約 750 円)$25.00(約 3,750 円)87.6%
Claude Opus 4.6$5.00$25.0080.8%
GPT-5.4$2.50$15.00約 57.7%
Gemini 3.1 Pro$1.25$10.00約 54.2%
Claude Sonnet 4.6$3.00$15.0079.6%

価格は ofox.ai/models 2026 年 4 月時点。

ここで見直す価値があるのが Claude Sonnet 4.6 です。入出力ともに 40% 安く、SWE-bench Verified は 79.6%(Opus 4.7 比でわずか 8 ポイント差)。多くの本番ワークロードで、Opus 4.7 の上積み品質に Opus の価格を払う必然性はそれほど高くありません。Opus 4.7 が真価を発揮するのは、複数ファイルにまたがる複雑なリファクタリング、長時間自走する Agent、視覚処理が中心のワークフロー、といった一番難しいタスクです。

日本企業で Opus が一段強くなるシーンを挙げると、長文契約書(NDA、業務委託、英文ライセンス契約)の差分解析、月数千件規模の日本語サポートチケットの集約と要因分類、複雑な稟議書ドラフト作成と論理破綻チェックあたりは Sonnet では物足りなく感じる場面があります。逆に「全部 Opus」だと不必要にコストが膨らむので、Sonnet と Opus の使い分けはチーム単位で意思決定したほうがいい論点です。

アップグレード判断のチェックリスト

意思決定をフレームワーク化すると、こうなります。

今すぐ 4.7 に上げる

  • 視覚タスク(スクリーンショット解析、図表読み取り、PDF からの情報抽出)が含まれる
  • 新規プロジェクト or POC(4.6 で始める理由がない)
  • Claude Code を使っているチームで、xhigh のデフォルト挙動を本番でも揃えたい
  • コードベースが TypeScript/Python 中心ではなく、トークナイザ差分の影響が小さい

事前テストしてから移行する

  • 4.6 の挙動に合わせてプロンプトを長期間チューニングしてきた
  • プロンプトキャッシュでコストの大部分を圧縮している
  • Python / TypeScript のコードレビュー、コード生成が中心ワークロード
  • 月の API 費用が数万 USD(数百万円)規模で、10〜20% の上振れが経営判断レベル

当面 4.6 に留まる

  • コスト感度が高く、ベンチマーク差分が日々の品質に直結しない
  • 4.6 で十分な品質が出ていて、移行リスクと釣り合わない
  • 視覚処理を使っていない or 別モデルに振っている

事前テストはサンプル 50〜100 件を 4.6 と 4.7 の両方に通して、出力品質・トークン数・レイテンシを横並びで見れば十分です。統合プラットフォームを使っていれば model: の書き換えだけで両方を同じ API キーから叩けるので、A/B のセットアップが軽くて済みます。

Ofox 経由で 4.7 を使う

モデル ID は anthropic/claude-opus-4-7。OpenAI 互換エンドポイントから既存の OpenAI SDK をそのまま使えます。

from openai import OpenAI

client = OpenAI(
    base_url="https://api.ofox.ai/v1",
    api_key="your-ofox-key",
)

response = client.chat.completions.create(
    model="anthropic/claude-opus-4-7",
    messages=[{"role": "user", "content": "このコードをレビューして..."}],
)

thinking / xhigh を制御したい場合は Anthropic ネイティブエンドポイントへ。同じ API キーで両方使えます。

import anthropic

client = anthropic.Anthropic(
    base_url="https://api.ofox.ai/anthropic",
    api_key="your-ofox-key",
)

統合プラットフォーム経由なら、4.7 と 4.6、Sonnet 4.6 を同じインターフェースで切り替えながらテストできます。「移行する価値があるか」をワークロード単位で測るときに、複数アカウントを抱える必要がないのは地味に効きます。

結論

Opus 4.7 は、いま手に入る中で最も強力なコーディングモデルです。SWE-bench の数字は実体を伴い、視覚処理の改善幅は大きく、xhigh は 4.6 の既存設定よりも妥当なデフォルトです。

「価格据え置き」は技術的には正しく、実務的には少しミスリーディング。コード密度の高いワークロードでは実コストが 10〜20% 上がる前提で予算を組み、キャッシュヒット率の落ち込みを 1 週間ほど観察し、4.6 で作り込んだプロンプトはサンプルで挙動差分を確認してから本番に流す。この 3 点を踏まえれば、移行は十分管理可能です。新規プロジェクトは迷わず 4.7、既存の本番システムは 1〜2 週間かけて段階移行が現実解です。

Ofox を使えば、Anthropic と直接契約しなくても OpenAI SDK のまま anthropic/claude-opus-4-7 を呼べますし、thinking を使いたいときは Anthropic ネイティブ https://api.ofox.ai/anthropic に切り替えるだけ。4.6 と 4.7 の比較も同じ API キーから走らせられるので、移行判断のサイクルを短くしたいエンジニアには検討する価値があります。