Claude Opus 4.7 は 4.6 より本当に良くなっていますか？

ベンチマーク上は明確に良くなっています。SWE-bench Verified は 80.8% から 87.6%、CursorBench は 58% から 70%、視覚精度は 54.5% から 98.5% まで改善しました。日本語の自然さについては、観察ベースでは 4.6 と大差ない印象ですが、長文を扱うときの一貫性は 4.7 のほうが安定しています。

価格は 4.6 と同じですか？

表示価格は同じです。入力 $5 / 100 万トークン、出力 $25 / 100 万トークン（1 USD = 150 円換算で入力約 750 円、出力約 3,750 円）。ただし新トークナイザが同じ内容を 1.0〜1.35 倍のトークン数に分割するため、コード中心のワークロードでは実請求額が 15〜35% 上がるケースがあります。

xhigh 思考レベルとは何ですか？

high と max の間に追加された新しい推論段階で、Claude Code のデフォルトになりました。1 リクエストあたり最大 10 万思考トークンを割り当てられるため、max ほどレイテンシを犠牲にせず、複雑な推論にじっくり取り組ませられます。多くのコーディングタスクで、品質とレイテンシのバランスが最も良いプリセットです。

Ofox 経由で Opus 4.7 を使うにはどうすればよいですか？

モデル ID は `anthropic/claude-opus-4-7` です。OpenAI 互換エンドポイント `https://api.ofox.ai/v1` で既存の OpenAI SDK のまま呼び出せますし、`thinking` パラメータを使いたい場合は Anthropic ネイティブ `https://api.ofox.ai/anthropic` も同じ API キーで利用できます。Anthropic と直接契約する必要はありません。

本番運用中の 4.6 をすぐに 4.7 へ切り替えるべきですか？

新規プロジェクトなら迷わず 4.7 で始めて構いません。既存システムは事前にサンプルテストを推奨します。4.6 の挙動に合わせて作り込んだプロンプトは、より文字どおり指示に従う 4.7 では振る舞いが変わる可能性があります。プロンプトキャッシュを使っている場合はヒット率も一時的に下がるので、移行は 1〜2 週間かけて段階的に行うのが安全です。

Claude Opus 4.7 API レビュー — 4.6 からのアップグレード判断基準

TL;DR — Opus 4.7 は本物のアップグレードです。SWE-bench Verified 87.6%（4.6 比 +6.8pp）、視覚精度はおよそ 3 倍、Claude Code のデフォルトになった新しい xhigh 思考レベル。ただし新トークナイザのせいで同じプロンプトの実トークン数が 1.0〜1.35 倍に増えるので、表示価格は据え置きでも実請求額は上がります。多くのチームには十分割に合いますが、本番投入前にサンプルテストはしておくべきです。

Anthropic がリリースしたもの

Claude Opus 4.7 は 2026 年 4 月 16 日に公開され、3 週間ほど経った今、主要 API プラットフォームでは Opus のデフォルトが 4.7 に切り替わっています（ofox.ai も同様）。

ベンチマーク	Opus 4.6	Opus 4.7	変化
SWE-bench Verified	80.8%	87.6%	+6.8pp
SWE-bench Pro	53.4%	64.3%	+10.9pp
CursorBench	58%	70%	+12pp
視覚精度	54.5%	98.5%	+44pp
最大画像解像度	約 1MP	3.75MP	約 3.75 倍

特に視覚処理の改善が顕著です。4.6 はスクリーンショットや図表、密度の高いダッシュボードの読み取りに難があり、画像タスクを GPT-5.4 や Gemini 3.1 Pro に逃がしていたチームも多かったはずです。4.7 ならその回避策はもう要りません。3.75 メガピクセルまでそのまま投げ込めます。

コーディングについては、SWE-bench Pro の 64.3% は GPT-5.4（57.7%）と Gemini 3.1 Pro（54.2%）を明確に上回ります。SWE-bench Pro は実際の GitHub Issue を解かせるベンチマークなので、合成タスクより現場感のある数字です。

トークナイザが地味に効く

4.7 は新トークナイザを採用しました。Anthropic の移行ガイドによれば、同じ内容に対して 4.6 比でおおむね 1.0〜1.35 倍のトークン数になります。

自然言語の文章: 約 1.0〜1.05 倍（ほぼ無視できる）
コードと文章が混在するプロンプト: 約 1.1〜1.2 倍
コード密度の高い入出力（特に Python や TypeScript）: 約 1.2〜1.35 倍

表示価格は据え置きで入力 $5 / 出力 $25 per 100 万トークン（1 USD = 150 円換算で入力約 750 円、出力約 3,750 円）。コードレビュー基盤に月 $2,000（約 30 万円）使っていたチームなら、同じ処理量で 4.7 に移行すると $2,200〜$2,700（約 33〜40.5 万円）を見込んでおくのが現実的です。性能向上ぶんで十分元は取れる範囲ですが、月次の請求書で驚かないよう経理にも先に共有しておくとよいでしょう。

xhigh 思考レベル

4.7 では推論段階に xhigh が追加され、これが Claude Code の新しいデフォルトになりました。

high: 思考トークン少なめ、高速
xhigh: 最大 10 万思考トークン、深さとレイテンシのバランス型
max: 思考無制限、最遅・最高コスト

多くのコーディングタスクでは xhigh が正解です。max ほどレイテンシを犠牲にせず、high より明らかに思考の余裕がある。API 直叩きで Claude Code と同じ挙動を再現したい場合はこう指定します。

import anthropic

client = anthropic.Anthropic(
    base_url="https://api.ofox.ai/anthropic",
    api_key="your-ofox-key",
)

response = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=8192,
    thinking={"type": "enabled", "budget_tokens": 100000},
    messages=[{"role": "user", "content": "..."}],
)

移行前にチェックすべき 4 つの変更点

4.7 はそのまま差し替えれば動く、というモデルではありません。Anthropic が告知している API 上の変更点が 4 つあります。

指示追従がより文字どおりになった。 「JSON で返答せよ」と書けば、補足が欲しい場面でも本当に JSON しか返ってきません。4.6 が気を利かせて補足してくれることに依存していたプロンプトは見直しが必要です。

出力フォーマットの遵守が厳しくなった。 指定したフォーマットから 4.7 は逸脱しません。構造化出力パイプラインには嬉しい変化ですが、雑談的な用途では融通が利かないと感じる場面もあります。

プロンプトキャッシュのヒット率が一時的に下がる。 トークナイザ変更でキャッシュキー基になるトークン列が変わるため、移行直後はヒット率が落ちてコストが上振れします。1〜2 週間で再構築されますが、移行ウィンドウは予算に余裕を見ておきたいところです。

画像入力のトークン換算が変わる。 3.75MP 対応に伴って画像のトークン化方式も更新されたので、ハードコードしたトークン見積もりがある場合は再計算してください。

価格を周辺モデルと並べる

100 万トークンあたり $5 / $25。フロンティアモデルの中での位置づけはこうなります。

モデル	入力 / 100 万	出力 / 100 万	SWE-bench Verified
Claude Opus 4.7	$5.00（約 750 円）	$25.00（約 3,750 円）	87.6%
Claude Opus 4.6	$5.00	$25.00	80.8%
GPT-5.4	$2.50	$15.00	約 57.7%
Gemini 3.1 Pro	$1.25	$10.00	約 54.2%
Claude Sonnet 4.6	$3.00	$15.00	79.6%

価格は ofox.ai/models 2026 年 4 月時点。

ここで見直す価値があるのが Claude Sonnet 4.6 です。入出力ともに 40% 安く、SWE-bench Verified は 79.6%（Opus 4.7 比でわずか 8 ポイント差）。多くの本番ワークロードで、Opus 4.7 の上積み品質に Opus の価格を払う必然性はそれほど高くありません。Opus 4.7 が真価を発揮するのは、複数ファイルにまたがる複雑なリファクタリング、長時間自走する Agent、視覚処理が中心のワークフロー、といった一番難しいタスクです。

日本企業で Opus が一段強くなるシーンを挙げると、長文契約書（NDA、業務委託、英文ライセンス契約）の差分解析、月数千件規模の日本語サポートチケットの集約と要因分類、複雑な稟議書ドラフト作成と論理破綻チェックあたりは Sonnet では物足りなく感じる場面があります。逆に「全部 Opus」だと不必要にコストが膨らむので、Sonnet と Opus の使い分けはチーム単位で意思決定したほうがいい論点です。

アップグレード判断のチェックリスト

意思決定をフレームワーク化すると、こうなります。

今すぐ 4.7 に上げる

視覚タスク（スクリーンショット解析、図表読み取り、PDF からの情報抽出）が含まれる
新規プロジェクト or POC（4.6 で始める理由がない）
Claude Code を使っているチームで、xhigh のデフォルト挙動を本番でも揃えたい
コードベースが TypeScript/Python 中心ではなく、トークナイザ差分の影響が小さい

事前テストしてから移行する

4.6 の挙動に合わせてプロンプトを長期間チューニングしてきた
プロンプトキャッシュでコストの大部分を圧縮している
Python / TypeScript のコードレビュー、コード生成が中心ワークロード
月の API 費用が数万 USD（数百万円）規模で、10〜20% の上振れが経営判断レベル

当面 4.6 に留まる

コスト感度が高く、ベンチマーク差分が日々の品質に直結しない
4.6 で十分な品質が出ていて、移行リスクと釣り合わない
視覚処理を使っていない or 別モデルに振っている

事前テストはサンプル 50〜100 件を 4.6 と 4.7 の両方に通して、出力品質・トークン数・レイテンシを横並びで見れば十分です。統合プラットフォームを使っていれば model: の書き換えだけで両方を同じ API キーから叩けるので、A/B のセットアップが軽くて済みます。

Ofox 経由で 4.7 を使う

モデル ID は anthropic/claude-opus-4-7。OpenAI 互換エンドポイントから既存の OpenAI SDK をそのまま使えます。

from openai import OpenAI

client = OpenAI(
    base_url="https://api.ofox.ai/v1",
    api_key="your-ofox-key",
)

response = client.chat.completions.create(
    model="anthropic/claude-opus-4-7",
    messages=[{"role": "user", "content": "このコードをレビューして..."}],
)

thinking / xhigh を制御したい場合は Anthropic ネイティブエンドポイントへ。同じ API キーで両方使えます。

import anthropic

client = anthropic.Anthropic(
    base_url="https://api.ofox.ai/anthropic",
    api_key="your-ofox-key",
)

統合プラットフォーム経由なら、4.7 と 4.6、Sonnet 4.6 を同じインターフェースで切り替えながらテストできます。「移行する価値があるか」をワークロード単位で測るときに、複数アカウントを抱える必要がないのは地味に効きます。

結論

Opus 4.7 は、いま手に入る中で最も強力なコーディングモデルです。SWE-bench の数字は実体を伴い、視覚処理の改善幅は大きく、xhigh は 4.6 の既存設定よりも妥当なデフォルトです。

「価格据え置き」は技術的には正しく、実務的には少しミスリーディング。コード密度の高いワークロードでは実コストが 10〜20% 上がる前提で予算を組み、キャッシュヒット率の落ち込みを 1 週間ほど観察し、4.6 で作り込んだプロンプトはサンプルで挙動差分を確認してから本番に流す。この 3 点を踏まえれば、移行は十分管理可能です。新規プロジェクトは迷わず 4.7、既存の本番システムは 1〜2 週間かけて段階移行が現実解です。

Ofox を使えば、Anthropic と直接契約しなくても OpenAI SDK のまま anthropic/claude-opus-4-7 を呼べますし、thinking を使いたいときは Anthropic ネイティブ https://api.ofox.ai/anthropic に切り替えるだけ。4.6 と 4.7 の比較も同じ API キーから走らせられるので、移行判断のサイクルを短くしたいエンジニアには検討する価値があります。

Anthropic がリリースしたもの

トークナイザが地味に効く

xhigh 思考レベル

移行前にチェックすべき 4 つの変更点

価格を周辺モデルと並べる

アップグレード判断のチェックリスト

Ofox 経由で 4.7 を使う

結論

関連記事

Claude Opus 4.8 登場：ベンチマーク、Fast Mode、本当に変わった点

GLM-5.2 vs GPT-5.5 のコスト比較：10K/100K/1M リクエスト/日のトークン単価試算（2026年）

GLM 5.2 アクセスガイド：料金、API セットアップ、MIT 重み公開計画（2026 年版）