Claude Opus 4.7徹底解説｜新機能・移行・ベンチマーク・利用時のプラクティス

要約

Claude Opus 4.7 は 2026 年 4 月 16 日に Anthropic が一般提供を開始した最上位モデルであり、SWE-bench Pro 64.3%・CursorBench 70% など 14 指標中 12 で首位を記録した。本記事では、Opus 4.6 から何が変わったかを押さえた上で、主要な新機能（高解像度画像・xhigh effort・Claude Code 新機能群）、ベンチマーク上の強みと弱点、そして実務で最も効く Claude Code プラクティス 4 つまでを体系的に解説する。

対象読者: Anthropic API・Claude Code・Claude Managed Agents を利用する開発者、AI エージェント基盤を設計しているエンジニア、Opus 4.6 からの切り替えを検討しているテックリード

検証環境: Claude Opus 4.7（モデル ID: claude-opus-4-7、2026 年 4 月時点）

この記事を読むことで得られるメリット

この記事を読むことで以下のことが分かる:

Claude Opus 4.7 で Opus 4.6 から変わった点（知能面の 3 改善・運用面の 2 拡張）の全体像
主要な新機能（高解像度画像 3.75MP、xhigh effort、Claude Code の 4 つの新機能）の使いどころ
ベンチマーク上の強み（SWE-bench Pro / CursorBench / OfficeQA）と弱点（BrowseComp / Terminal-Bench）の使い分け指針
実務で効く Claude Code プラクティス 4 つ（検証手段の付与・プロンプト設計・委任姿勢・トークン挙動制御）

この記事を読むのにかかる時間

約 15 分

環境

MacOS Apple M4 Max Sequoia 15.1
Claude Opus 4.7（API モデル ID: claude-opus-4-7）
Claude Code（Opus 4.7 同時リリース版）
Anthropic Python SDK（anthropic パッケージ）

概要｜Claude Opus 4.6 から何が変わったのか

Claude Opus 4.7 は、公式ドキュメント上で「現時点で一般提供されている Anthropic の最も高性能なモデル」と位置づけられている（Anthropic「What's new in Claude Opus 4.7」）。Opus 4.6 からの変化は、知能面の 3 つの底上げと運用・プラン面の 2 つの拡張に整理できる。

知能の底上げ（3 つの改善点）

コーディング・エージェント能力の大幅向上 — SWE-bench Pro で 64.3%（Opus 4.6 比 +10.9pt）、CursorBench で 70%（同 +12pt）を記録。エンタープライズ相当のバグ修正を模した Rakuten-SWE-Bench では解決タスク数が約 3 倍になっている（Vellum AI「Claude Opus 4.7 Benchmarks Explained」）
指示遵守能力の大幅強化 — ここは実務で最も影響が大きい変化である。Opus 4.6 は指示を緩く解釈する傾向があったが、Opus 4.7 は指示を文字通りに解釈する。そのぶん、プロンプトの書き方を見直す必要がある（詳細は「Claude Code プラクティス」章）
画像認識と読み取り能力の強化 — 長辺 2576px・3.75MP までの高解像度画像を Claude シリーズで初めてサポート（Anthropic「High-resolution image support」）

運用・プランの拡張（2 つのアップデート）

新しいエフォートレベル xhigh の追加 — low / medium / high / max の 4 段階に xhigh が加わった。コーディング・エージェント用途ではこの xhigh がデフォルト推奨である。併せて task_budgets（ベータ）も追加され、エージェントループ全体のソフト上限を指定できるようになった
Auto mode の Max プラン提供開始 — これまで Claude Code の Auto mode は Team / Enterprise / API 経由でしか使えなかったが、Opus 4.7 と同時に Max プランにも展開された。ただし Pro プランは引き続き対象外なので注意が必要である

基本スペックと料金体系

公式の仕様・料金は Anthropic「Models overview」に記載されている。

項目	値
API モデル ID	`claude-opus-4-7`
発表日	2026 年 4 月 16 日
コンテキストウィンドウ	1M トークン
最大出力トークン	128k（Batch API + ベータヘッダで最大 300k）
入力単価	$5 / 100 万トークン
出力単価	$25 / 100 万トークン

Opus 4.6 と比較して 表面の per-token 単価は完全に同一である。ただし新トークナイザーの影響で同一テキストのトークン消費が 1.0〜1.35 倍に増えるため、実効コストの再ベンチマークが推奨される（詳細は「プラクティス 4」参照）。

ラインナップ内の位置づけと Claude Mythos Preview

Anthropic は現在 3 ティア構成のモデルを提供しており、Opus 4.7 はその最上位に位置する。

モデル	位置づけ	Context	入力/出力
Claude Opus 4.7	最も高性能な GA モデル	1M	$5 / $25
Claude Sonnet 4.6	速度と知性のバランス	1M	$3 / $15
Claude Haiku 4.5	最速・コスト最優先	200k	$1 / $5

ここで気になる存在が Claude Mythos Preview である。Project Glasswing の中核として、Apple・Google・AWS・Microsoft・NVIDIA など わずか 12 組織にのみ配布されている非公開のフロンティアモデルで、SWE-bench Pro で 77.8% と Opus 4.7 を 13pt 以上上回る（Anthropic「Project Glasswing」、Axios）。ゼロデイ脆弱性の発見レベルの能力を持つため、広範なリリースは意図的に控えられている。一般の開発者が触れる GA 最上位は Opus 4.7 であり、Mythos は「存在するがまだ届かない上限値」として把握しておけばよい。

Claude Opus 4.7 の主要な新機能

高解像度画像サポート（2576px / 3.75MP）

入力画像の上限が、長辺 1568px・1.15MP から 2576px・3.75MP に拡張された（Anthropic「Images and vision」）。面積比で約 3.3 倍の情報量になり、ディスプレイで例えると Full HD 未満から 2K（QHD）相当への進化に近い。スマホのスクリーンショットの細部まで読める解像度になり、これまで縮小しないと使えなかった画像もそのまま渡せる。

さらに、画像座標が実ピクセルと 1:1 対応になった。bounding box などの座標変換が不要になり、実装負荷が大きく減る。

実務でのメリットは 3 つある。

ブラウザ自動化 — Playwright などでスクリーンショットを介した操作判断や要素特定の精度が向上する
Web フロントエンド開発 — 画面キャプチャを渡しての実装レビューやデザイン差分チェックの精度が上がる
プレゼンスライドの作成や校正 — レイアウトや図表の読み取り精度が上がり、生成品質が底上げされる

ただし 2000×1500px の画像で約 4,000 トークンと、従来の最大 1,568 トークンから最大約 3 倍のトークンを消費する。不要な高解像度ならアップロード前にダウンサンプリングするとよい。

新しい `xhigh` effort レベル

effort は Claude にどれくらい「頑張って」考えてもらうかを指定するパラメータで、Opus 4.7 向けに xhigh が追加された（Anthropic「Effort」）。

レベル	推奨用途
`low` / `medium`	コスト・レイテンシ重視の短い作業
`high`	知能とコストのバランス、並行セッション
`xhigh`	ほとんどのコーディング・エージェントの開始点（デフォルト推奨）
`max`	本当に難しい問題だけに使う最上位。過剰思考に陥りやすい

使い分けの基本方針は「ほとんどのタスクは xhigh、最も難しいタスクだけ max」である。また、max は現在のセッションにだけ適用される一時的な切り替えだが、それ以外のエフォートレベルは次のセッションでも維持される永続的な設定である点を覚えておくとよい。xhigh / max 利用時には max_tokens を最低 64k に設定することが公式で推奨されている。

Opus 4.7 と同時リリースの Claude Code 機能

Opus 4.7 と同時に、Claude Code には実務で便利な 4 つの機能が追加された。

Auto mode の Max プラン拡張 — Shift + Tab でトグルできる権限モードで、低リスクな判断を Claude に委任できる。事前にコンテキストを与えた上での長時間タスクに最適。Max プランで解禁されたのが今回の大きな変化（Pro プランは対象外）
/ultrareview — シニアエンジニア相当の多パス・コードレビューを実行する。構文エラー・設計欠陥・ロジックギャップを複数パスで検出。Pro / Max ユーザーには無料実行枠 3 回が付与された（Anthropic「Introducing Claude Opus 4.7」）
/fewer-permission-prompts — セッション履歴から頻繁に使う安全な bash / MCP コマンドを洗い出し、allowlist への追加候補を提案する。許可プロンプトを減らして作業効率を上げるための機能
Recap — エージェントが「これまでやったこと」と「次にやること」を短く要約する。長時間タスクから復帰したときの状況把握が速くなる

特に Auto mode の Max プラン解禁はインパクトが大きい。長時間タスクの委任を前提に、運用を再設計する好機である。

能力改善とベンチマーク｜14 指標中 12 で首位

能力改善の 3 つの柱

Opus 4.7 の能力改善は、Coding / Knowledge Work / Vision の 3 つの柱で整理できる。

Coding（コーディング）: Anthropic の内部タスク 93 本で Opus 4.6 比 13% 改善。Rakuten-SWE-Bench では解決タスク数が約 3 倍になっている。注目すべきは、self-verification（自己検証）を組み込んだ最初のモデルである点だ。自分で出力した結果を自分で検証する仕組みを内蔵しており、これが長時間タスクの信頼性を大きく押し上げている（The Next Web）。

Knowledge Work（知識労働）: .docx の redlining（赤入れ校正）や .pptx の編集について自己検証が行われるようになり、PIL 経由で図表のピクセル単位の転写もできる。公式は「『レイアウトを確認せよ』といった足場指示は除去して、ベースラインを取り直すこと」を推奨しているため、既存プロンプトの見直しが効果的である。

Vision（画像理解）: 視覚鋭度を測る XBOW で 98.5%（Opus 4.6: 54.5%）と、ほぼ倍近い改善。図表からの推論を測る CharXiv Reasoning でも 82.1%（同 69.1%）と劇的な伸びを示している。

主要ベンチマーク横断比較

Opus 4.7 は 14 指標中 12 で首位を記録している（Vellum AI、OfficeChai）。

ベンチマーク	Opus 4.7	Opus 4.6	GPT-5.4	Gemini 3.1 Pro
SWE-bench Pro	64.3%	53.4%	57.7%	54.2%
SWE-bench Verified	87.6%	80.8%	—	80.6%
CursorBench	70%	58%	—	—
Terminal-Bench 2.0	69.4%	65.4%	75.1%	68.5%
OfficeQA Pro	80.6%	57.1%	51.1%	42.9%
CharXiv Reasoning	82.1%	69.1%	—	—
GDPval-AA (Elo)	1,753	—	1,674	1,314
BrowseComp	79.3%	83.7%	89.3%	85.9%
GPQA Diamond	94.2%	91.3%	94.4%	94.3%

強い領域: SWE-bench Pro / CursorBench / OfficeQA Pro / GDPval-AA では他社を大きく引き離している。弱い領域: Web ブラウジングを測る BrowseComp は Opus 4.6 から 4.4pt 低下しており、GPT-5.4 や Gemini 3.1 Pro に水をあけられている。ターミナル操作の Terminal-Bench 2.0 でも GPT-5.4 が首位である。

つまり Opus 4.7 は万能ではない。Web 調査中心・ターミナル操作中心のワークフローでは、Opus 4.6 や GPT-5.4 の方が上回るケースが残る。用途に応じて使い分けるのが賢い選択である。

Claude Code プラクティス｜実務で最も効く 4 つのポイント

ここからが本記事の核である。Opus 4.7 を Claude Code で使うにあたって、実務で最も差が出る 4 つのプラクティスを順に見ていく。

プラクティス 1：Claude に検証手段を与えるだけで成果が 2〜3 倍

Anthropic の Boris Cherny 氏は、Opus 4.7 におけるプラクティスの核心を次のように語っている。

Claude に自分の仕事を検証する方法を与えること。これが Claude から 2 倍から 3 倍の成果を引き出す唯一の方法であり、4.7 ではこれまで以上に重要だ。

Opus 4.7 は self-verification を内蔵した最初のモデルであり、検証手段が渡されているかどうかで出力品質が大きく変わる。具体的な検証手段の例は 4 つある。

Backend — 自動テスト、リンター、サーバ起動、API レスポンスの検証などを渡す
Frontend — Chromium の拡張機能や Playwright を使ってブラウザの動作確認をさせる
Desktop / GUI — Computer use を使って、実際の画面操作を検証させる
ドキュメント — スキーマや仕様との突合チェックを渡す

要点は、Claude 自身が「正しくできたか」を確認できる仕組みを必ず渡すこと。これだけで成果が数倍変わる、という話である。従来の開発フローでは人間が検証していた部分を、Claude 自身が検証できるように環境を整えるのが最優先事項になる。

プラクティス 2：プロンプト設計の見直しポイント

Opus 4.7 の最大の性格変化は「指示を文字通りに解釈する」点である。Opus 4.6 の緩い解釈に最適化されていたプロンプトは、そのままでは機能しないケースが出てくる。見直すべき観点は 4 つある。

(1) 否定形より肯定例を使う

「これはしないで」という書き方より、「こうあってほしい」という望ましい例を示す方が効果的である。Opus 4.7 は指示を文字通りに受け取るため、肯定例のほうが期待動作を正確に伝えやすい。

(2) ツール使用を明示指定する

Opus 4.7 はデフォルトでツール呼び出しが減り、推論重視に振れる傾向がある。検索やファイル読み込みを積極的に使わせたい場合は、その旨をガイダンスに明記する必要がある。「利用可能なツールを優先的に使うこと」などの一文を追加する。

(3) サブエージェントも明示指定する

サブエージェントの生成判断が Opus 4.6 より慎重になっている。並列で動かしたい場合は「同じターンで複数のサブエージェントを生成してほしい」と明記するとよい。

(4) 応答長をタスクの複雑度に追従させる

Opus 4.7 は固定の verbosity ではなく、タスク複雑度に応じて応答長を動的に調整する。4.6 ほど冗長には書かない。期待するスタイルや長さは明示的に指定する必要がある。「必ず 3 段落で」「必ず要約形式で」のように固定したい場合はプロンプトに書く。

プラクティス 3：ペアプログラマーではなく有能なエンジニアとして委任する

Opus 4.7 では、Claude への接し方を大きく転換すべきである。1 行ずつ指示するペアプログラマーとして扱うのではなく、仕事を委任する有能なエンジニアとして扱う方が効果的になる。Anthropic の公式ベストプラクティスでも強調されている考え方である。

具体的なポイントは 3 つ。

最初のターンで全部渡す — 意図、制約、受入基準、関連ファイルを 1 ターン目で可能な限り具体化して渡す。曖昧な指示を複数ターンに分けて段階的に与えると、トークン効率も品質も下がる
対話回数を減らす — ユーザー操作が入るたびに推論のオーバーヘッドが増える。質問はまとめて渡し、モデルが処理を継続できるだけのコンテキストを先に渡すのがコツ
長期タスクで真価を発揮する — Opus 4.7 はセッション間のコンテキスト引き継ぎが強化されている。複雑な複数ファイル変更、曖昧な状況でのデバッグ、サービス全体のレビューなど、これまで人間の監視がボトルネックになっていたタスクに特に向いている

Auto mode が Max プランで解禁されたことも合わせると、「長時間タスクを Claude に任せて、人間は要件定義と受入確認に専念する」運用モデルがより現実的になった。

プラクティス 4：トークン消費と適応型思考の挙動変化

ここは見落とすとコストが合わなくなる重要ポイントである。

(1) 同じ入力でもトークンが増える

Opus 4.7 では新しいトークナイザーが導入されており、コンテンツの種類によって 約 1.0 倍〜1.35 倍のトークン増が見込まれる。Opus 4.6 時代のコスト試算はそのままでは当てにならない。必ず再ベンチマークすることが必要である。Finout の試算では、日次 1M 入力 / 200K 出力のコーディングエージェントで月額 $300 → $405 のケースが示されている（Finout「Claude Opus 4.7 Pricing」）。

(2) 長時間セッションで思考が深まる挙動

特にエージェント設定の後半ターンで、エフォートレベルを自分で引き上げる傾向がある。難タスクの信頼性は向上するが、そのぶん出力トークンも増える点を考慮しておきたい。

(3) 適応型思考（Adaptive thinking）という仕組み

拡張思考の固定思考予算（budget_tokens による「この予算内で考えて」の指定）には対応していない。Claude がステップごとに思考の必要性を判断し、単純なクエリでは思考をスキップする。そのおかげで、考えすぎにも陥りにくい設計になっている（Anthropic「Adaptive thinking」）。

(4) プロンプトによる思考深度の制御テクニック

思考の深度は、プロンプト 1 行で明示的に制御できる。

より深く考えさせたいとき: 「答える前に、慎重に段階的に考えてください」
速く応答させたいとき: 「深く考えるより素早く反応を優先してください。迷ったら直接反応してください」

このあたりは 1 行入れるだけで挙動が変わるので、タスクの性質に応じて使い分けるとよい。

なお Messages API 直接利用者には thinking パラメータの仕様変更（extended thinking budgets の廃止、{type: "adaptive"} への移行）や sampling parameters の廃止など、いくつかの破壊的変更がある。詳細は Anthropic「Migration guide」を参照するか、Claude Code に同梱される claude-api 移行スキルを使うと自動移行できる。Claude Managed Agents 利用者はモデル名の更新のみで移行が完了する。

まとめ｜今日から変えるべき運用ポイント

Claude Opus 4.7 は、コーディング・エージェント用途で業界トップ水準に復帰した Anthropic 最新の主力モデルである。本記事の要点を 4 つに整理する。

1. Auto mode が Max プランへ拡張された

Shift + Tab でトグルでき、低リスク判断を Claude に委任できる。同時に /ultrareview、Recap、/fewer-permission-prompts、API 側では高解像度画像 2576px 対応、新エフォートレベル xhigh もリリースされている。

2. Opus 4.7 は「エージェント運用を前提とした」アップデート

self-verification を内蔵した最初のモデルで、指示を文字通りに解釈する。長時間タスクでも深く考え続けられる「委任できるエンジニア」、これが Opus 4.7 のキャラクターである。

3. ベンチマークは広範に首位、ただし万能ではない

SWE-bench Pro 64.3%（Opus 4.6 比 +10.9pt）、CursorBench 70%、Vision の XBOW で 98.5% と激変している。一方で BrowseComp など Opus 4.6 のほうが優るケースもある。用途に応じて使い分けるのが賢い選択である。

4. 今日から変えるべき運用ポイント

肯定例ベースのプロンプトへ見直す
最初のターンで意図・制約・受入基準を渡す（ペアプロから委任へのシフト）
検証手段を必ず与える（これだけで成果が 2〜3 倍になる）
effort: xhigh を起点にする
新トークナイザーを前提にコストを再計測する

まずは Claude Managed Agents ならモデル名を claude-opus-4-7 に切り替え、Messages API 直接利用なら claude-api 移行スキルで既存コードを自動更新した上で、本記事の 4 プラクティスを順に実装していくとよい

>

Claude Opus 4.7徹底解説｜新機能・移行・ベンチマーク・利用時のプラクティス

INDEX

要約

この記事を読むことで得られるメリット

この記事を読むのにかかる時間

環境