Anthropicは本日2026年5月28日、Claude Opus 4.8をリリースしました。Opus 4.7からわずか41日後のことです。この新しいフラッグシップモデルは、コーディング、エージェントタスク、推論、ナレッジワークにわたる改善をもたらし、価格は前モデルと全く同じです。同日、AnthropicはシリーズHで650億ドルの資金調達を実施し、評価額が9650億ドルに達したことも発表し、正式にOpenAIを抜いて世界で最も価値のあるAI企業となりました。まさに1日で2つの歴史的マイルストーンを達成したことになります。
Opus 4.8について一つだけ読むなら、これです。これは「控えめだが確かな改善」(Anthropic自身の言葉)であり、エージェントコーディング、正直性、アライメントの3つを有意義に進化させると同時に、Claudeとの働き方を変える3つの新機能を導入しています。未リリースのClaude Mythosが約束するような飛躍的な進歩ではありませんが、Opus 4.7の実際の問題を修正し、自律的なAI作業にとって重要なベンチマークで新たな基準を打ち立てています。
重要なポイント
Claude Opus 4.8(API ID: claude-opus-4-8)は2026年5月28日に、変更のない価格(入力100万トークンあたり5ドル、出力100万トークンあたり25ドル)でリリースされました。SWE-Bench Proを64.3%から69.2%に改善し、OSWorld-Verifiedで83.4%をリードし、ナレッジワーク(GDPval-AA 1890)でGPT-5.5とGemini 3.1 Proを上回っています。コードの欠陥を指摘せずに見逃す可能性は約4分の1に低減されています。同時に3つの新機能がリリースされました:動的ワークフロー(Claude Codeでの並列サブエージェント)、エフォートコントロール(claude.aiおよびCowork)、Messages APIでのタスク中盤のシステムエントリです。高速モードは3倍安くなりました。
Claude Opus 4.8の新機能
主な改善点はエージェント能力、つまりツールを使用して多段階のタスクを自律的に進めるClaudeの能力です。初期のテスターは、判断力の向上、ツールの使い方の改善、長時間実行されるワークフローでの信頼性向上を報告しています。このモデルは適切な質問をし、自身のミスを発見し、計画が適切でない場合には異議を唱え、大きな変更を行う前に複雑な探索について確信を深めます。チャットボットとしてではなく自律エージェントとしてClaudeを使用している人にとって、これらは最も重要な改善点です。
2つ目の主要な改善点は正直性です。Anthropicはすべてのモデルに対して、裏付けのない主張を避けるよう学習させていますが、AIモデルには根強い問題があります。それは、証拠が乏しい場合でも自信を持って進捗を主張し、結論に飛びつくことです。Opus 4.8は、自身の作業に関する不確実性を指摘する可能性が高く、裏付けのない主張をする可能性が低くなっています。Anthropicの評価によると、Opus 4.7と比較して、自身が作成したコードの欠陥を指摘せずに見逃す可能性が約4分の1に低減されています。欠陥のある結果を無批判に報告するスコアが0%となった最初のClaudeモデルであり、過信が10分の1以上減少しています。
3つ目の改善点はアライメントです。Anthropicのアライメントチームは、Opus 4.8が「ユーザーの自律性のサポートやユーザーの最善の利益のために行動するといった向社会性の指標において、新たな高みに達している」と結論付けました。不整合な行動(欺瞞や悪用への協力)の発生率は、Opus 4.7よりも大幅に低く、Anthropicで最もアライメントが優れたモデルであるClaude Mythos Previewに近づいています。(評価の認識に関する懸念すべき注意点が1つあり、これについては正直性のパラドックスに関する詳細な分析で取り上げています。)
Claude Opus 4.8ベンチマーク:比較するとどうか?
AnthropicはOpus 4.8を前モデルおよび競合モデルと比較したベンチマークを公開しました。向上は漸進的ですが一貫しており、Opus 4.8はほとんどのエージェントテストとナレッジワークテストでリードしています。数値の内訳は次のとおりです。
| ベンチマーク | Opus 4.8 | Opus 4.7 | 測定内容 |
|---|---|---|---|
| SWE-Bench Pro | 69.2% | 64.3% | 実世界のエージェントコーディング |
| OSWorld-Verified | 83.4% | 82.3% | エージェントによるコンピュータ操作 |
| Online-Mind2Web | 84% | より低い | ブラウザエージェントタスク |
| GDPval-AA | 1890 | — | ナレッジワーク(GPT-5.5の1769を上回る) |
| ツールを使用した推論 | 57.9% | 54.7% | 学際的推論 |
| Terminal-Bench 2.1 | 74.6% | — | ターミナルコーディング(GPT-5.5が78.2%で勝利) |
率直な結論:Opus 4.8は、ほとんどのエージェント、コンピュータ操作、ナレッジワークのベンチマークでリードしており、GDPval-AAではGPT-5.5とGemini 3.1 Proの両方を大差で上回っています。しかし、完全勝利ではありません。GPT-5.5は依然としてTerminal-Bench 2.1(ターミナルを多用するコーディング)で勝利しており、Opus 4.8の74.6%に対して78.2%を獲得しています。あなたのワークフローが長時間のターミナルセッションで占められているなら、GPT-5.5は依然として競争力があります。完全な直接比較については、3モデルのベンチマーク比較をご覧ください。
Opus 4.8と共にリリースされる3つの新機能
Opus 4.8は単独でリリースされたわけではありません。Anthropicは同日、製品全体でClaudeとの対話方法を変える3つの機能を提供開始しました。
動的ワークフロー(Claude Code)。 Max、Team、Enterpriseプランでリサーチプレビューとして利用可能なこの機能により、Claudeは大規模なタスクを計画し、独立した角度から問題に取り組む数百の並列サブエージェントを派遣し、反証を見つけるために敵対的エージェントを展開し、回答が収束するまで反復し、報告前に出力を検証できます。主なユースケースは、数十万行のコードにわたるコードベース規模の移行であり、既存のテストスイートを基準として、開始からマージまで行います。これについては、動的ワークフローの解説で詳しく説明しています。
エフォートコントロール(claude.aiおよびCowork)。 モデルセレクターの隣にある新しいコントロールで、Claudeが応答に費やす労力を選択できます。より高い労力は、より良い応答のためにClaudeがより頻繁に深く考えることを意味し、より低い労力は、レート制限をよりゆっくりと消費する速い応答を意味します。これはすべてのプランで利用可能です。エフォートコントロールガイドでは、各設定をいつ使用するかを説明しています。
タスク中盤のシステムエントリ(Messages API)。 Messages APIがメッセージ配列内でシステムエントリを受け入れるようになり、開発者はプロンプトキャッシュを壊したり、ユーザーターンを経由したりすることなく、タスクの途中でClaudeの指示を更新できます。これは、実行中に権限、トークン予算、環境コンテキストを更新する必要があるエージェントにとって重要です。詳細はAPI変更の詳細をご覧ください。
価格と提供状況
Claude Opus 4.8は本日よりすべての場所で利用可能です。通常価格はOpus 4.7から変更なく、入力100万トークンあたり5ドル、出力100万トークンあたり25ドルです。高速モード(2.5倍速)は、入力100万トークンあたり10ドル、出力100万トークンあたり50ドルですが、注目すべきは、高速モードが以前のモデルと比較して3倍安くなったことです。開発者はClaude APIでclaude-opus-4-8を使用してモデルにアクセスし、opusエイリアスは自動的にこれにルーティングされるようになりました。Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry、GitHub Copilotで利用可能です(6月1日に使用量ベースの課金が開始されるまで、15倍のプレミアムリクエスト乗数が適用されます)。
アクセス方法に関わらず、Opus 4.8を最大限に活用するには、適切に構造化されたプロンプトが劇的に優れた結果をもたらします。無料のPrompt Optimizerは、指示を送信する前にシャープにし、TresPromptはワンクリックの最適化をClaude、ChatGPT、Geminiに直接もたらします。
次は何か:Claude Mythos
AnthropicはOpus 4.8の発表を利用して、今後の展開を予告しました。同社はOpusをさらに上回る知能を持つ新しいクラスのモデルをリリースする予定です。Project Glasswingの一環として、すでに少数の組織がサイバーセキュリティ作業にClaude Mythos Previewを使用しています。この能力レベルのモデルは、一般リリース前により強力なサイバーセーフガードが必要ですが、Anthropicは急速に進歩しており、「数週間以内に」Mythosクラスのモデルをすべての顧客に提供できると見込んでいると述べました。Opus 4.8のアライメントはすでにMythos Previewレベルに近づいており、これは今後の展開を示唆しています。詳しくはMythosタイムライン分析をお読みください。
よくある質問
Claude Opus 4.8 APIモデルIDは何ですか?
APIモデルIDはclaude-opus-4-8です。opusエイリアスは自動的にこれにルーティングされるようになったため、エイリアスを使用している既存の統合はアップグレードされます。100万トークンのコンテキストバリアントについては、claude-opus-4-8[1m]を使用してください。Claude API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundryで利用可能です。
Claude Opus 4.8の料金はいくらですか?
通常使用は、入力100万トークンあたり5ドル、出力100万トークンあたり25ドルで、Opus 4.7から変更ありません。高速モード(2.5倍速)は、入力100万トークンあたり10ドル、出力100万トークンあたり50ドルで、以前のモデルの高速モードと比較して3倍安くなっています。価格はすべてのクラウドプラットフォームで同一です。
Claude Opus 4.8はGPT-5.5よりも優れていますか?
タスクによります。Opus 4.8は、エージェントコーディング(SWE-Bench Pro)、コンピュータ操作(OSWorld 83.4%)、ブラウザタスク(Online-Mind2Web 84%)、ナレッジワーク(GDPval-AA 1890、GPT-5.5の1769に対して)でリードしています。しかし、GPT-5.5は依然としてターミナルを多用するコーディングにおいてTerminal-Bench 2.1で勝利しています(78.2% 対 74.6%)。ほとんどのエージェントタスクとナレッジワークではOpus 4.8が強力ですが、長時間のターミナルセッションではGPT-5.5が依然として競争力があります。
Opus 4.7から4.8にアップグレードすべきですか?
ほとんどのユーザーにとっては、イエスです。同じ価格でより優れたベンチマーク、劇的に改善された正直性、Opus 4.7のコメントの冗長性とツール呼び出しの問題が修正されています。opusエイリアスを使用している場合、アップグレードは自動です。躊躇する主な理由:ワークフローが4.7の動作に大きく調整されている場合、モデルの判断力と冗長性が変更されているため、プロンプトを再テストしてください。アップグレード判断ガイドをご覧ください。
Claude Opus 4.8の動的ワークフローとは何ですか?
動的ワークフローはClaude Codeの機能(リサーチプレビュー、Max/Team/Enterprise)であり、Claudeが大規模なタスクを計画し、1回のセッションで数百の並列サブエージェントを実行できるようにします。サブエージェントは独立した角度から問題に取り組み、敵対的エージェントが発見を反証しようとし、回答が収束するまでシステムが反復してから報告します。主なユースケースは、数十万行のコードにわたるコードベース規模の移行です。
開示:この記事の一部のリンクはアフィリエイトリンクです。当社は、個人的にテストし定期的に使用しているツールのみを推奨しています。詳細は開示ポリシー全文をご覧ください。