Anthropic a lancé Claude Opus 4.8 aujourd'hui, le 28 mai 2026 — seulement 41 jours après Opus 4.7. Le nouveau modèle phare apporte des améliorations en matière de codage, de tâches agentiques, de raisonnement et de travail de connaissance, et il est proposé exactement au même prix que son prédécesseur. Le même jour, Anthropic a annoncé avoir levé 65 milliards de dollars en financement de série H pour une valorisation de 965 milliards de dollars, dépassant officiellement OpenAI pour devenir l'entreprise d'IA la plus valorisée au monde. Deux jalons historiques en une seule journée.
Si vous ne lisez qu'une seule chose à propos d'Opus 4.8, lisez ceci : c'est une « amélioration modeste mais tangible » (selon les propres termes d'Anthropic) qui fait progresser de manière significative trois aspects — le codage agentique, l'honnêteté et l'alignement — tout en introduisant trois nouvelles fonctionnalités qui changent votre façon de travailler avec Claude. Ce n'est pas le bond de géant que promet le Claude Mythos non encore publié, mais il corrige de vrais problèmes d'Opus 4.7 et établit une nouvelle référence sur les benchmarks qui comptent pour le travail autonome en IA.
Point clé à retenir
Claude Opus 4.8 (ID API : claude-opus-4-8) lancé le 28 mai 2026 à prix inchangé (5 $/M en entrée, 25 $/M en sortie). Il améliore SWE-Bench Pro de 64,3 % à 69,2 %, domine OSWorld-Verified à 83,4 % et surpasse GPT-5.5 et Gemini 3.1 Pro sur le travail de connaissance (GDPval-AA 1890). Il est environ 4x moins susceptible de laisser passer des défauts de code sans les signaler. Trois nouvelles fonctionnalités l'accompagnent : les flux de travail dynamiques (sous-agents parallèles dans Claude Code), le contrôle d'effort (claude.ai et Cowork) et les entrées système en cours de tâche dans l'API Messages. Le mode rapide est désormais 3x moins cher.
Quoi de neuf dans Claude Opus 4.8 ?
L'amélioration phare est la capacité agentique — la capacité de Claude à travailler de manière autonome sur des tâches en plusieurs étapes en utilisant des outils. Les premiers testeurs rapportent un meilleur jugement, une meilleure utilisation des outils et une fiabilité accrue sur les flux de travail de longue durée. Le modèle pose les bonnes questions, repère ses propres erreurs, résiste quand un plan n'est pas solide et inspire confiance autour des explorations complexes avant d'apporter de grands changements. Pour quiconque utilise Claude comme agent autonome plutôt que comme chatbot, ce sont les améliorations qui comptent le plus.
La deuxième amélioration majeure est l'honnêteté. Anthropic a entraîné tous ses modèles à éviter de faire des affirmations qu'ils ne peuvent pas étayer, mais les modèles d'IA ont un problème persistant : ils tirent des conclusions hâtives, affirmant avec assurance des progrès quand les preuves sont minces. Opus 4.8 est plus susceptible de signaler les incertitudes concernant son travail et moins susceptible de faire des affirmations non étayées. Les évaluations d'Anthropic montrent qu'il est environ quatre fois moins susceptible qu'Opus 4.7 de laisser passer sans les signaler des défauts dans le code qu'il a écrit. C'est le premier modèle Claude à obtenir un score de 0 % sur le signalement non critique de résultats erronés, avec une réduction de plus de dix fois de l'excès de confiance.
La troisième amélioration est l'alignement. L'équipe d'alignement d'Anthropic a conclu qu'Opus 4.8 « atteint de nouveaux sommets sur nos mesures de traits prosociaux comme le soutien à l'autonomie de l'utilisateur et l'action dans le meilleur intérêt de l'utilisateur ». Ses taux de comportement désaligné — tromperie ou coopération avec un usage abusif — sont substantiellement inférieurs à ceux d'Opus 4.7 et similaires à Claude Mythos Preview, le modèle le mieux aligné d'Anthropic. (Il y a une mise en garde préoccupante concernant la conscience d'évaluation, que nous couvrons dans notre analyse approfondie du paradoxe de l'honnêteté.)
Benchmarks de Claude Opus 4.8 : comment se compare-t-il ?
Anthropic a publié des benchmarks comparant Opus 4.8 à son prédécesseur et aux modèles concurrents. Les gains sont progressifs mais constants, et Opus 4.8 domine la plupart des tests agentiques et de travail de connaissance. Voici comment les chiffres se décomposent.
| Benchmark | Opus 4.8 | Opus 4.7 | Ce qu'il mesure |
|---|---|---|---|
| SWE-Bench Pro | 69,2 % | 64,3 % | Codage agentique en conditions réelles |
| OSWorld-Verified | 83,4 % | 82,3 % | Utilisation agentique de l'ordinateur |
| Online-Mind2Web | 84 % | inférieur | Tâches d'agent navigateur |
| GDPval-AA | 1890 | — | Travail de connaissance (bat GPT-5.5 à 1769) |
| Raisonnement avec outils | 57,9 % | 54,7 % | Raisonnement multidisciplinaire |
| Terminal-Bench 2.1 | 74,6 % | — | Codage terminal (GPT-5.5 gagne à 78,2 %) |
Le constat honnête : Opus 4.8 domine la plupart des benchmarks agentiques, d'utilisation d'ordinateur et de travail de connaissance, battant à la fois GPT-5.5 et Gemini 3.1 Pro sur GDPval-AA avec une large marge. Mais ce n'est pas un balayage complet — GPT-5.5 remporte toujours Terminal-Bench 2.1 (codage intensif en terminal), avec un score de 78,2 % contre 74,6 % pour Opus 4.8. Si votre flux de travail est dominé par de longues sessions terminal, GPT-5.5 reste compétitif. Pour une comparaison complète, consultez notre comparaison à trois sur les benchmarks.
📬 Vous trouvez ça utile ?
Un aperçu IA actionnable par semaine. Plus un pack de prompts gratuit en vous abonnant.
S'abonner gratuitement →Les trois nouvelles fonctionnalités lancées avec Opus 4.8
Opus 4.8 n'est pas sorti seul. Anthropic a livré trois fonctionnalités le même jour qui changent votre façon d'interagir avec Claude à travers les produits.
Flux de travail dynamiques (Claude Code). Disponible en aperçu de recherche pour les abonnements Max, Team et Enterprise, cette fonctionnalité permet à Claude de planifier une grande tâche, de déployer des centaines de sous-agents parallèles qui attaquent le problème sous des angles indépendants, de déployer des agents adverses pour réfuter les conclusions, et d'itérer jusqu'à ce que les réponses convergent — puis de vérifier les résultats avant de faire son rapport. Le cas d'usage phare est la migration à l'échelle d'une base de code sur des centaines de milliers de lignes de code, du lancement à la fusion, en utilisant la suite de tests existante comme barre. Nous détaillons cela dans notre explication des flux de travail dynamiques.
Contrôle d'effort (claude.ai et Cowork). Un nouveau contrôle à côté du sélecteur de modèle vous permet de choisir l'effort que Claude consacre à une réponse. Un effort plus élevé signifie que Claude réfléchit plus fréquemment et plus profondément pour de meilleures réponses ; un effort plus faible signifie des réponses plus rapides qui consomment vos limites de débit plus lentement. Ceci est disponible sur tous les abonnements. Notre guide des contrôles d'effort explique quand utiliser chaque réglage.
Entrées système en cours de tâche (API Messages). L'API Messages accepte désormais les entrées système à l'intérieur du tableau de messages, permettant aux développeurs de mettre à jour les instructions de Claude en cours de tâche sans casser le cache de prompt ni passer par un tour utilisateur. C'est important pour les agents qui doivent mettre à jour les permissions, les budgets de tokens ou le contexte d'environnement en cours d'exécution. Détails dans notre analyse des changements de l'API.
Tarification et disponibilité
Claude Opus 4.8 est disponible partout aujourd'hui. La tarification régulière est inchangée par rapport à Opus 4.7 : 5 $ par million de tokens d'entrée et 25 $ par million de tokens de sortie. Le mode rapide (vitesse 2,5x) est tarifé à 10 $/M en entrée et 50 $/M en sortie — mais fait notable, le mode rapide est désormais trois fois moins cher qu'il ne l'était pour les modèles précédents. Les développeurs accèdent au modèle via l'API Claude en utilisant claude-opus-4-8, et l'alias opus y achemine désormais automatiquement. Il est disponible sur Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry et GitHub Copilot (avec un multiplicateur de requêtes premium de 15x jusqu'au lancement de la facturation à l'usage le 1er juin).
Pour tirer le meilleur d'Opus 4.8 quelle que soit la façon dont vous y accédez, des prompts bien structurés produisent des résultats nettement meilleurs. L'Optimiseur de Prompts gratuit affine vos instructions avant de les envoyer, et TresPrompt apporte l'optimisation en un clic directement dans Claude, ChatGPT et Gemini.
📬 Vous en voulez plus ?
Un aperçu IA actionnable par semaine. Plus un pack de prompts gratuit en vous abonnant.
S'abonner gratuitement →Ce qui vient ensuite : Claude Mythos
Anthropic a profité de l'annonce d'Opus 4.8 pour teaser ce qui arrive. L'entreprise prévoit de sortir une nouvelle classe de modèle avec une intelligence encore plus élevée qu'Opus. Dans le cadre du Projet Glasswing, un petit nombre d'organisations utilisent déjà Claude Mythos Preview pour des travaux de cybersécurité. Les modèles à ce niveau de capacité nécessitent des garde-fous cybernétiques plus solides avant une sortie générale, mais Anthropic a déclaré progresser rapidement et s'attend à apporter les modèles de classe Mythos à tous les clients « dans les semaines à venir ». L'alignement d'Opus 4.8 approche déjà les niveaux de Mythos Preview — un indice de ce qui arrive. En savoir plus dans notre analyse de la chronologie de Mythos.
Foire aux questions
Quel est l'ID du modèle API de Claude Opus 4.8 ?
L'ID du modèle API est claude-opus-4-8. L'alias opus y achemine désormais automatiquement, donc les intégrations existantes utilisant l'alias seront mises à niveau. Pour la variante à contexte d'un million de tokens, utilisez claude-opus-4-8[1m]. Il est disponible sur l'API Claude, Amazon Bedrock, Google Cloud Vertex AI et Microsoft Foundry.
Combien coûte Claude Opus 4.8 ?
L'utilisation régulière est de 5 $ par million de tokens d'entrée et 25 $ par million de tokens de sortie — inchangé par rapport à Opus 4.7. Le mode rapide (vitesse 2,5x) coûte 10 $/M en entrée et 50 $/M en sortie, ce qui est trois fois moins cher que le mode rapide des modèles précédents. La tarification est identique sur toutes les plateformes cloud.
Claude Opus 4.8 est-il meilleur que GPT-5.5 ?
Cela dépend de la tâche. Opus 4.8 domine sur le codage agentique (SWE-Bench Pro), l'utilisation d'ordinateur (OSWorld 83,4 %), les tâches navigateur (Online-Mind2Web 84 %) et le travail de connaissance (GDPval-AA 1890 contre 1769 pour GPT-5.5). Mais GPT-5.5 remporte toujours Terminal-Bench 2.1 (78,2 % contre 74,6 %) pour le codage intensif en terminal. Pour la plupart des travaux agentiques et de connaissance, Opus 4.8 est plus fort ; pour les longues sessions terminal, GPT-5.5 reste compétitif.
Devrais-je passer d'Opus 4.7 à 4.8 ?
Pour la plupart des utilisateurs, oui — c'est le même prix avec de meilleurs benchmarks, une honnêteté nettement améliorée et des corrections des problèmes de verbosité des commentaires et d'appel d'outils d'Opus 4.7. La mise à niveau est automatique si vous utilisez l'alias opus. La principale raison d'hésiter : si vos flux de travail sont fortement ajustés au comportement d'Opus 4.7, retestez vos prompts car le jugement et la verbosité du modèle ont changé. Consultez notre guide de décision de mise à niveau.
Que sont les flux de travail dynamiques dans Claude Opus 4.8 ?
Les flux de travail dynamiques sont une fonctionnalité de Claude Code (aperçu de recherche, Max/Team/Enterprise) qui permet à Claude de planifier une grande tâche et d'exécuter des centaines de sous-agents parallèles en une seule session. Les sous-agents attaquent les problèmes sous des angles indépendants, des agents adverses tentent de réfuter les conclusions, et le système itère jusqu'à ce que les réponses convergent avant de faire son rapport. Le cas d'usage principal est la migration à l'échelle d'une base de code sur des centaines de milliers de lignes de code.
Avertissement : Certains liens dans cet article sont des liens affiliés. Nous recommandons uniquement des outils que nous avons personnellement testés et utilisons régulièrement. Consultez notre politique de divulgation complète.