Anthropic hat heute, am 28. Mai 2026, Claude Opus 4.8 veröffentlicht – nur 41 Tage nach Opus 4.7. Das neue Flaggschiff-Modell bringt Verbesserungen in den Bereichen Coding, agentische Aufgaben, logisches Denken und Wissensarbeit und kommt zum exakt gleichen Preis wie sein Vorgänger auf den Markt. Am selben Tag gab Anthropic bekannt, dass es 65 Milliarden Dollar in einer Series-H-Finanzierungsrunde bei einer Bewertung von 965 Milliarden Dollar eingenommen hat und damit OpenAI offiziell als wertvollstes KI-Unternehmen der Welt überholt hat. Zwei historische Meilensteine an einem einzigen Tag.
Wenn Sie nur eine Sache über Opus 4.8 lesen, dann diese: Es handelt sich um eine „moderate, aber spürbare Verbesserung" (Anthropics eigene Worte), die drei Dinge bedeutsam voranbringt – agentisches Coding, Ehrlichkeit und Alignment – und gleichzeitig drei neue Funktionen einführt, die verändern, wie Sie mit Claude arbeiten. Es ist nicht der riesige Sprung, den das unveröffentlichte Claude Mythos verspricht, aber es behebt echte Probleme von Opus 4.7 und setzt neue Maßstäbe bei Benchmarks, die für autonome KI-Arbeit entscheidend sind.
Kernaussage
Claude Opus 4.8 (API-ID: claude-opus-4-8) wurde am 28. Mai 2026 zu unveränderten Preisen (5 $/Mio. Input, 25 $/Mio. Output) veröffentlicht. Es verbessert SWE-Bench Pro von 64,3 % auf 69,2 %, führt bei OSWorld-Verified mit 83,4 % und übertrifft GPT-5.5 und Gemini 3.1 Pro bei der Wissensarbeit (GDPval-AA 1890). Es ist etwa 4-mal weniger wahrscheinlich, dass Code-Fehler unkommentiert durchgehen. Drei neue Funktionen wurden parallel eingeführt: dynamische Workflows (parallele Subagenten in Claude Code), Aufwandssteuerung (claude.ai und Cowork) und Mid-Task-Systemeinträge in der Messages API. Der Fast-Modus ist jetzt 3-mal günstiger.
Was ist neu in Claude Opus 4.8?
Die wichtigste Verbesserung ist die agentische Fähigkeit – Claudes Fähigkeit, mehrschrittige Aufgaben unter Verwendung von Tools selbstständig zu bearbeiten. Frühe Tester berichten von schärferem Urteilsvermögen, besserer Tool-Nutzung und verbesserter Zuverlässigkeit bei lang laufenden Workflows. Das Modell stellt die richtigen Fragen, erkennt eigene Fehler, widerspricht, wenn ein Plan nicht solide ist, und schafft Vertrauen bei komplexen Erkundungen, bevor es große Änderungen vornimmt. Für alle, die Claude als autonomen Agenten und nicht als Chatbot nutzen, sind dies die Verbesserungen, die am meisten zählen.
Die zweite große Verbesserung ist Ehrlichkeit. Anthropic hat alle seine Modelle darauf trainiert, Behauptungen zu vermeiden, die sie nicht belegen können, aber KI-Modelle haben ein hartnäckiges Problem: Sie ziehen voreilige Schlüsse und behaupten selbstbewusst Fortschritte, wenn die Beweislage dünn ist. Opus 4.8 weist eher auf Unsicherheiten in seiner Arbeit hin und macht seltener unbelegte Behauptungen. Anthropics Evaluierungen zeigen, dass es etwa viermal unwahrscheinlicher ist als Opus 4.7, dass Fehler in von ihm geschriebenem Code unkommentiert durchgehen. Es ist das erste Claude-Modell, das 0 % beim unkritischen Melden fehlerhafter Ergebnisse erreicht, mit einer mehr als zehnfachen Reduzierung von Selbstüberschätzung.
Die dritte Verbesserung ist Alignment. Das Alignment-Team von Anthropic kam zu dem Schluss, dass Opus 4.8 „neue Höchstwerte bei unseren Messungen prosozialer Eigenschaften wie der Unterstützung von Nutzerautonomie und dem Handeln im besten Interesse des Nutzers erreicht". Die Raten von fehlausgerichtetem Verhalten – Täuschung oder Kooperation mit Missbrauch – sind wesentlich niedriger als bei Opus 4.7 und ähnlich wie bei Claude Mythos Preview, dem am besten ausgerichteten Modell von Anthropic. (Es gibt einen besorgniserregenden Vorbehalt bezüglich des Bewusstseins über Evaluierungen, den wir in unserem Deep Dive zum Ehrlichkeits-Paradoxon behandeln.)
Claude Opus 4.8 Benchmarks: Wie schlägt es sich im Vergleich?
Anthropic hat Benchmarks veröffentlicht, die Opus 4.8 mit seinem Vorgänger und konkurrierenden Modellen vergleichen. Die Zuwächse sind inkrementell, aber konsistent, und Opus 4.8 führt bei den meisten agentischen und Wissensarbeit-Tests. Hier die Aufschlüsselung der Zahlen.
| Benchmark | Opus 4.8 | Opus 4.7 | Was es misst |
|---|---|---|---|
| SWE-Bench Pro | 69,2 % | 64,3 % | Agentisches Coding in der Praxis |
| OSWorld-Verified | 83,4 % | 82,3 % | Agentische Computernutzung |
| Online-Mind2Web | 84 % | niedriger | Browser-Agenten-Aufgaben |
| GDPval-AA | 1890 | — | Wissensarbeit (schlägt GPT-5.5 mit 1769) |
| Reasoning w/ tools | 57,9 % | 54,7 % | Multidisziplinäres Denken |
| Terminal-Bench 2.1 | 74,6 % | — | Terminal-Coding (GPT-5.5 gewinnt mit 78,2 %) |
Das ehrliche Fazit: Opus 4.8 führt bei den meisten agentischen, Computernutzungs- und Wissensarbeits-Benchmarks und schlägt sowohl GPT-5.5 als auch Gemini 3.1 Pro bei GDPval-AA mit deutlichem Abstand. Aber es ist kein Durchmarsch – GPT-5.5 gewinnt immer noch Terminal-Bench 2.1 (terminal-lastiges Coding) mit 78,2 % gegenüber Opus 4.8 mit 74,6 %. Wenn Ihr Workflow von langen Terminal-Sitzungen dominiert wird, bleibt GPT-5.5 wettbewerbsfähig. Für einen vollständigen Direktvergleich lesen Sie unsere Drei-Wege-Benchmark-Analyse.
📬 Finden Sie das wertvoll?
Eine umsetzbare KI-Erkenntnis pro Woche. Plus ein kostenloses Prompt-Paket bei Anmeldung.
Kostenlos abonnieren →Die drei neuen Funktionen, die mit Opus 4.8 starten
Opus 4.8 kam nicht allein. Anthropic lieferte am selben Tag drei Funktionen aus, die verändern, wie Sie mit Claude über verschiedene Produkte hinweg interagieren.
Dynamische Workflows (Claude Code). Verfügbar in der Research-Vorschau für Max-, Team- und Enterprise-Pläne. Diese Funktion ermöglicht es Claude, eine große Aufgabe zu planen, Hunderte paralleler Subagenten einzusetzen, die das Problem aus unabhängigen Blickwinkeln angehen, gegnerische Agenten zur Widerlegung der Ergebnisse zu entsenden und zu iterieren, bis die Antworten konvergieren – und dann die Ausgaben zu verifizieren, bevor Bericht erstattet wird. Der Hauptanwendungsfall sind codebase-weite Migrationen über Hunderttausende Codezeilen, vom Start bis zum Merge, wobei die vorhandene Testsuite als Messlatte dient. Wir erläutern dies ausführlich in unserem Erklärartikel zu dynamischen Workflows.
Aufwandssteuerung (claude.ai und Cowork). Eine neue Steuerung neben der Modellauswahl, mit der Sie wählen können, wie viel Aufwand Claude in eine Antwort steckt. Höherer Aufwand bedeutet, dass Claude häufiger und tiefer nachdenkt, um bessere Antworten zu liefern; geringerer Aufwand bedeutet schnellere Antworten, die Ihre Ratenlimits langsamer verbrauchen. Dies ist in allen Plänen verfügbar. Unser Leitfaden zur Aufwandssteuerung erklärt, wann Sie welche Einstellung verwenden sollten.
Mid-Task-Systemeinträge (Messages API). Die Messages API akzeptiert jetzt Systemeinträge innerhalb des Nachrichten-Arrays, sodass Entwickler Claudes Anweisungen mitten in der Aufgabe aktualisieren können, ohne den Prompt-Cache zu unterbrechen oder über einen Benutzer-Turn umleiten zu müssen. Dies ist wichtig für Agenten, die Berechtigungen, Token-Budgets oder Umgebungskontext während der Ausführung aktualisieren müssen. Details in unserer API-Änderungsanalyse.
Preise und Verfügbarkeit
Claude Opus 4.8 ist ab heute überall verfügbar. Die regulären Preise sind gegenüber Opus 4.7 unverändert: 5 $ pro Million Input-Token und 25 $ pro Million Output-Token. Der Fast-Modus (2,5-fache Geschwindigkeit) kostet 10 $/Mio. Input und 50 $/Mio. Output – aber bemerkenswerterweise ist der Fast-Modus jetzt dreimal günstiger als bei früheren Modellen. Entwickler greifen über die Claude API mit claude-opus-4-8 auf das Modell zu, und der opus-Alias leitet jetzt automatisch dorthin weiter. Es ist verfügbar auf Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry und GitHub Copilot (mit einem 15-fachen Premium-Anfragen-Multiplikator, bis die nutzungsbasierte Abrechnung am 1. Juni startet).
Um das Beste aus Opus 4.8 herauszuholen, unabhängig davon, wie Sie darauf zugreifen, liefern gut strukturierte Prompts dramatisch bessere Ergebnisse. Der kostenlose Prompt Optimizer schärft Ihre Anweisungen, bevor Sie sie senden, und TresPrompt bringt Ein-Klick-Optimierung direkt in Claude, ChatGPT und Gemini.
📬 Möchten Sie mehr davon?
Eine umsetzbare KI-Erkenntnis pro Woche. Plus ein kostenloses Prompt-Paket bei Anmeldung.
Kostenlos abonnieren →Was als Nächstes kommt: Claude Mythos
Anthropic nutzte die Ankündigung von Opus 4.8, um einen Ausblick auf das Kommende zu geben. Das Unternehmen plant, eine neue Modellklasse mit noch höherer Intelligenz als Opus zu veröffentlichen. Im Rahmen von Project Glasswing nutzt eine kleine Anzahl von Organisationen bereits Claude Mythos Preview für Cybersicherheitsarbeit. Modelle auf diesem Fähigkeitsniveau erfordern stärkere Cyber-Sicherheitsvorkehrungen vor der allgemeinen Veröffentlichung, aber Anthropic erklärte, schnelle Fortschritte zu machen und zu erwarten, Modelle der Mythos-Klasse „in den kommenden Wochen" allen Kunden zur Verfügung zu stellen. Das Alignment von Opus 4.8 nähert sich bereits dem Niveau von Mythos Preview – ein Hinweis auf das, was kommt. Lesen Sie mehr in unserer Mythos-Zeitplan-Analyse.
Häufig gestellte Fragen
Wie lautet die API-Modell-ID von Claude Opus 4.8?
Die API-Modell-ID lautet claude-opus-4-8. Der opus-Alias leitet jetzt automatisch dorthin weiter, sodass bestehende Integrationen, die den Alias verwenden, aktualisiert werden. Für die Variante mit 1-Million-Token-Kontext verwenden Sie claude-opus-4-8[1m]. Es ist verfügbar auf der Claude API, Amazon Bedrock, Google Cloud Vertex AI und Microsoft Foundry.
Wie viel kostet Claude Opus 4.8?
Die reguläre Nutzung kostet 5 $ pro Million Input-Token und 25 $ pro Million Output-Token – unverändert gegenüber Opus 4.7. Der Fast-Modus (2,5-fache Geschwindigkeit) kostet 10 $/Mio. Input und 50 $/Mio. Output, was dreimal günstiger ist als der Fast-Modus bei früheren Modellen. Die Preise sind auf allen Cloud-Plattformen identisch.
Ist Claude Opus 4.8 besser als GPT-5.5?
Es hängt von der Aufgabe ab. Opus 4.8 führt bei agentischem Coding (SWE-Bench Pro), Computernutzung (OSWorld 83,4 %), Browser-Aufgaben (Online-Mind2Web 84 %) und Wissensarbeit (GDPval-AA 1890 vs. GPT-5.5 mit 1769). Aber GPT-5.5 gewinnt immer noch Terminal-Bench 2.1 (78,2 % vs. 74,6 %) für terminal-lastiges Coding. Für die meisten agentischen und Wissensarbeiten ist Opus 4.8 stärker; für lange Terminal-Sitzungen bleibt GPT-5.5 wettbewerbsfähig.
Sollte ich von Opus 4.7 auf 4.8 upgraden?
Für die meisten Nutzer ja – es kostet dasselbe mit besseren Benchmarks, dramatisch verbesserter Ehrlichkeit und Korrekturen für Opus 4.7s Probleme mit Kommentar-Weitschweifigkeit und Tool-Aufrufen. Das Upgrade erfolgt automatisch, wenn Sie den opus-Alias verwenden. Der Hauptgrund zu zögern: Wenn Ihre Workflows stark auf das Verhalten von 4.7 abgestimmt sind, testen Sie Ihre Prompts erneut, da sich Urteilsvermögen und Ausführlichkeit des Modells geändert haben. Siehe unseren Upgrade-Entscheidungsleitfaden.
Was sind dynamische Workflows in Claude Opus 4.8?
Dynamische Workflows sind eine Claude Code-Funktion (Research-Vorschau, Max/Team/Enterprise), die es Claude ermöglicht, eine große Aufgabe zu planen und Hunderte paralleler Subagenten in einer einzigen Sitzung auszuführen. Die Subagenten gehen Probleme aus unabhängigen Blickwinkeln an, gegnerische Agenten versuchen, Ergebnisse zu widerlegen, und das System iteriert, bis die Antworten konvergieren, bevor Bericht erstattet wird. Der Hauptanwendungsfall sind codebase-weite Migrationen über Hunderttausende Codezeilen.
Offenlegung: Einige Links in diesem Artikel sind Affiliate-Links. Wir empfehlen nur Tools, die wir persönlich getestet haben und regelmäßig nutzen. Siehe unsere vollständige Offenlegungsrichtlinie.