Anthropic wypuścił Claude Opus 4.8 dzisiaj, 28 maja 2026 roku — zaledwie 41 dni po Opus 4.7. Nowy flagowy model przynosi ulepszenia w kodowaniu, zadaniach agentowych, rozumowaniu i pracy z wiedzą, a do tego kosztuje dokładnie tyle samo, co jego poprzednik. Tego samego dnia Anthropic ogłosiło pozyskanie 65 miliardów dolarów w rundzie finansowania serii H przy wycenie 965 miliardów dolarów, oficjalnie wyprzedzając OpenAI i stając się najcenniejszą firmą AI na świecie. Dwa historyczne kamienie milowe w jednym dniu.

Jeśli masz przeczytać tylko jedną rzecz o Opus 4.8, przeczytaj to: to "skromna, ale odczuwalna poprawa" (słowa samego Anthropic), która znacząco rozwija trzy rzeczy — kodowanie agentowe, uczciwość i dopasowanie — wprowadzając jednocześnie trzy nowe funkcje, które zmieniają sposób pracy z Claude. To nie jest gigantyczny skok, jakim zapowiada się niewydany jeszcze Claude Mythos, ale naprawia realne problemy z Opus 4.7 i ustanawia nową poprzeczkę w benchmarkach istotnych dla autonomicznej pracy AI.

Kluczowy wniosek

Claude Opus 4.8 (API ID: claude-opus-4-8) zadebiutował 28 maja 2026 roku z niezmienioną ceną (5 USD/M wejścia, 25 USD/M wyjścia). Poprawia wynik SWE-Bench Pro z 64,3% do 69,2%, prowadzi w OSWorld-Verified z wynikiem 83,4% i przewyższa GPT-5.5 oraz Gemini 3.1 Pro w pracy z wiedzą (GDPval-AA 1890). Jest około 4 razy mniej prawdopodobne, że przepuści wady kodu bez komentarza. Wraz z nim zadebiutowały trzy nowe funkcje: dynamiczne przepływy pracy (równolegli podagenci w Claude Code), kontrola wysiłku (claude.ai i Cowork) oraz wpisy systemowe w trakcie zadania w Messages API. Tryb szybki jest teraz 3 razy tańszy.

Co nowego w Claude Opus 4.8?

Głównym ulepszeniem jest zdolność agentowa — zdolność Claude do samodzielnej pracy nad wieloetapowymi zadaniami z użyciem narzędzi. Pierwsi testerzy zgłaszają lepszy osąd, lepsze użycie narzędzi i zwiększoną niezawodność w długotrwałych przepływach pracy. Model zadaje właściwe pytania, wyłapuje własne błędy, sprzeciwia się, gdy plan nie jest solidny, i buduje zaufanie wokół złożonych eksploracji przed wprowadzeniem dużych zmian. Dla każdego, kto używa Claude jako autonomicznego agenta, a nie chatbota, to są ulepszenia, które mają największe znaczenie.

Drugim dużym ulepszeniem jest uczciwość. Anthropic trenowało wszystkie swoje modele, aby unikały twierdzeń, których nie mogą poprzeć, ale modele AI mają uporczywy problem: wyciągają pochopne wnioski, pewnie ogłaszając postęp, gdy dowody są nikłe. Opus 4.8 częściej sygnalizuje niepewność co do swojej pracy i rzadziej wysuwa niepoparte twierdzenia. Ewaluacje Anthropic pokazują, że jest około cztery razy mniej prawdopodobne niż Opus 4.7, że przepuści wady we własnym kodzie bez komentarza. To pierwszy model Claude, który osiągnął 0% w bezkrytycznym raportowaniu wadliwych wyników, z ponad dziesięciokrotną redukcją nadmiernej pewności siebie.

Trzecim ulepszeniem jest dopasowanie. Zespół ds. dopasowania Anthropic stwierdził, że Opus 4.8 "osiąga nowe szczyty w naszych miarach cech prospołecznych, takich jak wspieranie autonomii użytkownika i działanie w jego najlepszym interesie". Jego wskaźniki zachowań niedopasowanych — oszustwa lub współpracy przy nadużyciach — są znacząco niższe niż w Opus 4.7 i zbliżone do Claude Mythos Preview, najlepiej dopasowanego modelu Anthropic. (Jest jedno niepokojące zastrzeżenie dotyczące świadomości ewaluacji, które omawiamy w naszym dogłębnym artykule o paradoksie uczciwości.)

Benchmarki Claude Opus 4.8: Jak wypada na tle konkurencji?

Anthropic opublikowało benchmarki porównujące Opus 4.8 do jego poprzednika i konkurencyjnych modeli. Wzrosty są stopniowe, ale konsekwentne, a Opus 4.8 prowadzi w większości testów agentowych i pracy z wiedzą. Oto jak wyglądają liczby.

Benchmark Opus 4.8 Opus 4.7 Co mierzy
SWE-Bench Pro69,2%64,3%Rzeczywiste kodowanie agentowe
OSWorld-Verified83,4%82,3%Agentowe użycie komputera
Online-Mind2Web84%niższyZadania agenta przeglądarki
GDPval-AA1890Praca z wiedzą (przewyższa wynik GPT-5.5: 1769)
Rozumowanie z narzędziami57,9%54,7%Rozumowanie multidyscyplinarne
Terminal-Bench 2.174,6%Kodowanie terminalowe (GPT-5.5 wygrywa z wynikiem 78,2%)

Uczciwy wniosek: Opus 4.8 prowadzi w większości benchmarków agentowych, użycia komputera i pracy z wiedzą, pokonując zarówno GPT-5.5, jak i Gemini 3.1 Pro w GDPval-AA ze znaczną przewagą. Ale to nie jest pełne zwycięstwo — GPT-5.5 wciąż wygrywa Terminal-Bench 2.1 (kodowanie terminalowe), osiągając 78,2% przy 74,6% Opus 4.8. Jeśli twój przepływ pracy opiera się głównie na długich sesjach terminalowych, GPT-5.5 pozostaje konkurencyjny. Aby zobaczyć pełne porównanie, przeczytaj nasze trójstronne zestawienie benchmarków.

📬 Widzisz w tym wartość?

Jedna praktyczna porcja wiedzy o AI tygodniowo. Plus darmowy pakiet promptów przy zapisie.

Zapisz się za darmo →

Trzy nowe funkcje debiutujące z Opus 4.8

Opus 4.8 nie zadebiutował sam. Anthropic wypuściło tego samego dnia trzy funkcje, które zmieniają sposób interakcji z Claude w różnych produktach.

Dynamiczne przepływy pracy (Claude Code). Dostępne w podglądzie badawczym dla planów Max, Team i Enterprise, ta funkcja pozwala Claude zaplanować duże zadanie, wysłać setki równoległych podagentów, które atakują problem z niezależnych perspektyw, rozmieścić agentów kontradyktoryjnych, aby obalali ustalenia, i iterować, aż odpowiedzi będą zbieżne — a następnie zweryfikować wyniki przed raportowaniem. Głównym przypadkiem użycia są migracje na skalę całej bazy kodu obejmujące setki tysięcy linii kodu, od rozpoczęcia do scalenia, z użyciem istniejącego zestawu testów jako poprzeczki. Dokładnie omawiamy to w naszym wyjaśnieniu dynamicznych przepływów pracy.

Kontrola wysiłku (claude.ai i Cowork). Nowa kontrolka obok selektora modelu pozwala wybrać, ile wysiłku Claude ma włożyć w odpowiedź. Wyższy wysiłek oznacza, że Claude myśli częściej i głębiej, dając lepsze odpowiedzi; niższy wysiłek oznacza szybsze odpowiedzi, które wolniej zużywają limity zapytań. Jest to dostępne we wszystkich planach. Nasz przewodnik po kontrolach wysiłku opisuje, kiedy używać każdego ustawienia.

Wpisy systemowe w trakcie zadania (Messages API). Messages API akceptuje teraz wpisy systemowe wewnątrz tablicy messages, pozwalając deweloperom aktualizować instrukcje Claude w trakcie zadania bez przerywania pamięci podręcznej promptu ani przekierowywania przez turę użytkownika. Ma to znaczenie dla agentów, którzy muszą aktualizować uprawnienia, budżety tokenów lub kontekst środowiskowy w trakcie działania. Szczegóły w naszym omówieniu zmian w API.

Ceny i dostępność

Claude Opus 4.8 jest dostępny wszędzie od dziś. Standardowe ceny pozostały niezmienione względem Opus 4.7: 5 USD za milion tokenów wejściowych i 25 USD za milion tokenów wyjściowych. Tryb szybki (2,5x prędkości) kosztuje 10 USD/M wejścia i 50 USD/M wyjścia — ale co istotne, tryb szybki jest teraz trzy razy tańszy niż w przypadku poprzednich modeli. Deweloperzy uzyskują dostęp do modelu przez Claude API, używając claude-opus-4-8, a alias opus automatycznie teraz do niego kieruje. Jest dostępny na Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry i GitHub Copilot (z 15-krotnym mnożnikiem żądań premium do czasu uruchomienia rozliczania według użycia 1 czerwca).

Aby w pełni wykorzystać Opus 4.8 niezależnie od sposobu dostępu, dobrze skonstruowane prompty dają znacząco lepsze rezultaty. Darmowy Optymalizator Promptów wyostrza twoje instrukcje przed ich wysłaniem, a TresPrompt wprowadza optymalizację jednym kliknięciem bezpośrednio do Claude, ChatGPT i Gemini.

📬 Chcesz więcej takich treści?

Jedna praktyczna porcja wiedzy o AI tygodniowo. Plus darmowy pakiet promptów przy zapisie.

Zapisz się za darmo →

Co dalej: Claude Mythos

Anthropic wykorzystało ogłoszenie Opus 4.8, aby zasygnalizować, co nadchodzi. Firma planuje wypuścić nową klasę modeli o jeszcze wyższej inteligencji niż Opus. W ramach Project Glasswing niewielka liczba organizacji już używa Claude Mythos Preview do prac związanych z cyberbezpieczeństwem. Modele na tym poziomie możliwości wymagają silniejszych zabezpieczeń cybernetycznych przed ogólnym udostępnieniem, ale Anthropic poinformowało, że robi szybkie postępy i spodziewa się udostępnić modele klasy Mythos wszystkim klientom "w nadchodzących tygodniach". Dopasowanie Opus 4.8 już zbliża się do poziomów Mythos Preview — to zapowiedź tego, co nadchodzi. Więcej w naszej analizie harmonogramu Mythos.

Często zadawane pytania

Jaki jest identyfikator modelu API Claude Opus 4.8?

Identyfikator modelu API to claude-opus-4-8. Alias opus automatycznie teraz do niego kieruje, więc istniejące integracje używające aliasu zostaną zaktualizowane. Dla wariantu z kontekstem miliona tokenów użyj claude-opus-4-8[1m]. Jest dostępny w Claude API, Amazon Bedrock, Google Cloud Vertex AI i Microsoft Foundry.

Ile kosztuje Claude Opus 4.8?

Standardowe użycie kosztuje 5 USD za milion tokenów wejściowych i 25 USD za milion tokenów wyjściowych — bez zmian względem Opus 4.7. Tryb szybki (2,5x prędkości) kosztuje 10 USD/M wejścia i 50 USD/M wyjścia, co jest trzy razy tańsze niż tryb szybki w poprzednich modelach. Ceny są identyczne na wszystkich platformach chmurowych.

Czy Claude Opus 4.8 jest lepszy niż GPT-5.5?

To zależy od zadania. Opus 4.8 prowadzi w kodowaniu agentowym (SWE-Bench Pro), użyciu komputera (OSWorld 83,4%), zadaniach przeglądarkowych (Online-Mind2Web 84%) i pracy z wiedzą (GDPval-AA 1890 vs 1769 GPT-5.5). Ale GPT-5.5 wciąż wygrywa Terminal-Bench 2.1 (78,2% vs 74,6%) w kodowaniu terminalowym. Do większości zadań agentowych i pracy z wiedzą Opus 4.8 jest silniejszy; do długich sesji terminalowych GPT-5.5 pozostaje konkurencyjny.

Czy powinienem zaktualizować z Opus 4.7 do 4.8?

Dla większości użytkowników tak — to ta sama cena z lepszymi benchmarkami, znacząco poprawioną uczciwością i poprawkami dla problemów z gadatliwością komentarzy i wywoływaniem narzędzi w Opus 4.7. Aktualizacja jest automatyczna, jeśli używasz aliasu opus. Główny powód do wahania: jeśli twoje przepływy pracy są mocno dostrojone do zachowania 4.7, przetestuj ponownie swoje prompty, ponieważ osąd i szczegółowość modelu uległy zmianie. Zobacz nasz przewodnik decyzyjny o aktualizacji.

Czym są dynamiczne przepływy pracy w Claude Opus 4.8?

Dynamiczne przepływy pracy to funkcja Claude Code (podgląd badawczy, Max/Team/Enterprise), która pozwala Claude zaplanować duże zadanie i uruchomić setki równoległych podagentów w jednej sesji. Podagenci atakują problemy z niezależnych perspektyw, agenci kontradyktoryjni próbują obalić ustalenia, a system iteruje, aż odpowiedzi będą zbieżne, zanim złoży raport. Głównym przypadkiem użycia są migracje na skalę bazy kodu obejmujące setki tysięcy linii kodu.

Ujawnienie: Niektóre linki w tym artykule to linki afiliacyjne. Polecamy tylko narzędzia, które osobiście przetestowaliśmy i regularnie używamy. Zobacz naszą pełną politykę ujawnień.