Anthropic ha rilasciato oggi, 28 maggio 2026, Claude Opus 4.8 — appena 41 giorni dopo Opus 4.7. Il nuovo modello di punta porta miglioramenti in ambito coding, compiti agentici, ragionamento e lavoro di conoscenza, e viene proposto esattamente allo stesso prezzo del suo predecessore. Lo stesso giorno, Anthropic ha annunciato di aver raccolto 65 miliardi di dollari in un round di finanziamento Series H, raggiungendo una valutazione di 965 miliardi di dollari, superando ufficialmente OpenAI e diventando l'azienda di IA con il valore più alto al mondo. Due pietre miliari storiche in un solo giorno.
Se leggi una sola cosa su Opus 4.8, leggi questa: è un "miglioramento modesto ma tangibile" (parole di Anthropic) che fa avanzare in modo significativo tre aspetti — coding agentico, onestà e allineamento — introducendo al contempo tre nuove funzionalità che cambiano il modo di lavorare con Claude. Non è il salto epocale che il non ancora rilasciato Claude Mythos promette di essere, ma risolve problemi reali di Opus 4.7 e stabilisce un nuovo standard nei benchmark che contano per il lavoro autonomo dell'IA.
Concetto Chiave
Claude Opus 4.8 (ID API: claude-opus-4-8) è stato lanciato il 28 maggio 2026 a prezzi invariati ($5/M in input, $25/M in output). Migliora SWE-Bench Pro dal 64,3% al 69,2%, è in testa su OSWorld-Verified con l'83,4% e supera GPT-5.5 e Gemini 3.1 Pro nel lavoro di conoscenza (GDPval-AA 1890). Ha circa 4 volte meno probabilità di lasciar passare inosservati difetti nel codice. Tre nuove funzionalità sono state lanciate insieme a lui: flussi di lavoro dinamici (sottoagenti paralleli in Claude Code), controllo dello sforzo (claude.ai e Cowork) e voci di sistema a metà attività nell'API Messages. La modalità veloce ora costa 3 volte meno.
Cosa C'è di Nuovo in Claude Opus 4.8?
Il miglioramento principale è la capacità agentica — l'abilità di Claude di lavorare in autonomia attraverso compiti multi-fase usando strumenti. I primi tester riferiscono di una capacità di giudizio più acuta, un uso migliore degli strumenti e una maggiore affidabilità nei flussi di lavoro di lunga durata. Il modello fa le domande giuste, individua i propri errori, si oppone quando un piano non è valido e costruisce fiducia attorno a esplorazioni complesse prima di apportare grandi modifiche. Per chiunque usi Claude come agente autonomo piuttosto che come chatbot, questi sono i miglioramenti che contano di più.
Il secondo grande miglioramento è l'onestà. Anthropic ha addestrato tutti i suoi modelli a evitare di fare affermazioni che non possono supportare, ma i modelli di IA hanno un problema persistente: saltano alle conclusioni, dichiarando con sicurezza progressi quando le prove sono scarse. Opus 4.8 è più propenso a segnalare incertezze sul proprio lavoro e meno propenso a fare affermazioni infondate. Le valutazioni di Anthropic mostrano che ha circa quattro volte meno probabilità rispetto a Opus 4.7 di permettere che difetti nel codice che ha scritto passino inosservati. È il primo modello Claude a ottenere un punteggio dello 0% nel riportare acriticamente risultati errati, con una riduzione di oltre dieci volte della sovra-sicurezza.
Il terzo miglioramento è l'allineamento. Il team di allineamento di Anthropic ha concluso che Opus 4.8 "raggiunge nuovi massimi nelle nostre misurazioni dei tratti prosociali come il supporto all'autonomia dell'utente e l'agire nel migliore interesse dell'utente". I suoi tassi di comportamento disallineato — inganno o cooperazione con usi impropri — sono sostanzialmente inferiori a Opus 4.7 e simili a Claude Mythos Preview, il modello meglio allineato di Anthropic. (C'è un avvertimento preoccupante sulla consapevolezza della valutazione, che trattiamo nel nostro approfondimento sul paradosso dell'onestà.)
Benchmark di Claude Opus 4.8: Come si Confronta?
Anthropic ha pubblicato benchmark che confrontano Opus 4.8 con il suo predecessore e con i modelli concorrenti. I guadagni sono incrementali ma costanti, e Opus 4.8 è in testa nella maggior parte dei test agentici e di lavoro di conoscenza. Ecco come si suddividono i numeri.
| Benchmark | Opus 4.8 | Opus 4.7 | Cosa Misura |
|---|---|---|---|
| SWE-Bench Pro | 69,2% | 64,3% | Coding agentico nel mondo reale |
| OSWorld-Verified | 83,4% | 82,3% | Uso agentico del computer |
| Online-Mind2Web | 84% | inferiore | Compiti da agente browser |
| GDPval-AA | 1890 | — | Lavoro di conoscenza (supera 1769 di GPT-5.5) |
| Ragionamento con strumenti | 57,9% | 54,7% | Ragionamento multidisciplinare |
| Terminal-Bench 2.1 | 74,6% | — | Coding da terminale (GPT-5.5 vince con 78,2%) |
Il punto onesto: Opus 4.8 è in testa nella maggior parte dei benchmark agentici, di uso del computer e di lavoro di conoscenza, battendo sia GPT-5.5 che Gemini 3.1 Pro su GDPval-AA con un ampio margine. Ma non è una vittoria completa — GPT-5.5 vince ancora su Terminal-Bench 2.1 (coding incentrato sul terminale), totalizzando 78,2% contro il 74,6% di Opus 4.8. Se il tuo flusso di lavoro è dominato da lunghe sessioni di terminale, GPT-5.5 rimane competitivo. Per un confronto diretto completo, vedi il nostro confronto a tre sui benchmark.
📬 Lo trovi utile?
Un'idea concreta sull'IA a settimana. Più un pacchetto di prompt gratuito quando ti iscrivi.
Iscriviti gratis →Le Tre Nuove Funzionalità Lanciate con Opus 4.8
Opus 4.8 non è stato lanciato da solo. Anthropic ha rilasciato lo stesso giorno tre funzionalità che cambiano il modo di interagire con Claude su tutti i prodotti.
Flussi di lavoro dinamici (Claude Code). Disponibile in anteprima di ricerca per i piani Max, Team ed Enterprise, questa funzionalità permette a Claude di pianificare un compito complesso, dispiegare centinaia di sottoagenti paralleli che affrontano il problema da angolazioni indipendenti, schierare agenti avversari per confutare i risultati e iterare fino a far convergere le risposte — per poi verificare gli output prima di riferire. Il caso d'uso principale sono le migrazioni su scala di codebase attraverso centinaia di migliaia di righe di codice, dall'avvio fino al merge, usando la suite di test esistente come parametro. Lo analizziamo in dettaglio nel nostro spiegatore sui flussi di lavoro dinamici.
Controllo dello sforzo (claude.ai e Cowork). Un nuovo controllo accanto al selettore del modello ti permette di scegliere quanto sforzo Claude dedica a una risposta. Uno sforzo maggiore significa che Claude pensa più frequentemente e in modo più approfondito per risposte migliori; uno sforzo minore significa risposte più rapide che consumano più lentamente i tuoi limiti di utilizzo. È disponibile su tutti i piani. La nostra guida ai controlli dello sforzo spiega quando usare ciascuna impostazione.
Voci di sistema a metà attività (API Messages). L'API Messages ora accetta voci di sistema all'interno dell'array dei messaggi, consentendo agli sviluppatori di aggiornare le istruzioni di Claude a metà attività senza interrompere la cache dei prompt o passare attraverso un turno utente. Questo è importante per gli agenti che devono aggiornare permessi, budget di token o contesto dell'ambiente durante l'esecuzione. Dettagli nel nostro approfondimento sulle modifiche API.
Prezzi e Disponibilità
Claude Opus 4.8 è disponibile ovunque da oggi. Il prezzo standard è invariato rispetto a Opus 4.7: $5 per milione di token in input e $25 per milione di token in output. La modalità veloce (velocità 2,5x) ha un prezzo di $10/M in input e $50/M in output — ma è da notare che la modalità veloce ora costa tre volte meno rispetto ai modelli precedenti. Gli sviluppatori accedono al modello tramite l'API Claude usando claude-opus-4-8, e l'alias opus ora vi si indirizza automaticamente. È disponibile su Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry e GitHub Copilot (con un moltiplicatore premium di 15x sulle richieste fino al lancio della fatturazione a consumo il 1° giugno).
Per ottenere il massimo da Opus 4.8 indipendentemente da come vi accedi, prompt ben strutturati producono risultati notevolmente migliori. L'Ottimizzatore di Prompt gratuito affina le tue istruzioni prima di inviarle, e TresPrompt porta l'ottimizzazione con un clic direttamente in Claude, ChatGPT e Gemini.
📬 Vuoi altri contenuti come questo?
Un'idea concreta sull'IA a settimana. Più un pacchetto di prompt gratuito quando ti iscrivi.
Iscriviti gratis →Cosa Ci Aspetta: Claude Mythos
Anthropic ha usato l'annuncio di Opus 4.8 per anticipare ciò che sta arrivando. L'azienda prevede di rilasciare una nuova classe di modelli con un'intelligenza ancora superiore a Opus. Nell'ambito del Project Glasswing, un ristretto numero di organizzazioni sta già utilizzando Claude Mythos Preview per lavori di cybersecurity. I modelli a quel livello di capacità richiedono salvaguardie informatiche più robuste prima del rilascio generale, ma Anthropic ha dichiarato di fare rapidi progressi e prevede di portare i modelli della classe Mythos a tutti i clienti "nelle prossime settimane". L'allineamento di Opus 4.8 si avvicina già ai livelli di Mythos Preview — un indizio di ciò che verrà. Leggi di più nella nostra analisi della tempistica di Mythos.
Domande Frequenti
Qual è l'ID modello API di Claude Opus 4.8?
L'ID modello API è claude-opus-4-8. L'alias opus ora vi si indirizza automaticamente, quindi le integrazioni esistenti che usano l'alias verranno aggiornate. Per la variante con contesto da 1 milione di token, usa claude-opus-4-8[1m]. È disponibile su Claude API, Amazon Bedrock, Google Cloud Vertex AI e Microsoft Foundry.
Quanto costa Claude Opus 4.8?
L'utilizzo standard è di $5 per milione di token in input e $25 per milione di token in output — invariato rispetto a Opus 4.7. La modalità veloce (velocità 2,5x) costa $10/M in input e $50/M in output, il che è tre volte più economico rispetto alla modalità veloce dei modelli precedenti. Il prezzo è identico su tutte le piattaforme cloud.
Claude Opus 4.8 è migliore di GPT-5.5?
Dipende dal compito. Opus 4.8 è in testa nel coding agentico (SWE-Bench Pro), nell'uso del computer (OSWorld 83,4%), nei compiti da browser (Online-Mind2Web 84%) e nel lavoro di conoscenza (GDPval-AA 1890 contro 1769 di GPT-5.5). Ma GPT-5.5 vince ancora su Terminal-Bench 2.1 (78,2% contro 74,6%) per il coding incentrato sul terminale. Per la maggior parte del lavoro agentico e di conoscenza, Opus 4.8 è più forte; per lunghe sessioni di terminale, GPT-5.5 rimane competitivo.
Dovrei passare da Opus 4.7 a 4.8?
Per la maggior parte degli utenti, sì — ha lo stesso prezzo con benchmark migliori, un'onestà notevolmente migliorata e correzioni per i problemi di verbosità dei commenti e di chiamata degli strumenti di Opus 4.7. L'aggiornamento è automatico se usi l'alias opus. Il motivo principale per esitare: se i tuoi flussi di lavoro sono fortemente calibrati sul comportamento di 4.7, testa nuovamente i tuoi prompt poiché il giudizio e la verbosità del modello sono cambiati. Vedi la nostra guida alla decisione sull'aggiornamento.
Cosa sono i flussi di lavoro dinamici in Claude Opus 4.8?
I flussi di lavoro dinamici sono una funzionalità di Claude Code (anteprima di ricerca, Max/Team/Enterprise) che permette a Claude di pianificare un compito complesso ed eseguire centinaia di sottoagenti paralleli in una singola sessione. I sottoagenti affrontano i problemi da angolazioni indipendenti, agenti avversari cercano di confutare i risultati e il sistema itera fino a far convergere le risposte prima di riferire. Il caso d'uso principale sono le migrazioni su scala di codebase attraverso centinaia di migliaia di righe di codice.
Divulgazione: Alcuni link in questo articolo sono link di affiliazione. Raccomandiamo solo strumenti che abbiamo testato personalmente e che usiamo regolarmente. Vedi la nostra politica di divulgazione completa.