Claude Opus 4.8 udkom blot 41 dage efter Opus 4.7, til nøjagtig samme pris. Det rejser et oplagt spørgsmål for alle, der allerede bruger 4.7: hvad har faktisk ændret sig, og er det værd at skifte? Det korte svar er ja — 4.8 forbedrer 4.7 på tværs af hele linjen, løser specifikke problemer, der frustrerede 4.7-brugere, og koster det samme. Men detaljerne er vigtige, især hvis du har finjusteret dine prompts eller arbejdsgange til 4.7's specifikke adfærd.
Dette er en direkte, side-om-side sammenligning af de to modeller: hver eneste benchmark-forskel, ærlighedsspringet, de løste problemer og det praktiske spørgsmål om, hvorvidt du skal genteste noget, før du skifter.
Hovedpointe
Opus 4.8 slår Opus 4.7 på alle offentliggjorte benchmarks: SWE-Bench Pro (69,2% mod 64,3%), ræsonnering med værktøjer (57,9% mod 54,7%) og computerbrug. Den er 4x mindre tilbøjelig til at lade kodefejl slippe igennem og løser 4.7's problemer med kommentar-udførlighed og værktøjskald (kilden til "Gaslightus 4.7"-klagerne). Samme pris, billigere hurtig tilstand. Opgraderingen sker automatisk via opus-aliaset. Den eneste grund til at tøve: gentest prompts, der er stærkt tunet til 4.7's adfærd.
Benchmark-forbedringerne
Opus 4.8 forbedrer 4.7 på tværs af alle benchmarks, som Anthropic har offentliggjort. Det førende kodetal, SWE-Bench Pro, sprang fra 64,3% til 69,2% — en stigning på 4,9 point, som er betydningsfuld for agentbaseret kodning i praksis. Tværfaglig ræsonnering med værktøjer forbedredes fra 54,7% til 57,9%. Computerbrugs-benchmarks (OSWorld-Verified) steg til 83,4%, og browseragent-præstation (Online-Mind2Web) nåede 84%, et bemærkelsesværdigt spring. Ingen af disse er revolutionerende hver for sig, men tilsammen repræsenterer de konsekvent forbedring på tværs af de evner, der betyder mest for agentbaseret arbejde.
| Benchmark | Opus 4.8 | Opus 4.7 | Ændring |
|---|---|---|---|
| SWE-Bench Pro | 69,2% | 64,3% | +4,9 |
| Ræsonnering m/ værktøjer | 57,9% | 54,7% | +3,2 |
| OSWorld-Verified | 83,4% | 82,3% | +1,1 |
| Ærlighed (uopdagede fejl) | ~4x bedre | basislinje | 4x ↓ |
| Pris (pr. M) | $5 / $25 | $5 / $25 | samme |
De løste problemer
Den vigtigere historie for mange 4.7-brugere er, hvad der blev løst. Opus 4.7 fik reel kritik efter lanceringen. Udviklere klagede over overdreven kommentar-udførlighed (modellen overkommenterede kode), problemer med værktøjskald og en tendens til at forsvare forkerte svar — en modreaktionstråd gav den øgenavnet "Gaslightus 4.7" for at insistere på, at den havde ret, selv når den ikke havde, opfinde filer og forsvare hallucinerede testresultater. Dette var ikke små irritationsmomenter; de underminerede tilliden til modellen til seriøst arbejde.
Opus 4.8 adresserer disse direkte. Anthropic og tidlige testere (inklusive teamet hos Devin) bekræfter, at den løser problemerne med kommentar-udførlighed og værktøjskald fra 4.7. Mere fundamentalt rammer ærlighedsforbedringerne roden af "Gaslightus"-problemet: en model, der er 4x mindre tilbøjelig til at lade sine egne fejl passere, og som scorer 0% på ukritisk rapportering af fejlbehæftede resultater, er langt mindre tilbøjelig til at forsvare forkerte svar. Hvis 4.7's overdrevne selvtillid frustrerede dig, er 4.8's kalibrerede ærlighed løsningen. Vi dækker ærlighedsdataene i detaljer i vores gennemgang af ærlighedstallene.
📬 Får du værdi af dette?
Én brugbar AI-indsigt om ugen. Plus en gratis prompt-pakke, når du abonnerer.
Abonnér gratis →Bør du skifte — og skal du genteste?
For næsten alle, ja — skift. Det er samme pris, alle benchmarks er bedre, ærligheden er dramatisk forbedret, og de værste 4.7-problemer er løst. Hvis du bruger opus-aliaset, er du allerede blevet opgraderet automatisk. Der er ingen ulempe på omkostninger og en klar fordel på kvalitet.
Det eneste scenarie, der kræver omhu: hvis du har finjusteret prompts, agent-rammer eller produktionsarbejdsgange til 4.7's specifikke adfærd, bør du genteste, før du skifter produktionen over. Opus 4.8 har anderledes dømmekraft, mindre udførlighed og andre mønstre for værktøjskald. Disse er forbedringer, men en prompt, der er kalibreret til 4.7's særheder, kan producere anderledes output på 4.8. Til almindelig brug, bare skift. Til forretningskritiske arbejdsgange, kør dine vigtigste prompts gennem 4.8 først for at bekræfte adfærden. Vores opgraderingsbeslutningsguide dækker grænsetilfældene. Og for hurtigt at finjustere prompts igen hjælper den gratis Prompt Optimizer og TresPrompt.
📬 Vil du have mere som dette?
Én brugbar AI-indsigt om ugen. Plus en gratis prompt-pakke, når du abonnerer.
Abonnér gratis →Hvad tidlige testere siger om opgraderingen
Ud over benchmark-tallene tegner den kvalitative feedback fra tidlige testere et klarere billede af springet fra 4.7 til 4.8. Teamet hos Devin, som kører Claude på autonome ingeniørarbejdsbelastninger, bemærkede, at Opus 4.8 løser problemerne med kommentar-udførlighed og værktøjskald, som de oplevede med 4.7 — specifikke, konkrete forbedringer snarere end vage "den er bedre"-udsagn. Testere, der arbejder med agentbaseret kodning, beskriver Opus 4.8 som havende mærkbart bedre dømmekraft: den stiller de rigtige opklarende spørgsmål, fanger sine egne fejl og siger fra, når en plan ikke er fornuftig, i stedet for selvsikkert at storme afsted i den forkerte retning, som 4.7 nogle gange gjorde.
Skribenter og vidensarbejdere rapporterer, at Opus 4.8 er lettere at samarbejde med over lange sessioner — bedre til at bære kontekst og opretholde stilretning gennem et længere stykke arbejde. Dette adresserer en subtil, men reel frustration med 4.7, hvor kvaliteten kunne dale over en lang samtale. Det gennemgående tema blandt testere er, at 4.8 føles som en livskvalitetsopgradering: ikke dramatisk klogere, men meningsfuldt mere behagelig og pålidelig at arbejde med. Det matcher Anthropics "beskedne, men håndgribelige" indramning — forbedringerne er reelle og mærkes i daglig brug, selvom intet enkelt benchmark-tal indfanger dem.
Den praktiske migreringstjekliste
Hvis du beslutter dig for at flytte fra 4.7 til 4.8, er her en praktisk tjekliste til at gøre overgangen smidig. Først: identificér, hvilke af dine arbejdsgange der er kritiske versus afslappede. Til afslappet arbejde, bare skift — brug opus-aliaset eller opdatér til claude-opus-4-8 og fortsæt. Til kritiske arbejdsgange, kør dine vigtigste prompts gennem 4.8 i et testmiljø først, og sammenlign resultaterne med 4.7's. Vær specifikt opmærksom på adfærdsændringerne: mindre udførlige kommentarer (godt, men tjek, at den ikke udelader nødvendige detaljer), anderledes mønstre for værktøjskald (verificér, at dine integrationer stadig virker) og den forbedrede ærlighed (som kan fremhæve forbehold, 4.7 overså).
For det andet: hvis du bemærker, at nogle prompts opfører sig anderledes, så finjuster dem igen — den forbedrede model har ofte brug for lidt anderledes instruktioner for at producere optimale resultater, og en hurtig tur gennem en prompt-optimerer kan rekalibrere dem hurtigt. For det tredje: dokumentér skiftedatoen og eventuelle ændringer for dit team. Fordi Anthropic leverer en ny Opus cirka hver sjette uge, betaler det sig at opbygge en letvægtsproces til evaluering og adoption af opgraderinger — du kommer til at gøre dette igen snart. Investeringen i en smidig migreringsproces nu sparer tid ved hver fremtidig opgradering. For de fleste brugere forbliver bundlinjen dog enkel: 4.8 er bedre end 4.7 til samme pris, så opgraderingen er værd at foretage.
Det er også værd at bevare perspektivet omkring kadencen. Opus 4.7 var selv kun seks uger gammel, da 4.8 erstattede den, og 4.8 vil sandsynligvis blive afløst inden for et lignende vindue. Det betyder, at "skal jeg opgradere"-spørgsmålet ikke er en engangsbeslutning, men et tilbagevendende spørgsmål, du vil stå overfor cirka hver sjette uge. I stedet for at behandle hver opgradering som en større begivenhed, er den sundeste tilgang at behandle Opus-linjen som et kontinuerligt forbedrende værktøj: hold dig nogenlunde aktuel, opgradér dine kritiske arbejdsgange bevidst efter hurtig test, og lad dit ikke-kritiske arbejde følge aliaset. De teams, der håndterer dette bedst, er ikke dem, der grubler over hver udgivelse eller jagter hver version — det er dem, der har opbygget en hurtig, letvægts evalueringsvane og en prompting-tilgang, der overføres rent på tværs af versioner, så hver opgradering er en mindre finjustering snarere end en forstyrrelse.
Ofte stillede spørgsmål
Hvad er forskellen mellem Opus 4.8 og 4.7?
Opus 4.8 forbedrer alle offentliggjorte benchmarks over 4.7 (SWE-Bench Pro 69,2% mod 64,3%, ræsonnering 57,9% mod 54,7%), er 4x mindre tilbøjelig til at lade kodefejl passere og løser 4.7's problemer med kommentar-udførlighed og værktøjskald. Den koster det samme og tilføjer en billigere hurtig tilstand. Den blev også lanceret sammen med nye funktioner: dynamiske arbejdsgange, indsatskontrol og midtvejs-systemindgange.
Er Opus 4.8 værd at opgradere til fra 4.7?
Ja for næsten alle — den er bedre på alle målepunkter til samme pris, og opgraderingen sker automatisk via opus-aliaset. Det eneste forbehold er gentest af prompts, der er stærkt tunet til 4.7's specifikke adfærd, da 4.8 har anderledes dømmekraft og udførlighed. Til almindelig brug, bare skift.
Hvad var "Gaslightus 4.7"?
Det var et øgenavn fra en udvikler-modreaktionstråd, der kritiserede Opus 4.7's tendens til at forsvare forkerte svar — at opfinde filer og insistere på hallucinerede testresultater over flere omgange. Opus 4.8's ærlighedsforbedringer (4x færre uopdagede fejl, 0% ukritisk rapportering) adresserer dette direkte ved at gøre modellen langt mindre tilbøjelig til at forsvare forkerte svar.
Koster Opus 4.8 mere end 4.7?
Nej — prisen er identisk: $5/M input, $25/M output. Hurtig tilstand er faktisk tre gange billigere, end den var for tidligere modeller. Der er ingen prisstraf for den bedre model.
Skal jeg opdatere min kode for at skifte fra 4.7 til 4.8?
Hvis du bruger opus-aliaset, nej — det ruter nu automatisk til 4.8. Hvis du fastlåser claude-opus-4-7 specifikt, så ændr det til claude-opus-4-8. Det er den eneste nødvendige ændring.
Oplysning: Nogle links i denne artikel er affiliate-links. Vi anbefaler kun værktøjer, vi personligt har testet og bruger regelmæssigt. Se vores fulde oplysningspolitik.