Anthropic이 오늘, 2026년 5월 28일 Claude Opus 4.8을 출시했습니다. Opus 4.7 이후 불과 41일 만입니다. 새로운 플래그십 모델은 코딩, 에이전트 작업, 추론, 지식 작업 전반에 걸쳐 개선을 이루었으며, 이전 모델과 완전히 동일한 가격으로 제공됩니다. 같은 날, Anthropic은 9,650억 달러의 기업 가치를 인정받아 650억 달러 규모의 시리즈 H 자금 조달을 발표하며 공식적으로 OpenAI를 제치고 세계에서 가장 가치 있는 AI 기업이 되었습니다. 하루 만에 두 가지 역사적 이정표를 세운 셈입니다.

Opus 4.8에 대해 단 한 가지만 읽는다면, 이것을 읽으세요. 이는 "미미하지만 실질적인 개선"(Anthropic 자체 표현)으로, 에이전트 코딩, 정직성, 그리고 정렬이라는 세 가지 측면을 의미 있게 발전시키는 동시에 Claude를 사용하는 방식을 바꾸는 세 가지 새로운 기능을 도입했습니다. 아직 출시되지 않은 Claude Mythos가 약속하는 거대한 도약은 아니지만, Opus 4.7의 실제 문제점들을 수정하고 자율적인 AI 작업에 중요한 벤치마크에서 새로운 기준을 세웁니다.

핵심 요약

Claude Opus 4.8(API ID: claude-opus-4-8)이 2026년 5월 28일 동일한 가격(입력 $5/100만 토큰, 출력 $25/100만 토큰)으로 출시되었습니다. SWE-Bench Pro를 64.3%에서 69.2%로 개선했으며, OSWorld-Verified에서 83.4%로 선두를 달리고, 지식 작업(GDPval-AA 1890)에서 GPT-5.5 및 Gemini 3.1 Pro를 능가합니다. 코드 결함을 지적 없이 넘어갈 가능성이 약 4배 낮습니다. 동적 워크플로(Claude Code의 병렬 하위 에이전트), 노력 제어(claude.ai 및 Cowork), 메시지 API의 작업 중간 시스템 항목이라는 세 가지 새로운 기능이 함께 출시되었습니다. 빠른 모드는 이제 3배 저렴합니다.

Claude Opus 4.8의 새로운 기능

가장 큰 개선 사항은 에이전트 능력, 즉 Claude가 도구를 사용하여 여러 단계의 작업을 독립적으로 수행하는 능력입니다. 초기 테스터들은 더 날카로운 판단력, 더 나은 도구 사용, 그리고 장기 실행 워크플로에서 향상된 안정성을 보고합니다. 이 모델은 올바른 질문을 하고, 스스로 실수를 발견하며, 계획이 타당하지 않을 때 이의를 제기하고, 큰 변경을 하기 전에 복잡한 탐색에 대한 확신을 쌓습니다. Claude를 챗봇이 아닌 자율 에이전트로 사용하는 모든 사람에게 이러한 개선 사항은 가장 중요합니다.

두 번째 주요 개선 사항은 정직성입니다. Anthropic은 모든 모델이 뒷받침할 수 없는 주장을 하지 않도록 훈련시켰지만, AI 모델에는 지속적인 문제가 있습니다. 바로 증거가 부족할 때 자신 있게 진전을 주장하며 성급하게 결론을 내린다는 점입니다. Opus 4.8은 자신의 작업에 대한 불확실성을 표시할 가능성이 더 높고, 뒷받침되지 않는 주장을 할 가능성이 더 낮습니다. Anthropic의 평가에 따르면, Opus 4.8은 Opus 4.7에 비해 자신이 작성한 코드의 결함을 지적 없이 넘어갈 가능성이 약 4배 낮습니다. 결함 있는 결과를 무비판적으로 보고하는 점수에서 0%를 기록한 최초의 Claude 모델이며, 과잉 확신이 10배 이상 감소했습니다.

세 번째 개선 사항은 정렬입니다. Anthropic의 정렬 팀은 Opus 4.8이 "사용자 자율성 지원 및 사용자 최선의 이익을 위해 행동하는 것과 같은 친사회적 특성에 대한 우리의 측정에서 새로운 최고점에 도달했다"고 결론지었습니다. 기만이나 오용 협력과 같은 잘못 정렬된 행동의 비율은 Opus 4.7보다 상당히 낮으며, Anthropic에서 가장 잘 정렬된 모델인 Claude Mythos Preview와 유사합니다. (평가 인식에 대한 한 가지 우려되는 주의 사항이 있으며, 이에 대해서는 정직성 역설 심층 분석에서 다룹니다.)

Claude Opus 4.8 벤치마크: 어떻게 비교되나요?

Anthropic은 Opus 4.8을 이전 모델 및 경쟁 모델과 비교하는 벤치마크를 발표했습니다. 향상 폭은 점진적이지만 일관되며, Opus 4.8은 대부분의 에이전트 및 지식 작업 테스트에서 선두를 차지합니다. 수치 분석 결과는 다음과 같습니다.

벤치마크 Opus 4.8 Opus 4.7 측정 대상
SWE-Bench Pro69.2%64.3%실제 에이전트 코딩
OSWorld-Verified83.4%82.3%에이전트 컴퓨터 사용
Online-Mind2Web84%더 낮음브라우저 에이전트 작업
GDPval-AA1890지식 작업 (GPT-5.5의 1769를 능가)
도구를 사용한 추론57.9%54.7%다학제적 추론
Terminal-Bench 2.174.6%터미널 코딩 (GPT-5.5가 78.2%로 승리)

솔직한 결론: Opus 4.8은 대부분의 에이전트, 컴퓨터 사용 및 지식 작업 벤치마크에서 선두를 달리며, GDPval-AA에서 GPT-5.5와 Gemini 3.1 Pro를 큰 차이로 능가합니다. 하지만 완승은 아닙니다. GPT-5.5는 여전히 Terminal-Bench 2.1(터미널 중심 코딩)에서 78.2%로 Opus 4.8의 74.6%를 앞서며 승리합니다. 작업 흐름이 긴 터미널 세션 위주라면 GPT-5.5가 여전히 경쟁력 있습니다. 전체 비교를 보려면 3자 벤치마크 분석을 참조하세요.

📬 이 정보가 유용하셨나요?

매주 실행 가능한 AI 인사이트 하나. 구독 시 무료 프롬프트 팩도 드립니다.

무료 구독하기 →

Opus 4.8과 함께 출시되는 세 가지 새로운 기능

Opus 4.8은 단독으로 출시되지 않았습니다. Anthropic은 같은 날 여러 제품에서 Claude와 상호 작용하는 방식을 바꾸는 세 가지 기능을 선보였습니다.

동적 워크플로 (Claude Code). Max, Team, Enterprise 요금제를 대상으로 리서치 프리뷰로 제공되는 이 기능을 통해 Claude는 대규모 작업을 계획하고, 독립적인 각도에서 문제를 공격하는 수백 개의 병렬 하위 에이전트를 파견하며, 발견 사항을 반박하기 위해 적대적 에이전트를 배포하고, 답변이 수렴될 때까지 반복한 다음 보고하기 전에 출력을 검증할 수 있습니다. 주요 사용 사례는 기존 테스트 스위트를 기준으로 삼아 시작부터 병합까지 수십만 줄의 코드에 걸친 코드베이스 규모의 마이그레이션입니다. 동적 워크플로 설명에서 이에 대해 자세히 분석합니다.

노력 제어 (claude.ai 및 Cowork). 모델 선택기 옆에 있는 새로운 제어 기능을 통해 Claude가 응답에 쏟는 노력의 정도를 선택할 수 있습니다. 더 높은 노력은 Claude가 더 나은 응답을 위해 더 자주 그리고 더 깊이 생각한다는 의미이며, 더 낮은 노력은 속도 제한을 더 천천히 사용하는 더 빠른 답장을 의미합니다. 이 기능은 모든 요금제에서 사용할 수 있습니다. 노력 제어 가이드에서 각 설정을 언제 사용해야 하는지 다룹니다.

작업 중간 시스템 항목 (Messages API). 이제 Messages API는 메시지 배열 내에서 시스템 항목을 허용하므로, 개발자가 프롬프트 캐시를 중단하거나 사용자 턴을 통해 라우팅하지 않고도 작업 도중에 Claude의 지침을 업데이트할 수 있습니다. 이는 실행 중에 권한, 토큰 예산 또는 환경 컨텍스트를 업데이트해야 하는 에이전트에 중요합니다. 자세한 내용은 API 변경 사항 분석에서 확인하세요.

가격 및 이용 가능 여부

Claude Opus 4.8은 오늘부터 모든 곳에서 이용 가능합니다. 일반 가격은 Opus 4.7과 동일하게 입력 토큰 100만 개당 5달러, 출력 토큰 100만 개당 25달러입니다. 빠른 모드(2.5배 속도)는 입력 $10/100만 토큰, 출력 $50/100만 토큰으로 책정되었지만, 특히 빠른 모드는 이제 이전 모델보다 3배 저렴해졌습니다. 개발자는 claude-opus-4-8을 사용하여 Claude API를 통해 모델에 액세스하며, opus 별칭은 이제 자동으로 이 모델로 라우팅됩니다. Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry 및 GitHub Copilot에서 사용할 수 있습니다(6월 1일 사용량 기반 청구가 시작될 때까지 15배 프리미엄 요청 승수가 적용됨).

어떤 방식으로 액세스하든 Opus 4.8을 최대한 활용하려면 잘 구조화된 프롬프트가 훨씬 더 나은 결과를 가져옵니다. 무료 프롬프트 최적화 도구는 지침을 보내기 전에 다듬어 주며, TresPrompt는 Claude, ChatGPT, Gemini에 직접 원클릭 최적화 기능을 제공합니다.

📬 더 많은 정보를 원하시나요?

매주 실행 가능한 AI 인사이트 하나. 구독 시 무료 프롬프트 팩도 드립니다.

무료 구독하기 →

다음 단계: Claude Mythos

Anthropic은 Opus 4.8 발표를 통해 앞으로 나올 것에 대한 힌트를 흘렸습니다. 이 회사는 Opus보다 훨씬 더 높은 지능을 가진 새로운 등급의 모델을 출시할 계획입니다. Project Glasswing의 일환으로, 소수의 조직이 이미 사이버 보안 작업에 Claude Mythos Preview를 사용하고 있습니다. 해당 능력 수준의 모델은 일반 출시 전에 더 강력한 사이버 보호 장치가 필요하지만, Anthropic은 빠르게 진전을 이루고 있으며 "앞으로 몇 주 안에" Mythos 등급 모델을 모든 고객에게 제공할 것으로 예상한다고 밝혔습니다. Opus 4.8의 정렬은 이미 Mythos Preview 수준에 접근해 있으며, 이는 곧 다가올 일에 대한 암시입니다. Mythos 타임라인 분석에서 자세히 알아보세요.

자주 묻는 질문

Claude Opus 4.8 API 모델 ID는 무엇인가요?

API 모델 ID는 claude-opus-4-8입니다. 이제 opus 별칭이 자동으로 이 모델로 라우팅되므로, 별칭을 사용하는 기존 통합은 업그레이드됩니다. 100만 토큰 컨텍스트 변형의 경우 claude-opus-4-8[1m]을 사용하세요. Claude API, Amazon Bedrock, Google Cloud Vertex AI 및 Microsoft Foundry에서 사용할 수 있습니다.

Claude Opus 4.8의 비용은 얼마인가요?

일반 사용량은 입력 토큰 100만 개당 5달러, 출력 토큰 100만 개당 25달러로, Opus 4.7과 동일합니다. 빠른 모드(2.5배 속도)는 입력 $10/100만 토큰, 출력 $50/100만 토큰으로, 이전 모델의 빠른 모드보다 3배 저렴합니다. 가격은 모든 클라우드 플랫폼에서 동일합니다.

Claude Opus 4.8이 GPT-5.5보다 나은가요?

작업에 따라 다릅니다. Opus 4.8은 에이전트 코딩(SWE-Bench Pro), 컴퓨터 사용(OSWorld 83.4%), 브라우저 작업(Online-Mind2Web 84%), 지식 작업(GDPval-AA 1890 vs GPT-5.5의 1769)에서 앞섭니다. 그러나 GPT-5.5는 터미널 중심 코딩에서 여전히 Terminal-Bench 2.1(78.2% vs 74.6%)로 승리합니다. 대부분의 에이전트 및 지식 작업에서는 Opus 4.8이 더 강력하며, 긴 터미널 세션에서는 GPT-5.5가 여전히 경쟁력이 있습니다.

Opus 4.7에서 4.8로 업그레이드해야 하나요?

대부분의 사용자에게는 그렇습니다. 동일한 가격에 더 나은 벤치마크, 획기적으로 향상된 정직성, 그리고 Opus 4.7의 주석 장황함과 도구 호출 문제에 대한 수정 사항을 제공합니다. opus 별칭을 사용하면 업그레이드가 자동으로 이루어집니다. 망설여야 할 주요 이유: 작업 흐름이 4.7의 동작에 크게 맞춰져 있다면, 모델의 판단력과 장황함이 변경되었으므로 프롬프트를 다시 테스트하세요. 업그레이드 결정 가이드를 참조하세요.

Claude Opus 4.8의 동적 워크플로란 무엇인가요?

동적 워크플로는 Claude가 대규모 작업을 계획하고 단일 세션에서 수백 개의 병렬 하위 에이전트를 실행할 수 있게 해주는 Claude Code 기능(리서치 프리뷰, Max/Team/Enterprise)입니다. 하위 에이전트는 독립적인 각도에서 문제를 공격하고, 적대적 에이전트는 발견 사항을 반박하려고 시도하며, 시스템은 보고하기 전에 답변이 수렴될 때까지 반복합니다. 주요 사용 사례는 수십만 줄의 코드에 걸친 코드베이스 규모의 마이그레이션입니다.

공개: 이 글의 일부 링크는 제휴 링크입니다. 개인적으로 테스트하고 정기적으로 사용하는 도구만 추천합니다. 전체 공개 정책을 참조하세요.