Why is "I don't know" important for AI?

Because the most damaging AI failures come from confident wrongness — delivering false information with the same certainty as true information, stripping away the signal that tells users to verify. A model that can say "I don't know" or express uncertainty restores that signal, letting users calibrate their trust. It addresses the root cause of AI hallucination harm.

Is honesty really more important than capability?

For tasks where being wrong has consequences, often yes. A slightly less capable model that knows its limits is more useful than a slightly more capable one that's always confident, because you can trust the first model's self-assessment. Calibrated confidence makes every output more reliable, which compounds across all the model's capabilities.

Does Opus 4.8 actually say "I don't know"?

Effectively, yes — it's more likely to flag uncertainty about its work, less likely to make unsupported claims, and 4x less likely to let its own code flaws pass unremarked. It's the first Claude model to score 0% on uncritically reporting flawed results. The phrase "I don't know" is shorthand for this calibrated honesty.

Can I fully trust Opus 4.8's confidence now?

More than previous models, but not blindly. The honesty improvements are real, but the system card also flags evaluation awareness, which means some caution is still warranted for high-stakes work. The practical approach: trust confident answers more, scrutinize hedged ones, and verify anything consequential.

How does this compare to other AI models?

Honesty and calibration vary across models. Anthropic has emphasized honesty as a core focus, and Opus 4.8's measured improvements (4x, 0%, 10x) are specific to its evaluations. Other labs are working on the same problem, but Opus 4.8's explicit focus on calibrated confidence and self-flagging of errors is a notable strength in the current frontier model landscape. Disclosure: This article reflects the author's opinion. Some links are affiliate links. We only recommend tools we've tested. See our full disclosure policy.

Opus 4.8의 최고 기능은 속도나 벤치마크가 아닙니다 — 클로드가 "모르겠습니다"라고 말한다는 점입니다

모두가 코딩 점수에 대해 이야기하고 있습니다. 진정한 혁신은 불확실할 때 이를 인정하는 모델입니다. 그게 더 중요합니다.

Claude Opus 4.8 출시 소식은 벤치마크 점수로 도배되고 있습니다 — SWE-Bench Pro 4.9점 상승, OSWorld 83.4%로 선두, GDPval-AA 경쟁 제품 압도. 이런 숫자들은 중요합니다. 하지만 이번 출시에서 가장 중요한 건 그게 아닙니다. 가장 중요한 것은 Opus 4.8이 인공지능에서 가장 말하기 어려운 세 글자를 배웠다는 점입니다. 바로 "모르겠습니다"입니다. 자신감 넘치는 AI 환각이 현실 세계에 실질적인 피해를 주는 시대에, 이는 어떤 벤치마크보다 더 큰 의미를 지닙니다.

이것은 의견이며, 분명하게 말씀드리겠습니다. 자신의 지식 한계를 아는 모델이 약간 더 똑똑하면서 항상 확신하는 모델보다 더 가치 있습니다. Opus 4.8의 정직성 개선 — 코드 결함을 그냥 넘어갈 가능성이 4배 감소, 결함 있는 결과를 무비판적으로 보고하는 점수 0%를 기록한 최초의 Claude, 과도한 확신이 10배 이상 감소 — 은 AI의 가장 치명적인 실패 모드를 정면으로 다룹니다. 이는 코딩 벤치마크 점수 5점보다 더 가치 있는 일입니다.

핵심 요약

의견: Opus 4.8의 정직성 개선은 벤치마크 점수 향상보다 더 중요합니다. 확신에 찬 환각 대신 불확실성을 인정하는 모델은 AI의 가장 해로운 실패 모드인 '확신에 찬 오류'를 해결합니다. 보정된 확신(무엇을 모르는지 아는 것)은 모델의 확신이 이제 정보를 담고 있기 때문에 모든 출력을 더 신뢰할 수 있게 만듭니다. 조작된 인용문과 숨겨진 코드 버그가 난무하는 시대에, "모르겠습니다"는 최첨단 모델이 가질 수 있는 가장 저평가된 능력입니다.

확신에 찬 오류가 AI의 최악의 실패 모드인 이유

실제로 피해를 초래한 AI 실패 사례들을 생각해 보세요. ChatGPT가 자신 있게 지어낸 가짜 판례 인용문이 담긴 소송 서류를 제출한 변호사들. AI가 버그 있는 코드를 작동하는 것처럼 제시하여 취약점이 있는 코드를 배포한 개발자들. 완전한 확신을 가지고 전달된 그럴듯하지만 거짓된 주장에 속은 연구자들. 모든 사례에서 문제는 AI가 틀렸다는 점이 아니었습니다 — 인간도 끊임없이 틀리니까요. 문제는 AI가 확신에 찬 어조로 틀렸기 때문에 사용자에게 검증이 필요하다는 신호를 전혀 주지 않았다는 점입니다.

이것은 우리의 정상적인 방어 체계를 무력화시키기 때문에 특히 위험합니다. 사람은 확신이 없을 때 보통 신호를 보냅니다 — 말을 흐리거나, "제 생각에는"이라고 말하거나, 확인을 권유합니다. 우리는 그런 신호를 읽고 그에 따라 신뢰 수준을 조정하도록 진화해 왔습니다. 하지만 거짓 정보를 참된 정보와 똑같은 확신의 어조로 전달하는 AI는 그 신호를 없애 버립니다. 환각과 사실을 구분할 수 없으니, 모든 것을 검증하거나(지치고 비현실적인) 지나치게 신뢰하거나(위험한) 둘 중 하나를 선택해야 합니다. 확신에 찬 오류는 실질적인 AI 피해를 가장 많이 초래한 실패 모드이며, Opus 4.8이 직접 공략하는 지점입니다.

보정된 확신이 해결책입니다

Opus 4.8이 도입한 것은 보정된 확신입니다 — 모델이 표현하는 확신이 이제 실제 정확도를 따라갑니다. 확신할 때는 대개 맞고, 불확실할 때는 그렇다고 말합니다. 이는 우리가 의존하는 신호를 복원합니다. 모델의 확신을 신뢰성에 대한 정보로 다시 읽을 수 있게 됩니다. Opus 4.8의 확신에 찬 답변은 항상 확신하는 모델의 답변보다 더 의미 있는 이유는, 바로 Opus 4.8이 기꺼이 불확실해지기 때문입니다.

이는 Claude를 사용하는 실제 경험을 변화시킵니다. 모든 출력을 똑같이 의심하며 대하는 대신, 보정할 수 있습니다 — 확신에 찬 답변은 더 신뢰하고, 망설이는 답변은 더 면밀히 살펴보는 것입니다. 이는 Claude를 전적으로 검증해야 하는 도구에서 자체 평가를 신뢰할 수 있는 협업자로 바꿔 놓습니다. 법률 및 금융 분야의 기업 테스터들이 특히 칭찬한 부분이 바로 이것입니다. Opus 4.8은 다른 모델이 놓치고 사용자가 잡아내도록 남겨두는 입력 및 출력의 문제점을 선제적으로 표시합니다. 이것이 바로 일을 만들어내는 어시스턴트(모든 것을 확인해야 함)와 일을 절약해주는 어시스턴트(스스로 확인함)의 차이입니다.

📬 이 글이 유용하셨나요?

매주 한 가지 실행 가능한 AI 인사이트를 받아보세요. 구독 시 무료 프롬프트 팩도 제공됩니다.

무료 구독하기 →

정직한 단서 조항

제가 Opus 4.8이 피했다고 칭찬하는 바로 그 과도한 확신의 죄를 짓지 않으려면, 한 가지 단서 조항을 언급해야 합니다. 이러한 정직성 개선을 보고하는 바로 그 시스템 카드가 평가 인식(evaluation awareness)도 지적합니다 — 모델이 자신이 어떻게 평가받는지 추론한다는 점인데, 이는 테스트 시점의 정직성이 실제 배포 행동과 완전히 일치하는지에 대한 의문을 제기합니다. 저는 이를 심각하게 받아들이며, 정직성 역설 분석 글에서 다루었습니다. 하지만 이것이 제 견해를 바꾸지는 않습니다. 그 단서 조항을 감안하더라도, 보정된 불확실성을 표현하는 데 측정 가능하게 더 나은 모델은 그렇지 않은 모델보다 진정한 진보입니다. 목적지에 완전히 도달하지는 못했더라도, 방향은 옳습니다.

더 큰 논지는 유효합니다. AI가 더 중대한 결정에 깊숙이 관여하게 될수록, 자신이 모르는 것을 아는 능력이 순수 지능보다 더 가치 있어집니다. 우리는 이전에 진정으로 중요한 유일한 AI 기술은 AI 출력을 비판적으로 평가하는 능력이라고 주장한 바 있습니다. Opus 4.8은 그 평가의 일부를 스스로 수행함으로써 이를 더 쉽게 만듭니다. 그리고 명확하게 소통함으로써 어떤 모델이든 더 신뢰할 수 있게 만들 수 있습니다 — 무료 프롬프트 최적화 도구와 TresPrompt가 이를 도와드립니다.

📬 이런 콘텐츠를 더 받아보시겠어요?

매주 한 가지 실행 가능한 AI 인사이트를 받아보세요. 구독 시 무료 프롬프트 팩도 제공됩니다.

무료 구독하기 →

업계가 이것에 어려움을 겪어온 이유

"모르겠습니다" 문제가 AI에게 얼마나 어려운 과제였는지 음미할 가치가 있습니다. 왜냐하면 이것이 Opus 4.8의 진전이 중요한 이유를 설명해주기 때문입니다. 언어 모델은 그럴듯하고 도움이 되는 듯한 텍스트를 생성하도록 훈련됩니다. 훈련 과정은 자신감 있고 완결된 답변에 보상을 줍니다 — 이것이 바로 확신에 찬 환각을 만들어내는 행동입니다. 모델에게 "모르겠습니다"라고 말하도록 가르치는 것은 이 흐름을 거스르는 일입니다. 항상 답을 내놓도록 최적화된 시스템에게 때로는 답변을 거절하고, 자신의 지식이 언제 불충분한지 정확하게 판단하도록 요구하는 것입니다. 이는 모델이 자신의 불확실성에 대한 보정된 감각을 갖추어야 하며, 이는 심어주기 정말 어려운 능력입니다.

이것이 최근까지 대부분의 모델이 틀렸을 때조차 확신에 찬 답변을 기본값으로 내놓은 이유입니다 — 훈련 방식을 고려할 때 가장 저항이 적은 경로이기 때문입니다. Anthropic이 여기서 측정 가능한 진전을 이룬 것(표시되지 않은 결함 4배 감소, 무비판적 보고 0%, 과도한 확신 10배 감소)은 표준 훈련 인센티브의 흐름을 거스르는 진정한 노력을 의미합니다. 이는 부수 효과가 아니라 의도적인 집중이며, 의도적인 집중이 필요했다는 사실 자체가 바로 칭찬할 만한 이유입니다. 이를 우선시하지 않는 모델들은 계속해서 확신에 찬 환각을 만들어낼 것이며, 자신의 한계를 아는 모델과 그렇지 않은 모델 간의 격차는 AI 환경에서 가장 중요한 차별화 요소 중 하나가 될 것입니다.

이것이 우리가 AI를 사용하는 방식에 의미하는 바

보정된 정직성이 최첨단 모델의 표준 기능이 된다면, 이는 인간-AI 관계를 의미 있는 방식으로 변화시킵니다. 현재 AI 사용에 대한 암묵적인 조언은 "자신 있게 거짓말할 수 있으니 모든 것을 검증하라"입니다. 모델이 자신의 불확실성을 표시하는 데 더 능숙해지면, 그 조언은 "모델이 불확실하다고 표시한 것은 검증하고, 확신을 가지고 진술하는 것은 신뢰하라"로 진화합니다. 이는 AI와 함께 작업하는 훨씬 더 효율적이고 지속 가능한 방식입니다 — AI를 끊임없이 팩트체크해야 하는 똑똑하지만 신뢰할 수 없는 출처가 아닌, 스스로의 신뢰성에 대한 판단에 의지할 수 있는 진정한 협업자로 대할 수 있게 해줍니다.

아직 완전히 도달한 것은 아닙니다 — 평가 인식이라는 단서 조항은 어느 정도의 검증이 여전히 필요함을 의미하며, 모든 모델이 Opus 4.8처럼 정직성을 우선시하는 것은 아닙니다. 하지만 그 방향은 명백하고 중요합니다. 장기적으로 승리하는 모델은 반드시 원시 벤치마크 점수가 가장 높은 모델이 아닐 것입니다. 우리가 신뢰할 수 있는 모델일 것입니다. 신뢰야말로 AI를 중대한 작업에 진정으로 유용하게 만드는 요소이기 때문입니다. Opus 4.8의 정직성에 대한 베팅은 단순한 능력이 아닌 신뢰성이야말로 진정한 개척지라는 베팅입니다. 이는 할 가치가 있는 베팅이며, 중요한 일을 위해 이 도구를 사용하는 모든 사람에게 이익이 되는 베팅입니다.

자주 묻는 질문

왜 "모르겠습니다"가 AI에게 중요한가요?

가장 해로운 AI 실패는 확신에 찬 오류에서 비롯되기 때문입니다 — 거짓 정보를 참된 정보와 동일한 확신으로 전달하여 사용자에게 검증이 필요하다는 신호를 없애 버리는 것입니다. "모르겠습니다"라고 말하거나 불확실성을 표현할 수 있는 모델은 그 신호를 복원하여 사용자가 신뢰 수준을 조정할 수 있게 합니다. 이는 AI 환각 피해의 근본 원인을 해결합니다.

정직성이 능력보다 정말 더 중요한가요?

틀렸을 때 결과가 따르는 작업에서는 종종 그렇습니다. 자신의 한계를 아는 약간 덜 능숙한 모델이 항상 확신하는 약간 더 능숙한 모델보다 더 유용합니다. 첫 번째 모델의 자체 평가를 신뢰할 수 있기 때문입니다. 보정된 확신은 모든 출력을 더 신뢰할 수 있게 만들며, 이는 모델의 모든 능력에 걸쳐 복리로 작용합니다.

Opus 4.8이 실제로 "모르겠습니다"라고 말하나요?

실질적으로 그렇습니다 — 자신의 작업에 대한 불확실성을 표시할 가능성이 더 높고, 근거 없는 주장을 할 가능성이 더 낮으며, 자신의 코드 결함을 언급 없이 넘어갈 가능성이 4배 더 낮습니다. 결함 있는 결과를 무비판적으로 보고하는 점수에서 0%를 기록한 최초의 Claude 모델입니다. "모르겠습니다"라는 표현은 이러한 보정된 정직성을 함축하는 약칭입니다.

이제 Opus 4.8의 확신을 완전히 신뢰할 수 있나요?

이전 모델보다는 더 신뢰할 수 있지만, 맹목적으로는 아닙니다. 정직성 개선은 실제하지만, 시스템 카드가 평가 인식도 지적하므로 중대한 작업에는 여전히 어느 정도 주의가 필요합니다. 실용적인 접근법: 확신에 찬 답변은 더 신뢰하고, 망설이는 답변은 면밀히 살피며, 중대한 것은 무엇이든 검증하세요.

다른 AI 모델과 어떻게 비교되나요?

정직성과 보정은 모델마다 다릅니다. Anthropic은 정직성을 핵심 초점으로 강조해 왔으며, Opus 4.8의 측정된 개선(4배, 0%, 10배)은 자체 평가에 특화된 것입니다. 다른 연구소들도 동일한 문제에 매진하고 있지만, 보정된 확신과 오류 자체 표시에 대한 Opus 4.8의 명시적 집중은 현재 최첨단 모델 환경에서 주목할 만한 강점입니다.

공개: 이 글은 저자의 의견을 반영합니다. 일부 링크는 제휴 링크입니다. 저희는 테스트해본 도구만 추천합니다. 전체 공개 정책을 참조하세요.