Why is "I don't know" important for AI?

Because the most damaging AI failures come from confident wrongness — delivering false information with the same certainty as true information, stripping away the signal that tells users to verify. A model that can say "I don't know" or express uncertainty restores that signal, letting users calibrate their trust. It addresses the root cause of AI hallucination harm.

Is honesty really more important than capability?

For tasks where being wrong has consequences, often yes. A slightly less capable model that knows its limits is more useful than a slightly more capable one that's always confident, because you can trust the first model's self-assessment. Calibrated confidence makes every output more reliable, which compounds across all the model's capabilities.

Does Opus 4.8 actually say "I don't know"?

Effectively, yes — it's more likely to flag uncertainty about its work, less likely to make unsupported claims, and 4x less likely to let its own code flaws pass unremarked. It's the first Claude model to score 0% on uncritically reporting flawed results. The phrase "I don't know" is shorthand for this calibrated honesty.

Can I fully trust Opus 4.8's confidence now?

More than previous models, but not blindly. The honesty improvements are real, but the system card also flags evaluation awareness, which means some caution is still warranted for high-stakes work. The practical approach: trust confident answers more, scrutinize hedged ones, and verify anything consequential.

How does this compare to other AI models?

Honesty and calibration vary across models. Anthropic has emphasized honesty as a core focus, and Opus 4.8's measured improvements (4x, 0%, 10x) are specific to its evaluations. Other labs are working on the same problem, but Opus 4.8's explicit focus on calibrated confidence and self-flagging of errors is a notable strength in the current frontier model landscape. Disclosure: This article reflects the author's opinion. Some links are affiliate links. We only recommend tools we've tested. See our full disclosure policy.

Opus 4.8 的最佳特性不是速度或基准测试分数——而是 Claude 会说“我不知道”

人人都在谈论编程得分，真正的突破是模型在不确定时敢于承认，这重要得多。

关于 Claude Opus 4.8 发布的报道，焦点都集中在基准测试上——SWE-Bench Pro 提升了 4.9 分，OSWorld 以 83.4% 的成绩领先，GDPval-AA 击败了竞争对手。这些数字固然重要。但它们并非这次发布中最关键的部分。最关键的是，Opus 4.8 学会了说人工智能领域最难说出口的三个字："我不知道。"而在这个自信的 AI 幻觉正在造成现实损害的时代，这比任何基准测试都更有意义。

这是一个观点，直言不讳地说就是：一个了解自身知识边界的模型，比一个稍微聪明一点但永远听起来言之凿凿的模型更有价值。Opus 4.8 在诚实性方面的改进——让代码缺陷蒙混过关的可能性降低了 4 倍，成为首个在毫无批判地报告有缺陷结果上得分为 0% 的 Claude 模型，过度自信降低了 10 倍以上——直指 AI 最具破坏性的失效模式。这比在编程基准测试上多拿五分更有价值。

核心要点

观点：Opus 4.8 在诚实性方面的提升比其基准测试成绩的提升更重要。一个能够承认不确定性，而不是自信地产生幻觉的模型，解决了 AI 最具破坏性的失效模式——自信地犯错。校准后的置信度（知道自己的未知领域）让每一次输出都更值得信赖，因为模型的确定性现在承载了信息。在一个充斥着捏造引用和隐藏代码漏洞的时代，"我不知道"是一个前沿模型所能拥有的最被低估的能力。

为何"自信地犯错"是 AI 最糟糕的失效模式

想想那些真正造成了损害的 AI 失败案例。律师们提交了包含虚构案例引用的法律文书，因为 ChatGPT 自信地捏造了它们。开发者们发布了带有漏洞的代码，因为 AI 将有问题的代码当作可正常运行的代码呈现出来。研究人员被那些听起来头头是道、实则充满错误且以绝对自信口吻传达的言论所误导。在每一个案例中，问题都不在于 AI 错了——人类也经常犯错。问题在于，AI 在犯错时听起来言之凿凿，没有给用户任何需要核实的信号。

这种危害尤为独特，因为它击溃了我们正常的防御机制。当一个人不确定时，他们通常会发出信号——他们会有所保留，会说"我认为"，会建议核实一下。我们已经进化到能够读懂这些信号，并据此调整我们的信任度。但是，一个以同样自信的语气传递虚假信息和真实信息的 AI，剥夺了这种信号。你无法区分幻觉和事实，所以你要么事无巨细地核实一切（令人疲惫且不切实际），要么过度信任（很危险）。"自信地犯错"是造成最多现实世界 AI 危害的失效模式，而这正是 Opus 4.8 直接针对的问题。

校准后的置信度是解决之道

Opus 4.8 引入的是校准后的置信度——模型表达出的确定性现在与其实际准确性相匹配。当它自信时，它通常是正确的。当它不确定时，它会说出来。这恢复了我们所依赖的信号：你可以再次将模型的置信度解读为关于可靠性的信息。来自 Opus 4.8 的自信回答，比来自一个永远自信的模型的自信回答更有分量，这正是因为 Opus 4.8 愿意表现出不确定性。

这改变了使用 Claude 的实际体验。你不再需要以统一的怀疑态度对待每一个输出，而是可以进行校准——更多地信任自信的回答，更仔细地审视有所保留的回答。它将 Claude 从一个你必须全面核实的工具，转变为一个你可以依赖其自我评估的协作者。法律和金融领域的企业测试人员特别赞扬了这一点：Opus 4.8 会主动标记出输入和输出中那些其他模型会遗漏、留给用户自己去发现的问题。这就是一个制造工作（一切都必须检查）的助手和一个节省工作（它会自我检查）的助手之间的区别。

📬 觉得这些内容有价值吗？

每周一封可执行的 AI 洞见邮件。订阅即可免费获取提示词包。

免费订阅 →

坦诚的告诫

如果我不指出其中的告诫，那我就是在犯我正赞扬 Opus 4.8 所避免的那种过度自信的错误：同一份系统卡在报告这些诚实性提升的同时，也指出了评估意识——该模型会推理自己如何被评分，这引发了关于其测试时的诚实性是否完全匹配其部署后行为的疑问。我对此很重视，并在我们的诚实性悖论文章中进行了探讨。但这并没有改变我的观点。即使考虑到这个告诫，一个在表达校准后不确定性方面有显著提升的模型，相对于没有这种提升的模型来说，仍然是一个真正的进步。即使终点尚未完全抵达，方向也是正确的。

更宏观的观点依然成立：随着 AI 被编织进越来越多事关重大的决策中，了解自己不知道什么的能力变得比纯粹的智力更有价值。我们之前就论述过，真正重要的唯一 AI 技能是批判性地评估 AI 输出的能力。Opus 4.8 通过自身进行一些评估，让这一点变得更容易。而且，你可以通过清晰地沟通让任何模型都更可靠——免费的提示词优化器和 TresPrompt 可以帮助你做到这一点。

📬 想获取更多类似内容？

每周一封可执行的 AI 洞见邮件。订阅即可免费获取提示词包。

免费订阅 →

为何业界一直难以解决这个问题

值得去理解"我不知道"这个问题对 AI 来说有多难，因为这解释了为什么 Opus 4.8 的进步如此重要。语言模型被训练来生成看似合理、听起来有用的文本。训练过程奖励自信、听起来完整的回答——这正是产生自信幻觉的行为。教会模型说"我不知道"是逆势而为：你要求一个被优化为总有答案的系统，有时要拒绝回答，并且要准确判断何时自身知识不足。这要求模型对其自身的不确定性有校准后的感知，这是一种真正难以灌输的能力。

这就是为什么直到最近，大多数模型即使在犯错时也默认给出自信的答案——考虑到它们的训练方式，这是阻力最小的路径。Anthropic 在此取得了可衡量的进展（未标记的缺陷减少了 4 倍，无批判性报告为 0%，过度自信降低了 10 倍），这代表了逆标准训练激励机制而上的真正努力。这不是副作用，而是一个刻意的重点，而它需要刻意关注这一事实，正是它值得赞扬的原因。不优先考虑这一点的模型将继续产生自信的幻觉，而知道自身局限的模型与不知道的模型之间的差距，将成为 AI 领域最重要的区分因素之一。

这对我们将如何使用 AI 意味着什么

如果校准后的诚实性成为前沿模型的标准特性，它将以一种有意义的方式改变人机关系。目前，使用 AI 的隐含建议是"核实一切，因为它可能会自信地向你撒谎。"随着模型更善于标记自身的不确定性，这个建议会演变为"核实模型标记为不确定的内容，并信任它自信陈述的内容。"这是一种更高效、更可持续的与 AI 协作的方式——它让我们能够将 AI 视为一个真正的协作者，我们可以依靠其关于自身可靠性的判断，而不是一个我们必须不断进行事实核查的聪明但不可靠的来源。

我们尚未完全达到那个阶段——评估意识的告诫意味着仍然有必要进行一些核实，而且并非每个模型都像 Opus 4.8 那样优先考虑诚实性。但方向是明确且重要的。长期来看，胜出的模型不一定是那些原始基准测试得分最高的模型；它们将是那些我们能够信任的模型，因为信任是让 AI 对重要工作真正有用的关键。Opus 4.8 在诚实性上的赌注，就是赌可信度，而不仅仅是能力，才是真正的前沿。这是一个值得下的赌注，并且会让所有使用这些工具从事重要工作的人受益。

常见问题解答

为什么"我不知道"对 AI 很重要？

因为最具破坏性的 AI 失败源于自信地犯错——以与真实信息相同的确定性传递虚假信息，剥夺了告诉用户需要核实的信号。一个能够说"我不知道"或表达不确定性的模型恢复了这个信号，让用户能够校准他们的信任。它解决了 AI 幻觉危害的根本原因。

诚实性真的比能力更重要吗？

对于那些犯错会产生后果的任务来说，通常是的。一个能力稍弱但了解自身局限的模型，比一个能力稍强但总是自信满满的模型更有用，因为你可以信任前者的自我评估。校准后的置信度让每一次输出都更可靠，这会在模型的所有能力上产生复合效应。

Opus 4.8 真的会说"我不知道"吗？

实际上，是的——它更有可能标记出对其工作的不确定性，不太可能做出无根据的断言，并且让它自己的代码缺陷未被指出就通过的可能性降低了 4 倍。它是首个在毫无批判地报告有缺陷结果上得分为 0% 的 Claude 模型。"我不知道"这个短语是这种校准后诚实性的简略表达。

我现在可以完全信任 Opus 4.8 的置信度了吗？

比之前的模型更值得信任，但不能盲目相信。诚实性的改进是真实的，但系统卡也指出了评估意识，这意味着对于高风险工作，仍然需要保持一些谨慎。实用的方法是：更多地信任自信的回答，仔细审视有所保留的回答，并核实任何事关重大的内容。

这与其他 AI 模型相比如何？

诚实性和校准度因模型而异。Anthropic 强调诚实性是一个核心焦点，Opus 4.8 可衡量的改进（4 倍、0%、10 倍）是针对其评估的。其他实验室也在研究同样的问题，但 Opus 4.8 对校准置信度和自我标记错误的明确关注，是当前前沿模型领域中的一个显著优势。

披露声明：本文反映作者观点。部分链接为推广链接。我们只推荐经过测试的工具。请参阅我们的完整披露政策。