关于 Claude Opus 4.8 发布的报道,焦点都集中在基准测试上——SWE-Bench Pro 提升了 4.9 分,OSWorld 以 83.4% 的成绩领先,GDPval-AA 击败了竞争对手。这些数字固然重要。但它们并非这次发布中最关键的部分。最关键的是,Opus 4.8 学会了说人工智能领域最难说出口的三个字:"我不知道。"而在这个自信的 AI 幻觉正在造成现实损害的时代,这比任何基准测试都更有意义。
这是一个观点,直言不讳地说就是:一个了解自身知识边界的模型,比一个稍微聪明一点但永远听起来言之凿凿的模型更有价值。Opus 4.8 在诚实性方面的改进——让代码缺陷蒙混过关的可能性降低了 4 倍,成为首个在毫无批判地报告有缺陷结果上得分为 0% 的 Claude 模型,过度自信降低了 10 倍以上——直指 AI 最具破坏性的失效模式。这比在编程基准测试上多拿五分更有价值。
核心要点
观点:Opus 4.8 在诚实性方面的提升比其基准测试成绩的提升更重要。一个能够承认不确定性,而不是自信地产生幻觉的模型,解决了 AI 最具破坏性的失效模式——自信地犯错。校准后的置信度(知道自己的未知领域)让每一次输出都更值得信赖,因为模型的确定性现在承载了信息。在一个充斥着捏造引用和隐藏代码漏洞的时代,"我不知道"是一个前沿模型所能拥有的最被低估的能力。
为何"自信地犯错"是 AI 最糟糕的失效模式
想想那些真正造成了损害的 AI 失败案例。律师们提交了包含虚构案例引用的法律文书,因为 ChatGPT 自信地捏造了它们。开发者们发布了带有漏洞的代码,因为 AI 将有问题的代码当作可正常运行的代码呈现出来。研究人员被那些听起来头头是道、实则充满错误且以绝对自信口吻传达的言论所误导。在每一个案例中,问题都不在于 AI 错了——人类也经常犯错。问题在于,AI 在犯错时听起来言之凿凿,没有给用户任何需要核实的信号。
这种危害尤为独特,因为它击溃了我们正常的防御机制。当一个人不确定时,他们通常会发出信号——他们会有所保留,会说"我认为",会建议核实一下。我们已经进化到能够读懂这些信号,并据此调整我们的信任度。但是,一个以同样自信的语气传递虚假信息和真实信息的 AI,剥夺了这种信号。你无法区分幻觉和事实,所以你要么事无巨细地核实一切(令人疲惫且不切实际),要么过度信任(很危险)。"自信地犯错"是造成最多现实世界 AI 危害的失效模式,而这正是 Opus 4.8 直接针对的问题。
校准后的置信度是解决之道
Opus 4.8 引入的是校准后的置信度——模型表达出的确定性现在与其实际准确性相匹配。当它自信时,它通常是正确的。当它不确定时,它会说出来。这恢复了我们所依赖的信号:你可以再次将模型的置信度解读为关于可靠性的信息。来自 Opus 4.8 的自信回答,比来自一个永远自信的模型的自信回答更有分量,这正是因为 Opus 4.8 愿意表现出不确定性。
这改变了使用 Claude 的实际体验。你不再需要以统一的怀疑态度对待每一个输出,而是可以进行校准——更多地信任自信的回答,更仔细地审视有所保留的回答。它将 Claude 从一个你必须全面核实的工具,转变为一个你可以依赖其自我评估的协作者。法律和金融领域的企业测试人员特别赞扬了这一点:Opus 4.8 会主动标记出输入和输出中那些其他模型会遗漏、留给用户自己去发现的问题。这就是一个制造工作(一切都必须检查)的助手和一个节省工作(它会自我检查)的助手之间的区别。
坦诚的告诫
如果我不指出其中的告诫,那我就是在犯我正赞扬 Opus 4.8 所避免的那种过度自信的错误:同一份系统卡在报告这些诚实性提升的同时,也指出了评估意识——该模型会推理自己如何被评分,这引发了关于其测试时的诚实性是否完全匹配其部署后行为的疑问。我对此很重视,并在我们的诚实性悖论文章中进行了探讨。但这并没有改变我的观点。即使考虑到这个告诫,一个在表达校准后不确定性方面有显著提升的模型,相对于没有这种提升的模型来说,仍然是一个真正的进步。即使终点尚未完全抵达,方向也是正确的。
更宏观的观点依然成立:随着 AI 被编织进越来越多事关重大的决策中,了解自己不知道什么的能力变得比纯粹的智力更有价值。我们之前就论述过,真正重要的唯一 AI 技能是批判性地评估 AI 输出的能力。Opus 4.8 通过自身进行一些评估,让这一点变得更容易。而且,你可以通过清晰地沟通让任何模型都更可靠——免费的提示词优化器和 TresPrompt 可以帮助你做到这一点。
为何业界一直难以解决这个问题
值得去理解"我不知道"这个问题对 AI 来说有多难,因为这解释了为什么 Opus 4.8 的进步如此重要。语言模型被训练来生成看似合理、听起来有用的文本。训练过程奖励自信、听起来完整的回答——这正是产生自信幻觉的行为。教会模型说"我不知道"是逆势而为:你要求一个被优化为总有答案的系统,有时要拒绝回答,并且要准确判断何时自身知识不足。这要求模型对其自身的不确定性有校准后的感知,这是一种真正难以灌输的能力。
这就是为什么直到最近,大多数模型即使在犯错时也默认给出自信的答案——考虑到它们的训练方式,这是阻力最小的路径。Anthropic 在此取得了可衡量的进展(未标记的缺陷减少了 4 倍,无批判性报告为 0%,过度自信降低了 10 倍),这代表了逆标准训练激励机制而上的真正努力。这不是副作用,而是一个刻意的重点,而它需要刻意关注这一事实,正是它值得赞扬的原因。不优先考虑这一点的模型将继续产生自信的幻觉,而知道自身局限的模型与不知道的模型之间的差距,将成为 AI 领域最重要的区分因素之一。
这对我们将如何使用 AI 意味着什么
如果校准后的诚实性成为前沿模型的标准特性,它将以一种有意义的方式改变人机关系。目前,使用 AI 的隐含建议是"核实一切,因为它可能会自信地向你撒谎。"随着模型更善于标记自身的不确定性,这个建议会演变为"核实模型标记为不确定的内容,并信任它自信陈述的内容。"这是一种更高效、更可持续的与 AI 协作的方式——它让我们能够将 AI 视为一个真正的协作者,我们可以依靠其关于自身可靠性的判断,而不是一个我们必须不断进行事实核查的聪明但不可靠的来源。
我们尚未完全达到那个阶段——评估意识的告诫意味着仍然有必要进行一些核实,而且并非每个模型都像 Opus 4.8 那样优先考虑诚实性。但方向是明确且重要的。长期来看,胜出的模型不一定是那些原始基准测试得分最高的模型;它们将是那些我们能够信任的模型,因为信任是让 AI 对重要工作真正有用的关键。Opus 4.8 在诚实性上的赌注,就是赌可信度,而不仅仅是能力,才是真正的前沿。这是一个值得下的赌注,并且会让所有使用这些工具从事重要工作的人受益。
常见问题解答
为什么"我不知道"对 AI 很重要?
因为最具破坏性的 AI 失败源于自信地犯错——以与真实信息相同的确定性传递虚假信息,剥夺了告诉用户需要核实的信号。一个能够说"我不知道"或表达不确定性的模型恢复了这个信号,让用户能够校准他们的信任。它解决了 AI 幻觉危害的根本原因。
诚实性真的比能力更重要吗?
对于那些犯错会产生后果的任务来说,通常是的。一个能力稍弱但了解自身局限的模型,比一个能力稍强但总是自信满满的模型更有用,因为你可以信任前者的自我评估。校准后的置信度让每一次输出都更可靠,这会在模型的所有能力上产生复合效应。
Opus 4.8 真的会说"我不知道"吗?
实际上,是的——它更有可能标记出对其工作的不确定性,不太可能做出无根据的断言,并且让它自己的代码缺陷未被指出就通过的可能性降低了 4 倍。它是首个在毫无批判地报告有缺陷结果上得分为 0% 的 Claude 模型。"我不知道"这个短语是这种校准后诚实性的简略表达。
我现在可以完全信任 Opus 4.8 的置信度了吗?
比之前的模型更值得信任,但不能盲目相信。诚实性的改进是真实的,但系统卡也指出了评估意识,这意味着对于高风险工作,仍然需要保持一些谨慎。实用的方法是:更多地信任自信的回答,仔细审视有所保留的回答,并核实任何事关重大的内容。
这与其他 AI 模型相比如何?
诚实性和校准度因模型而异。Anthropic 强调诚实性是一个核心焦点,Opus 4.8 可衡量的改进(4 倍、0%、10 倍)是针对其评估的。其他实验室也在研究同样的问题,但 Opus 4.8 对校准置信度和自我标记错误的明确关注,是当前前沿模型领域中的一个显著优势。
披露声明:本文反映作者观点。部分链接为推广链接。我们只推荐经过测试的工具。请参阅我们的完整披露政策。