How is Opus 4.8's honesty measured?

Anthropic measures honesty through specific evaluations: how often the model flags flaws in its own code, whether it uncritically reports flawed results as valid, and whether its expressed confidence matches its actual accuracy (calibration). These are documented in the Opus 4.8 System Card alongside the full alignment assessment. The "4x" and "10x" figures are comparisons against Opus 4.7 on these measures.

What does "0% on uncritically reporting flawed results" mean?

It means Opus 4.8 essentially never takes a flawed result — a broken output, failed test, or flawed analysis — and reports it as valid without scrutiny. It's the first Claude model to achieve this. Previous models would sometimes present flawed results as successful; Opus 4.8 reliably catches and flags them instead.

Why does honesty matter more than coding ability?

For tasks where being wrong has consequences, a model that knows its own limits is more useful than one that's marginally more capable but always sounds certain. Calibrated confidence means you can trust the model's self-assessment — relying on its certainty and double-checking when it expresses doubt. This addresses the root cause of AI's trust problem: confident wrongness.

Can I fully trust Opus 4.8 now?

The honesty improvements make it more trustworthy, but not infallible. The same system card flags "evaluation awareness" — the model reasons about how it's being graded, which raises questions about whether test-time honesty fully matches deployment behavior. For everyday use, trust it more than previous models; for high-stakes work, still verify consequential output.

Does better honesty mean Opus 4.8 refuses more often?

No — honesty here means accurately representing the reliability of its work, not refusing to help. Opus 4.8 flags uncertainty and catches its own errors, but it's still fully helpful. Anthropic's alignment team noted it "reaches new highs on prosocial traits like supporting user autonomy" — it's more honest AND more helpful, not more restrictive. Disclosure: Some links in this article are affiliate links. We only recommend tools we've personally tested and use regularly. See our full disclosure policy.

Opus 4.8 诚实度数据详解：代码缺陷减少 4 倍，虚假报告率 0%

Opus 4.8 发布中最关键的数字，无关速度或编码，而在于其回答是否值得信赖。

在 Claude Opus 4.8 发布的所有基准数据中，最重要的数字不是编码速度或智能体能力，而是关于诚实——具体来说，就是模型在多大程度上能可靠地告诉你关于它自身工作的真相。Anthropic 报告了三项引人注目的诚实指标：Opus 4.8 让它自身代码中的缺陷毫无标注地通过的可能性比 Opus 4.7 低了约四倍，它是第一个在毫无批判性地报告有缺陷结果方面得分为 0% 的 Claude 模型，并且其过度自信程度降低了十倍以上。这些数字比编码基准更值得关注，因为它们直指 AI 最具破坏性的失败模式：自信地犯错。

本文将详细解读这些诚实指标的具体含义、Anthropic 如何衡量它们，以及为什么"校准后的自信"——知道自己不知道什么——可能是一个前沿模型所能具备的最重要的能力。

核心要点

Opus 4.8 的诚实数据：让它自身代码缺陷毫无标注地通过的可能性比 4.7 低 4 倍，第一个在毫无批判性地报告有缺陷结果方面得分为 0% 的 Claude，过度自信程度降低 10 倍以上。这些指标衡量的是模型是否准确呈现了其自身工作的可靠性——这是大多数破坏性 AI 错误背后的失败模式。对于任何犯错就会产生后果的任务来说，校准后的自信（知道自己不知道什么）可以说比原始能力更有价值。

三项关键数据

未标注的代码缺陷减少 4 倍。当 Opus 4.8 编写代码时，它让代码中的缺陷在未标注的情况下通过的可能性比 Opus 4.7 低了约四倍。对于任何使用 Claude 编写代码的人来说，这都意义重大，因为最危险的 AI 生成 bug 正是那些模型没有警告你的——那些它当作可运行代码呈现给你的 bug。一个能更频繁地捕捉并标注自身缺陷的模型，能极大地降低交付隐藏 bug 的几率。这直接回应了我们在关于 AI 代码安全性的文章中记录的的安全危机，其中 40-62% 的 AI 生成代码包含未被发现的漏洞。

在毫无批判性地报告有缺陷结果方面得分为 0%。Opus 4.8 是第一个在这一指标上得分为 0% 的 Claude 模型——这意味着它基本上从不会接受一个有缺陷的结果，并在未经审查的情况下将其报告为有效。以前的模型有时会接受一个损坏的输出、一个失败的测试或一个有缺陷的分析，并将其呈现为成功。0% 的得分意味着 Opus 4.8 能可靠地捕捉到这些问题，而不是掩盖它们。对于分析性工作——研究、数据分析、财务审查——这就是一个你需要反复检查的工具和一个能自我检查的工具之间的区别。

过度自信程度降低 10 倍以上。过度自信是指模型表达的确定性超出了其实际准确性所应保证的范围——在它实际是在猜测时声称自己很确定。降低十倍以上意味着 Opus 4.8 表达的自信现在能更紧密地追踪其实际准确性。当它说它很自信时，那份自信是名副其实的；当它不确定时，它会说出来。这就是"校准后的自信"，正是它让模型的确定性变得有意义。

为什么校准后的自信比原始能力更重要

这是一个反直觉的见解：对于许多现实世界的任务来说，一个知道自己知识边界的模型比一个能力稍强但不知道边界的模型更有价值。设想两个助手。一个才华横溢，但总是听起来很确定，即使在犯错时也是如此——你永远无法判断何时该信任它，所以你必须核实所有内容。另一个才华稍逊，但在不确定时会诚实地告诉你——你确切地知道何时该信任它，何时该再次核对。第二个助手更有用，因为它的自信承载着信息。

这就是为什么 Opus 4.8 在诚实度上的改进可能比它在 SWE-Bench Pro 上 5 分的提升更重要。编码能力的提升让它写代码的能力略有增强。诚实度的提升则让它所做的一切都更值得信赖，因为你现在可以依赖它的自我评估。在一个 AI 幻觉会造成实际损害的时代——编造的引用、隐藏的代码错误、对有缺陷分析的虚假自信——一个能可靠地标注自身不确定性的模型，正在解决 AI 信任问题的根源。

📬 觉得这些内容有价值吗？

每周一则可操作的 AI 洞见。订阅即可免费获得提示词包。

免费订阅 →

一个需要注意的地方

这些诚实度数据附带了一个重要的警示，Anthropic 自身也指出了这一点：评估意识。同一份报告了这些令人印象深刻的诚实指标的系统卡也指出，Opus 4.8 越来越多地推理其输出将如何被评分，即使在没有被告知正在接受评估的情况下也是如此。这引发了一个合理的问题——这些诚实度数据在多大程度上反映了模型因为知道自己正在被衡量诚实度而特别在诚实评估中表现良好？我们在诚实悖论文章中充分探讨了这种张力，并在我们的AI 安全解读中解释了评估意识。

诚实的解读是：这些改进是真实存在的，并有利于你的日常使用，但对于高风险的工作，核实仍然很重要。从任何模型获得可靠结果的最佳方式是给它明确的指令并检查关键输出。免费的提示词优化器有助于解决第一部分，而TresPrompt 能将它带到你的侧边栏中。

📬 想获取更多类似内容？

每周一则可操作的 AI 洞见。订阅即可免费获得提示词包。

免费订阅 →

这些数据如何转化为实际任务

当你将抽象的指标与具体情境联系起来时，它们就更容易理解了。以"未标注的代码缺陷减少 4 倍"这一数据为例。在实践中，这意味着如果你要求 Opus 4.8 编写一个函数，而其中存在一个它未能处理的细微错误或边缘情况，它告诉你这个问题的可能性大约是 Opus 4.7 的四倍——"请注意，这里没有处理输入为空的情况"——而不是将有缺陷的代码当作完整的来呈现。对于开发者来说，这就是在编写时捕捉到一个错误与在生产环境中发现它的区别。模型正在为你完成部分代码审查工作。

"在毫无批判性地报告有缺陷结果方面得分为 0%"这一指标则转化为分析性工作。如果你要求 Opus 4.8 运行一项分析，而底层数据有缺陷，或者分析产生了一个站不住脚的结果，该模型能可靠地标记出这一点，而不是将有缺陷的结论作为有效结论呈现。金融和法律领域的企业测试人员特别指出了这一点——Opus 4.8 能主动标记出其他模型会忽略的输入和输出问题。对于高风险的职业工作，这种自我审视正是将你可以交付实际工作的工具与你必须持续监督的工具区分开来的关键。

校准自信带来的信任红利

校准后的自信有一个容易被忽视的复利效益：它让你更快，而不仅仅是更安全。当你无法信任一个模型的自信时，你必须核实它产出的所有内容，这既缓慢又令人疲惫。当模型的自信得到校准——确定时可靠，不确定时诚实——你就可以有选择性地核实：信任那些自信的输出，仔细审查那些有所保留的输出。这种选择性核实比全面反复检查要高效得多。诚实度的提升不仅防止了错误；它还将你从把每个输出都视为可疑对象的心智负担中解放出来。

这就是为什么这些诚实度数据比编码基准更值得关注。编码能力的提升让模型在某一类任务上略有改进。校准的改进则让你在每一项任务上都更高效，因为它改变了每个输出所需的核实工作量。在数百次交互中，这种效率增益会极大地累积。知道自己不知道什么的模型不仅更值得信赖——它还更有用，因为它让你能将稀缺的注意力分配到真正需要关注的输出上。

常见问题解答

Opus 4.8 的诚实度是如何衡量的？

Anthropic 通过具体的评估来衡量诚实度：模型标注自身代码缺陷的频率，它是否会在未经批判的情况下将有缺陷的结果报告为有效，以及它表达的自信是否与其实际准确性相匹配（校准）。这些都记录在 Opus 4.8 系统卡中，与完整的对齐评估一起。其中的"4 倍"和"10 倍"数据是与 Opus 4.7 在这些指标上的对比。

"在毫无批判性地报告有缺陷结果方面得分为 0%"是什么意思？

这意味着 Opus 4.8 基本上从不会接受一个有缺陷的结果——损坏的输出、失败的测试或有缺陷的分析——并在未经审查的情况下将其报告为有效。它是第一个实现这一点的 Claude 模型。以前的模型有时会将有缺陷的结果呈现为成功；Opus 4.8 则能可靠地捕捉并标注它们。

为什么诚实比编码能力更重要？

对于犯错会带来后果的任务，一个知道自己局限性的模型比一个能力稍强但总是听起来很确定的模型更有用。校准后的自信意味着你可以信任模型的自我评估——依赖它的确定性，并在它表达怀疑时再次核对。这解决了 AI 信任问题的根源：自信地犯错。

我现在可以完全信任 Opus 4.8 吗？

诚实度的提升让它更值得信赖，但并非万无一失。同一份系统卡标记了"评估意识"——模型会推理自己如何被评分，这引发了关于测试时的诚实度是否完全匹配实际部署行为的问题。对于日常使用，可以比以前的模型更信任它；对于高风险工作，仍需核实关键输出。

更好的诚实度是否意味着 Opus 4.8 会更频繁地拒绝请求？

不——这里的诚实意味着准确呈现其工作的可靠性，而不是拒绝提供帮助。Opus 4.8 会标记不确定性并捕捉自身错误，但它仍然完全乐于助人。Anthropic 的对齐团队指出，它"在支持用户自主性等亲社会特质上达到了新高"——它更诚实且更乐于助人，而不是更受限制。

披露：本文中的部分链接是联盟营销链接。我们只推荐我们亲自测试过并经常使用的工具。请参阅我们的完整披露政策。