Anthropic 于今日(2026 年 5 月 28 日)发布了 Claude Opus 4.8——距离 Opus 4.7 发布仅 41 天。这款新旗舰模型在编码、智能体任务、推理和知识工作方面均有提升,且价格与前代完全一致。同日,Anthropic 宣布完成 650 亿美元的 H 轮融资,估值达 9650 亿美元,正式超越 OpenAI,成为全球最具价值的 AI 公司。一日之内,两座历史性里程碑。
如果关于 Opus 4.8 你只想了解一件事,那就是:这是一次“适度但切实的改进”(Anthropic 原话),在三个方面取得了实质性进展——智能体编码、诚实性和对齐性——同时引入了三项新功能,将改变你与 Claude 协作的方式。它并非尚未发布的 Claude Mythos 所承诺的那种巨大飞跃,但它修复了 Opus 4.7 的真实问题,并在对自主 AI 工作至关重要的基准测试上设立了新标杆。
核心要点
Claude Opus 4.8(API ID:claude-opus-4-8)于 2026 年 5 月 28 日发布,价格不变(输入 $5/百万 token,输出 $25/百万 token)。它将 SWE-Bench Pro 得分从 64.3% 提升至 69.2%,在 OSWorld-Verified 上以 83.4% 领先,并在知识工作方面(GDPval-AA 1890)超越 GPT-5.5 和 Gemini 3.1 Pro。它忽略代码缺陷的概率约为前代的四分之一。同步推出的三项新功能:动态工作流(Claude Code 中的并行子智能体)、努力程度控制(claude.ai 和 Cowork)以及 Messages API 中的任务中途系统指令插入。快速模式现降价三分之二。
Claude Opus 4.8 有哪些新特性?
最显著的提升是智能体能力——即 Claude 使用工具独立完成多步骤任务的能力。早期测试者反馈,其判断力更敏锐,工具使用更出色,长时间运行工作流的可靠性也得到改善。该模型会提出恰当的问题,捕捉自身错误,在计划不周全时提出异议,并在进行重大变更前围绕复杂探索建立信心。对于将 Claude 用作自主智能体而非聊天机器人的用户来说,这些才是最重要的改进。
第二项重大改进是诚实性。Anthropic 训练其所有模型避免做出无法支持的断言,但 AI 模型一直存在一个顽疾:它们急于下结论,在证据薄弱时便自信满满地宣称取得进展。Opus 4.8 更倾向于标记其工作中的不确定性,并且不太可能做出无根据的断言。Anthropic 的评估显示,它忽略自己编写的代码中缺陷的概率约为 Opus 4.7 的四分之一。这是首个在未经批判性地报告有缺陷结果方面得分为 0% 的 Claude 模型,过度自信现象减少了十倍以上。
第三项改进是对齐性。Anthropic 的对齐团队得出结论,Opus 4.8“在我们衡量亲社会特质(如支持用户自主权和为用户最佳利益行事)的指标上创下新高”。它的失准行为率——欺骗或配合滥用——远低于 Opus 4.7,与 Anthropic 对齐性最好的模型 Claude Mythos Preview 相近。(关于评估感知存在一个令人担忧的注意事项,我们将在诚实性悖论深度剖析中详细探讨。)
Claude Opus 4.8 基准测试:对比表现如何?
Anthropic 公布了将 Opus 4.8 与其前代及竞品模型进行对比的基准测试。提升幅度虽属渐进但表现一致,Opus 4.8 在多数智能体和知识工作测试中处于领先地位。以下是具体数据。
| 基准测试 | Opus 4.8 | Opus 4.7 | 测试内容 |
|---|---|---|---|
| SWE-Bench Pro | 69.2% | 64.3% | 真实世界智能体编码 |
| OSWorld-Verified | 83.4% | 82.3% | 智能体计算机使用 |
| Online-Mind2Web | 84% | 更低 | 浏览器智能体任务 |
| GDPval-AA | 1890 | — | 知识工作(击败 GPT-5.5 的 1769) |
| 带工具推理 | 57.9% | 54.7% | 多学科推理 |
| Terminal-Bench 2.1 | 74.6% | — | 终端编码(GPT-5.5 以 78.2% 胜出) |
客观结论:Opus 4.8 在大多数智能体、计算机使用和知识工作基准测试中领先,在 GDPval-AA 上以较大优势击败 GPT-5.5 和 Gemini 3.1 Pro。但这并非全面碾压——GPT-5.5 仍在 Terminal-Bench 2.1(重度终端编码)上胜出,得分为 78.2%,而 Opus 4.8 为 74.6%。如果你的工作流以长时间终端会话为主,GPT-5.5 仍具竞争力。如需完整的正面对比,请参阅我们的三方基准测试详细分析。
随 Opus 4.8 推出的三项新功能
Opus 4.8 并非单独发布。Anthropic 同日推出了三项功能,将改变你跨产品与 Claude 交互的方式。
动态工作流(Claude Code)。该功能面向 Max、Team 和 Enterprise 计划提供研究预览,允许 Claude 规划大型任务,在单个会话中调度数百个并行子智能体,从独立角度攻克问题,部署对抗性智能体来反驳发现,并不断迭代直至答案收敛——然后在汇报前验证输出。其旗舰用例是跨越数十万行代码的代码库级迁移,从启动到合并,使用现有测试套件作为标准。我们在动态工作流详解中对此进行了全面拆解。
努力程度控制(claude.ai 和 Cowork)。模型选择器旁边新增了一个控制选项,让你选择 Claude 在回复中投入多少努力。更高的努力程度意味着 Claude 会更频繁、更深入地思考,以获得更好的回复;较低的努力程度则意味着更快的回复,更慢地消耗你的速率限制。该功能适用于所有计划。我们的努力程度控制指南介绍了何时使用每种设置。
任务中途系统指令插入(Messages API)。Messages API 现在支持在消息数组中插入系统指令,允许开发者在任务中途更新 Claude 的指令,而不会破坏提示缓存或需要通过用户回合来传递。这对于需要在中途更新权限、token 预算或环境上下文的智能体至关重要。详情见我们的API 变更详解。
定价与可用性
Claude Opus 4.8 今日起全面可用。常规价格与 Opus 4.7 保持不变:每百万输入 token 5 美元,每百万输出 token 25 美元。快速模式(2.5 倍速)定价为输入 $10/百万 token,输出 $50/百万 token——但值得注意的是,快速模式现比之前模型便宜三分之二。开发者可通过 Claude API 使用 claude-opus-4-8 访问该模型,opus 别名现已自动指向该模型。它已在 Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry 和 GitHub Copilot 上可用(在 6 月 1 日按量计费推出前,享有 15 倍的高级请求乘数)。
无论你通过何种方式访问 Opus 4.8,要想充分发挥其性能,结构良好的提示词能带来显著更好的结果。免费提示词优化器可在你发送指令前对其进行精炼,而TresPrompt则将一键优化功能直接带入 Claude、ChatGPT 和 Gemini。
下一步:Claude Mythos
Anthropic 借 Opus 4.8 的发布预告了即将到来的产品。该公司计划发布一类智能水平甚至超越 Opus 的新模型。作为 Glasswing 项目的一部分,少数组织已在网络安全工作中使用 Claude Mythos Preview。该能力级别的模型在正式发布前需要更强的网络安全防护措施,但 Anthropic 表示正在快速推进,预计“在未来几周内”将 Mythos 级模型带给所有客户。Opus 4.8 的对齐性已接近 Mythos Preview 水平——这暗示了未来的发展方向。更多信息请阅读我们的Mythos 时间线分析。
常见问题
Claude Opus 4.8 的 API 模型 ID 是什么?
API 模型 ID 是 claude-opus-4-8。opus 别名现已自动指向该模型,因此使用该别名的现有集成将自动升级。对于 100 万 token 上下文变体,请使用 claude-opus-4-8[1m]。它已在 Claude API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 上可用。
Claude Opus 4.8 的价格是多少?
常规使用价格为每百万输入 token 5 美元,每百万输出 token 25 美元——与 Opus 4.7 持平。快速模式(2.5 倍速)价格为输入 $10/百万 token,输出 $50/百万 token,比之前模型的快速模式便宜三分之二。跨云平台定价一致。
Claude Opus 4.8 比 GPT-5.5 更好吗?
这取决于任务。Opus 4.8 在智能体编码(SWE-Bench Pro)、计算机使用(OSWorld 83.4%)、浏览器任务(Online-Mind2Web 84%)和知识工作(GDPval-AA 1890 vs GPT-5.5 的 1769)方面领先。但 GPT-5.5 仍在 Terminal-Bench 2.1(78.2% vs 74.6%)的重度终端编码上胜出。对于大多数智能体和知识工作,Opus 4.8 更强;对于长时间终端会话,GPT-5.5 仍具竞争力。
我应该从 Opus 4.7 升级到 4.8 吗?
对大多数用户而言,是的——价格不变,基准测试更好,诚实性大幅提升,并修复了 Opus 4.7 的注释冗长和工具调用问题。如果你使用 opus 别名,升级是自动的。犹豫的主要理由:如果你的工作流已针对 4.7 的行为进行了深度调优,请重新测试你的提示词,因为模型的判断力和冗长度已发生变化。请参阅我们的升级决策指南。
Claude Opus 4.8 中的动态工作流是什么?
动态工作流是 Claude Code 的一项功能(研究预览,适用于 Max/Team/Enterprise),允许 Claude 规划大型任务,并在单个会话中运行数百个并行子智能体。子智能体从独立角度攻克问题,对抗性智能体尝试反驳发现,系统不断迭代直至答案收敛,然后汇报。主要用例是跨越数十万行代码的代码库级迁移。
披露:本文中的部分链接为营销联盟链接。我们仅推荐我们亲自测试并经常使用的工具。请参阅我们的完整披露政策。