OpenAI 于 2026 年 4 月 23 日发布了 GPT-5.5。Anthropic 于 4 月 16 日发布了 Claude Opus 4.7。两者相隔七天,都拥有 1M 令牌的上下文窗口,都被定位为各自实验室有史以来最聪慧的模型。一个模型明显占主导地位的时代已经结束——现在的正确选择完全取决于你用它做什么。
过去一周我们在实际工作流中测试了两者:代码编写、写作、数据分析、文档审阅和常识工作。以下是我们的发现。
GPT-5.5 在代理式编码、计算机使用和多工具工作流中胜出。Claude Opus 4.7 在推理基准、视觉任务和写作质量方面胜出。两者都不是普遍更好。按任务类型路由。
有哪些主要区别?
| 维度 | GPT-5.5 | Claude Opus 4.7 |
|---|---|---|
| 发布日期 | 2026 年 4 月 23 日 | 2026 年 4 月 16 日 |
| 上下文窗口 | 100 万令牌 | 100 万令牌 |
| 最大输出 | 12.8 万令牌 | 12.8 万令牌 |
| 输入价格 | $5 / 100 万令牌 | $5 / 100 万令牌 |
| 输出价格 | $30 / 100 万令牌 | $25 / 100 万令牌 |
| 最适合 | 代理式编码、计算机使用、多工具任务 | 推理、视觉、代码审阅、写作 |
| SWE-bench 验证 | — | 87.6% |
| Terminal-Bench 2.0 | 82.7% | 69.4% |
| GPQA Diamond | — | 94.2% |
| 视觉分辨率 | 标准(GPT-5.4 水平) | 375 万像素(前版本的 3.3 倍) |
| 消费者价格 | $20/月(Plus) | $20/月(Pro) |
哪个更适合编码?
这取决于编码的类型。GPT-5.5 在代理式编码方面占绝对优势——这类任务需要 AI 进行规划、执行多个步骤、使用终端命令并自主迭代。它在 Terminal-Bench 2.0 上的得分为 82.7%,而 Opus 4.7 为 69.4%。对于长时间运行的 Codex 会话,其中模型独立运行长达数分钟,GPT-5.5 在保持主线上明显表现更好。
不过,Opus 4.7 在结构化代码审阅和多文件重构方面领先。其 87.6% 的 SWE-bench 验证分数反映了它理解大型代码库并做出精确、正确更改的能力。在 Claude Code 中工作的开发人员报告说 Opus 4.7 "在规划阶段会捕捉自己的逻辑错误"——这是以前的 Claude 模型中没有见过的行为。
对于编码:当你需要 AI 端到端独立构建和测试某个东西时使用 GPT-5.5。当你需要它以精确度审阅、重构或调试现有代码时使用 Opus 4.7。不同的编码任务,不同的赢家。
哪个写得更好?
Opus 4.7 继续保持 Claude 在写作质量方面的优势。文章更自然、更多样化,更接近熟练的人类如何写作。GPT-5.5 相比 GPT-5.4 有显著改进——OpenAI 总裁格雷格·布罗克曼特别指出它"更直观"——但并排比较,Claude 的写作仍有更多范围,没有 ChatGPT 用户多年来抱怨的陈词滥调感。
Reddit 上关于 GPT-5.4(前一版本)的社区情绪包括关于"过度聪慧的气质"的反复抱怨,以及感觉设计过度的写作。GPT-5.5 的早期反应表明语调有所改善,但 Claude 的写作优势依然存在——尤其是对于长篇内容、电子邮件和任何读者会注意到通用措辞的内容。
哪个处理文档和视觉更好?
Opus 4.7 在这里明显胜出。其高分辨率视觉支持处理高达 375 万像素的图像——大约是以前 Claude 模型的 3.3 倍,远高于 GPT-5.5 的视觉能力。对于涉及密集财务图表、多列 PDF、架构图或注释截图的任务,Opus 4.7 产生明显更准确的结果。
对于文档分析,两个模型现在都支持 100 万令牌的上下文。但 Opus 4.7 在长文档中引用和参考特定部分方面历来更精确,早期报告表明这一优势在 4.7 版本中继续存在。
视觉和文档任务:选择 Opus 4.7。其 375 万像素分辨率支持和精确参考使其成为任何涉及图像、图表或多页文档的明确选择。
哪个更便宜?
两者都按 500 万输入令牌收费。Opus 4.7 在输出方面更便宜:每 100 万输出令牌 $25 对比 GPT-5.5 的 $30——相差 17%。但是,GPT-5.5 声称令牌效率显著更好,意味着它用更少令牌完成相同任务。OpenAI 的数据显示 GPT-5.5 以更少令牌使用处理相同难度的任务比 GPT-5.4 更快。
Opus 端还有一个问题:Opus 4.7 使用了一个新的分词器,相比 Opus 4.6 可以为相同输入生成 1-1.35 倍更多的令牌。所以虽然单位令牌价格更低,但你可能会在每个请求中使用更多令牌。
对于消费者订阅,两者都是各自付费版本的 $20/月(ChatGPT Plus 和 Claude Pro)。在这个级别,价格是相同的。
关于代理式任务和计算机使用呢?
GPT-5.5 专门针对代理式工作流进行了优化——这类任务中 AI 在多个步骤中自主运行:浏览网页、使用软件、执行代码并不断迭代直到完成任务。OpenAI 在 Codex 集成方面投入巨大,GPT-5.5 是第一个"给它一个混乱的多部分任务并相信它能搞定"实际对大多数用户可靠运作的模型。
Opus 4.7 引入了任务预算——一个功能让模型在整个代理式循环中有一个令牌预算,让它在该预算内规划和优先化工作。相比 GPT-5.5 更自主的风格,这是一种更结构化的代理式工作方法。两种方法都有效;它们只是使用感受不同。
关于安全和拒绝?
两个模型都配备了比前代更强的安全系统。GPT-5.5 在 OpenAI Preparedness Framework 下被分类为网络安全能力的"高"风险——比 GPT-5.4 向上迈进了一步。OpenAI 警告说更严格的分类器对一些用户来说初期可能感到烦人。
Opus 4.7 比任何以前的 Claude 模型都更字面地遵循指令。Anthropic 明确将此标记为行为变化:依赖早期模型宽松解释的提示可能会产生不同的结果,因为 Opus 4.7 将措辞当字面意思理解。这是一个功能,不是 bug——但这意味着现有提示可能需要更新。
那么你应该使用哪一个?
底线:2026 年 4 月没有单一的最佳模型。GPT-5.5 和 Opus 4.7 针对根本不同的工作流进行了优化。选错了意味着在你的特定任务上花更多钱得到更差的结果。按任务类型选择,而不是品牌忠诚度。
底线
日常使用两个平台?管理 ChatGPT 和 Claude 之间的对话很快就会变得混乱。
TresPrompt — 从一个扩展程序管理跨 ChatGPT、Claude 和 Gemini 的对话。