Google 于 2026 年 I/O 大会上推出了 Gemini 3.5 Flash,并宣称其在编码、代理和多模态基准测试中超越了 Gemini 3.1 Pro,输出 token 的速度比其他前沿模型快 4 倍。与此同时,Claude Opus 4.7 以 87.6% 的成绩保持着 SWE-bench 编码纪录,并在写作质量和指令遵循方面获得社区共识。GPT-5.4 则凭借全面性能和最广泛的功能集位居中间位置。
随着 Gemini 3.5 Pro 将于下月发布,以及 GPT-5.5 有望在 6 月前推出,模型竞争格局达到了前所未有的激烈程度。以下是截至 2026 年 5 月 20 日——Google I/O 结束后一天——的最新情况。
核心要点
Gemini 3.5 Flash 是速度之王。Claude Opus 4.7 是质量之王。GPT-5.4 是全能选手。没有单一模型能在所有类别中获胜。选择哪款模型取决于你的主要使用场景——越来越多认真使用的用户会订阅 2-3 款模型,并根据不同任务选用相应模型。
完整对比
| 维度 | Gemini 3.5 Flash | Claude Opus 4.7 | GPT-5.4 |
|---|---|---|---|
| 速度(token/秒) | 宣称比竞品快 4 倍 | 中等 | 带思考模式的快速响应 |
| SWE-bench(编码) | 宣称超越 3.1 Pro(待验证) | 87.6%(纪录保持者) | 74.9% |
| 写作质量 | 良好(较 3.1 版有所提升) | 最佳(社区共识) | 非常好 |
| 指令遵循 | 良好 | 最佳(4.7 版高度遵循字面指令) | 良好 |
| 上下文窗口 | 最高 200 万 token | 20 万 token | 12.8 万 token |
| 多模态能力 | 文本、图像、音频、视频(原生支持) | 文本、图像 | 文本、图像、音频 |
| 视频生成 | 支持(Gemini Omni) | 不支持 | 不支持(需使用独立 Sora) |
| 代理能力 | Gemini Spark(24/7,面向消费者) | Claude Code(编码)、MCP | Codex(异步批处理) |
| 生态系统 | Gmail、Calendar、Docs、Search、YouTube | Claude.ai、Code、Projects | ChatGPT、Codex、DALL-E、网页 |
| 价格($20/月套餐) | Plus — 包含 3.5 Flash + Omni + Daily Brief | Pro — 包含 Opus 4.7 + Projects | Plus — 包含 GPT-5.4 + 网页 + 图像 + 代码 |
| 隐私立场 | 数据收集最积极(需接入生态系统) | 最保守 | 中等 |
Google 速度宣称的实际含义
Google 宣称 Gemini 3.5 Flash 的输出 token 速度比其他前沿模型快 4 倍。如果这一说法得到独立验证,那么 Flash 将成为对延迟敏感应用的首选——包括聊天机器人回复、实时编码建议,以及任何等待 5 秒响应就会打断工作流的场景。
但速度与质量是两个不同的维度。一个在 1 秒内给出 80% 质量答案的模型,与一个在 4 秒内给出 95% 质量答案的模型,竞争逻辑完全不同。对于快速问题和简单任务,速度取胜。而对于复杂分析、代码生成和对质量敏感的写作,即便需要等待,更慢但更强大的模型也能带来更好的整体结果。
实际测试方法:今天就用你真实的任务尝试 Gemini 3.5 Flash(付费用户现已可用)。如果速度提升能明显改善你的工作流,那么质量上的妥协会是值得的。如果你发现自己需要比使用 Claude 时更多地编辑 Gemini 的输出,那么速度优势就无法弥补这一差距。
---📬 觉得有价值? 我们会在每次重大发布后更新模型对比。订阅到你的收件箱 →
---各模型的优势领域
Gemini 的优势:速度、上下文窗口(200 万 token)、多模态处理(原生视频支持)、生态系统整合(Google Workspace),以及代理易用性(Spark 无需任何设置即可使用)。
Claude 的优势:编码质量(SWE-bench 87.6%)、写作细腻度、指令遵循精准度(4.7 版高度遵循字面指令)、数据隐私,以及开发者工具(Claude Code 是目前最好的编码代理)。
GPT 的优势:功能广度(网页浏览、图像生成、代码解释器集成于单一界面)、$20 套餐的每美元吞吐量、第三方整合(最大插件生态系统),以及消费级体验。
你应该选择哪款模型?
选择 Gemini 的情况:如果你身处 Google 生态系统、追求最快响应速度、需要视频/音频处理,或希望使用 Gemini Spark 实现 24/7 的邮件和日历自动化,且无需任何设置。
选择 Claude 的情况:如果你更看重写作质量、编码准确性或数据隐私。Claude Code 是目前最好的 AI 编码工具。Claude Projects 提供专业工作中最好的持久上下文系统。
选择 ChatGPT 的情况:如果你希望在单一界面中获得最广泛的功能、最多的第三方整合,或在 $20 套餐中获得最慷慨的吞吐量。GPT-5.5 即将发布——查看我们的 预览。
多模型组合使用:每月 60 美元订阅全部三款 $20 套餐,可获得各自的最佳体验。Claude 负责质量,Gemini 负责速度和生态系统整合,ChatGPT 负责功能。不确定从哪款开始?可以尝试我们的 60 秒模型选择测试。
无论使用哪款模型,更好的提示词都能带来更好的输出。免费提示词优化器 可重构任何提示词以提升清晰度,且在 Gemini、Claude 和 ChatGPT 上效果一致。
---📬 想了解更多类似内容? 我们会在每次发布后更新模型排名。免费订阅 →
---常见问题
Gemini 3.5 Flash 是否已通过独立基准测试?
尚未进行——Google 的宣称均为自报数据。研究人员将在几天内开始测试并发布独立基准结果。我们会在验证数据可用时更新本对比。在此之前,请将“4 倍更快”和“超越 3.1 Pro”视为未经验证的声明。
Google I/O 后我应该从 Claude 切换到 Gemini?
仅凭 keynote 不足以决定切换。请先在免费阶层用你的实际任务测试 Gemini 3.5 Flash。如果 Claude 的输出质量对你的工作(写作、编码、分析)至关重要,那么仅为速度而切换可能不值得。
Gemini 3.5 Pro 情况如何?
预计将于下月发布测试版本。这是真正的旗舰模型,也是 Claude Opus 4.7 的真正竞争对手。Flash 是速度优化版本。Gemini 与 Claude 的决定性对比将在 Pro 发布后揭晓。
模型竞赛是否已经结束?
不——竞争正在加剧。GPT-5.5 有望在 6 月前发布。DeepSeek V4 预计于第二季度推出。Gemini 3.5 Pro 将于下月发布。前沿模型每隔几周就会有新进展。不要锁定单一模型——保持灵活,根据实际任务评估每款模型。
模型与提示词,哪个更重要?
在当前前沿水平上,提示词质量比模型差异更重要。在这三款模型中的任何一款上使用结构良好的提示词,都能比在“最佳”模型上使用模糊提示词产生更好的输出。ICCSSE 框架 可在所有提供商上产生一致的结果。
披露:本文中的某些链接为联盟链接。我们仅推荐我们亲自测试并经常使用的工具。查看我们的 完整披露政策。