Google 于 2026 年 I/O 大会上推出了 Gemini 3.5 Flash,并宣称其在编码、代理和多模态基准测试中超越了 Gemini 3.1 Pro,输出 token 的速度比其他前沿模型快 4 倍。与此同时,Claude Opus 4.7 以 87.6% 的成绩保持着 SWE-bench 编码纪录,并在写作质量和指令遵循方面获得社区共识。GPT-5.4 则凭借全面性能和最广泛的功能集位居中间位置。

随着 Gemini 3.5 Pro 将于下月发布,以及 GPT-5.5 有望在 6 月前推出,模型竞争格局达到了前所未有的激烈程度。以下是截至 2026 年 5 月 20 日——Google I/O 结束后一天——的最新情况。

核心要点

Gemini 3.5 Flash 是速度之王。Claude Opus 4.7 是质量之王。GPT-5.4 是全能选手。没有单一模型能在所有类别中获胜。选择哪款模型取决于你的主要使用场景——越来越多认真使用的用户会订阅 2-3 款模型,并根据不同任务选用相应模型。

完整对比

维度 Gemini 3.5 Flash Claude Opus 4.7 GPT-5.4
速度(token/秒)宣称比竞品快 4 倍中等带思考模式的快速响应
SWE-bench(编码)宣称超越 3.1 Pro(待验证)87.6%(纪录保持者)74.9%
写作质量良好(较 3.1 版有所提升)最佳(社区共识)非常好
指令遵循良好最佳(4.7 版高度遵循字面指令)良好
上下文窗口最高 200 万 token20 万 token12.8 万 token
多模态能力文本、图像、音频、视频(原生支持)文本、图像文本、图像、音频
视频生成支持(Gemini Omni)不支持不支持(需使用独立 Sora)
代理能力Gemini Spark(24/7,面向消费者)Claude Code(编码)、MCPCodex(异步批处理)
生态系统Gmail、Calendar、Docs、Search、YouTubeClaude.ai、Code、ProjectsChatGPT、Codex、DALL-E、网页
价格($20/月套餐)Plus — 包含 3.5 Flash + Omni + Daily BriefPro — 包含 Opus 4.7 + ProjectsPlus — 包含 GPT-5.4 + 网页 + 图像 + 代码
隐私立场数据收集最积极(需接入生态系统)最保守中等

Google 速度宣称的实际含义

Google 宣称 Gemini 3.5 Flash 的输出 token 速度比其他前沿模型快 4 倍。如果这一说法得到独立验证,那么 Flash 将成为对延迟敏感应用的首选——包括聊天机器人回复、实时编码建议,以及任何等待 5 秒响应就会打断工作流的场景。

但速度与质量是两个不同的维度。一个在 1 秒内给出 80% 质量答案的模型,与一个在 4 秒内给出 95% 质量答案的模型,竞争逻辑完全不同。对于快速问题和简单任务,速度取胜。而对于复杂分析、代码生成和对质量敏感的写作,即便需要等待,更慢但更强大的模型也能带来更好的整体结果。

实际测试方法:今天就用你真实的任务尝试 Gemini 3.5 Flash(付费用户现已可用)。如果速度提升能明显改善你的工作流,那么质量上的妥协会是值得的。如果你发现自己需要比使用 Claude 时更多地编辑 Gemini 的输出,那么速度优势就无法弥补这一差距。

---

📬 觉得有价值? 我们会在每次重大发布后更新模型对比。订阅到你的收件箱 →

---

各模型的优势领域

Gemini 的优势:速度、上下文窗口(200 万 token)、多模态处理(原生视频支持)、生态系统整合(Google Workspace),以及代理易用性(Spark 无需任何设置即可使用)。

Claude 的优势:编码质量(SWE-bench 87.6%)、写作细腻度、指令遵循精准度(4.7 版高度遵循字面指令)、数据隐私,以及开发者工具(Claude Code 是目前最好的编码代理)。

GPT 的优势:功能广度(网页浏览、图像生成、代码解释器集成于单一界面)、$20 套餐的每美元吞吐量、第三方整合(最大插件生态系统),以及消费级体验。

你应该选择哪款模型?

选择 Gemini 的情况:如果你身处 Google 生态系统、追求最快响应速度、需要视频/音频处理,或希望使用 Gemini Spark 实现 24/7 的邮件和日历自动化,且无需任何设置。

选择 Claude 的情况:如果你更看重写作质量、编码准确性或数据隐私。Claude Code 是目前最好的 AI 编码工具。Claude Projects 提供专业工作中最好的持久上下文系统。

选择 ChatGPT 的情况:如果你希望在单一界面中获得最广泛的功能、最多的第三方整合,或在 $20 套餐中获得最慷慨的吞吐量。GPT-5.5 即将发布——查看我们的 预览

多模型组合使用:每月 60 美元订阅全部三款 $20 套餐,可获得各自的最佳体验。Claude 负责质量,Gemini 负责速度和生态系统整合,ChatGPT 负责功能。不确定从哪款开始?可以尝试我们的 60 秒模型选择测试

无论使用哪款模型,更好的提示词都能带来更好的输出。免费提示词优化器 可重构任何提示词以提升清晰度,且在 Gemini、Claude 和 ChatGPT 上效果一致。

---

📬 想了解更多类似内容? 我们会在每次发布后更新模型排名。免费订阅 →

---

常见问题

Gemini 3.5 Flash 是否已通过独立基准测试?

尚未进行——Google 的宣称均为自报数据。研究人员将在几天内开始测试并发布独立基准结果。我们会在验证数据可用时更新本对比。在此之前,请将“4 倍更快”和“超越 3.1 Pro”视为未经验证的声明。

Google I/O 后我应该从 Claude 切换到 Gemini?

仅凭 keynote 不足以决定切换。请先在免费阶层用你的实际任务测试 Gemini 3.5 Flash。如果 Claude 的输出质量对你的工作(写作、编码、分析)至关重要,那么仅为速度而切换可能不值得。

Gemini 3.5 Pro 情况如何?

预计将于下月发布测试版本。这是真正的旗舰模型,也是 Claude Opus 4.7 的真正竞争对手。Flash 是速度优化版本。Gemini 与 Claude 的决定性对比将在 Pro 发布后揭晓。

模型竞赛是否已经结束?

不——竞争正在加剧。GPT-5.5 有望在 6 月前发布。DeepSeek V4 预计于第二季度推出。Gemini 3.5 Pro 将于下月发布。前沿模型每隔几周就会有新进展。不要锁定单一模型——保持灵活,根据实际任务评估每款模型。

模型与提示词,哪个更重要?

在当前前沿水平上,提示词质量比模型差异更重要。在这三款模型中的任何一款上使用结构良好的提示词,都能比在“最佳”模型上使用模糊提示词产生更好的输出。ICCSSE 框架 可在所有提供商上产生一致的结果。

披露:本文中的某些链接为联盟链接。我们仅推荐我们亲自测试并经常使用的工具。查看我们的 完整披露政策