在 Google I/O 2026 上,Google 展示了一项重新定义文档创建方式的功能。Docs Live 让你用语音把脑海中的想法一股脑说出来——无论是杂乱的思绪、跑题的内容、自我纠正还是意识流——Gemini 会实时将其整理成结构化的文档。无需打字、无需排版、无需大纲。只需开口说话,AI 就能完成剩下的一切。
这不是简单的语音听写。像 Otter.ai 这样的听写应用只会逐字转录你的话——包括每一个“呃”、跑题的内容和开头说错的部分。Docs Live 会理解你的意图,并生成格式化的文档。你说“我们需要跟进客户的时间线问题,对了,还要让 Sarah 知道预算调整的事,我觉得截止日期可能改到周五”——Docs Live 就会创建三条清晰、独立的任务项。
Gmail Live 将这一功能扩展到邮件:通过语音撰写和回复邮件,并自动匹配语气和格式。Keep Live 为笔记添加了语音输入功能。以上功能将于今年夏天面向付费订阅用户推出。
核心要点
Docs Live 解决了“空白页”难题,让你用说话代替打字。它不是语音转文字,而是从想法直接生成文档。对于那些更善于用语言思考、会议连绵不断没有时间写作,或者在把想法整理成文字方面有困难的人来说,这个功能尤其有价值。
Docs Live 到底是如何工作的?
Google 的现场演示中,一位用户用约 90 秒的时间口述了一份项目更新——内容是意识流式的,还穿插了关于预算问题的跑题和对团队成员截止日期的提醒。Gemini 实时处理音频,并生成了一个结构化的文档,包含:
| 你说了什么 | Docs Live 生成的内容 |
|---|---|
| 带有跑题内容的项目更新 | 结构化章节:状态、问题、行动项 |
| “Sarah 需要知道预算的事” | 行动项:“通知 Sarah 预算变更” |
| “我觉得截止日期改了……是周五吗?” | 备注:“待确认——截止日期可能已改为周五” |
| 说话中途自我纠正 | 采用纠正后的版本,忽略开头说错的部分 |
用户随后可以正常编辑文档,或继续通过语音添加内容。Google 还提到,未来版本将支持完全通过语音命令创建新文档和编辑现有文档——无需任何键盘操作。
---📬 觉得有价值? 我们持续关注改变日常工作流的 AI 生产力功能。订阅到你的收件箱 →
---Gmail Live 如何改变邮件处理?
Gmail Live 为邮件管理增加了语音功能。你无需打字回复,只需说出你的回应,Gemini 会根据对话上下文自动匹配合适的语气和长度。快速确认只需简短随意的回复,详细的客户回应则会生成结构清晰、语气专业的邮件。
结合 Gemini Spark 在后台处理邮件分类,整个工作流程变为:Spark 识别重要邮件并进行优先级排序 → 你查看每日简报 → 通过 Gmail Live 用语音回复紧急事项 → Spark 为低优先级邮件起草回复,你只需轻点确认即可。
这一承诺是:将原本需要 2 小时以上的阅读、打字和排版工作,缩短至 30 分钟的语音审阅和确认。实际效果如何,取决于 Gemini 对语音意图的理解程度——这将在今年夏天 beta 版发布后揭晓。
与现有语音听写工具相比如何?
| 工具 | 功能 | 输出结果 |
|---|---|---|
| Google Docs 语音输入 | 将语音转录为文字 | 原始文本(需手动排版) |
| Otter.ai | 转录并总结会议内容 | 转录稿 + 摘要 |
| Docs Live | 理解意图并创建结构化文档 | 包含章节和行动项的格式化文档 |
Docs Live 是对语音听写工具的类别升级。听写工具捕捉的是文字,而 Docs Live 捕捉的是意图并生成结构化输出。从“原始转录稿”到“结构化文档”之间的差距,正是 Gemini 完成的工作——也是大多数人最不愿意手动处理的部分。
对于基于文本的文档创建,ICCSSE 提示框架 依然适用——语音指令同样可以从(身份、上下文、约束)等结构中受益。对于文本提示优化,免费提示优化器 可以重构任何指令以获得更好的输出。
---📬 想要更多类似内容? 我们持续追踪 AI 生产力功能的上线。免费订阅 →
---常见问题
Docs Live 何时可用?
今年夏天面向付费 Gemini 订阅用户(Plus、Pro、Ultra)推出。具体日期未定。语音功能也将同时登陆 Gmail 和 Keep。
Docs Live 是否支持英语以外的语言?
Google 提到 Gemini 应用将在未来几个月支持“自定义区域方言”。Docs Live 的语言支持尚未公布——预计将先支持英语,随后推出其他语言。
文档创建后是否可以语音编辑?
Google 表示未来版本将支持完全通过语音创建和编辑文档。正式发布时,语音功能仅用于创建初始文档;编辑仍以键盘为主,语音可用于添加内容。完整语音编辑功能将于 2026 年晚些时候推出。
与直接使用 ChatGPT 或 Claude 起草相比,Docs Live 是否更好?
各有优势。Docs Live 直接集成到 Google Docs 中——无需在应用间复制粘贴。ChatGPT 和 Claude 通过提示词能更好地控制输出风格和结构。对于希望无缝实现语音转文档的 Google Workspace 用户来说,Docs Live 更为便捷。对于需要精准控制输出风格的用户,使用精心设计的提示词(可尝试 提示优化器)的聊天机器人可能更合适。
Docs Live 是否支持离线使用?
不太可能——AI 处理需要云端的 Gemini 3.5。标准 Google Docs 离线编辑仍可用于文本编辑,但语音转文档功能需要网络连接。
披露:本文部分链接为联盟链接。我们只推荐经过亲自测试和日常使用的工具。查看我们的 完整披露政策。