一个模糊的10字提示词需要4轮澄清,花费的token比一个精确的80字提示词还多,而后者第一次就能正常工作。最昂贵的AI交互不是长的那个——而是你必须重复的那个。这里有8个技巧,可以在Claude Code、Cursor和其他所有AI编码工具中将token使用量减少一半。
- 根本原因:60%的token浪费来自重新解释上下文和对模糊提示词的迭代
- 最大杠杆:开始新的对话(节省重新阅读整个历史记录)
- 次要杠杆:更好的提示词(一个好提示词替代3-4个坏提示词)
- 有帮助的工具:Caveman(输出压缩)、Code Burn(使用监控)
- 适用于:Claude Code、Cursor、GitHub Copilot、Windsurf——都适用
- 最后验证:2026年4月
为什么会浪费Token
每个AI编码工具在底层的工作方式都是相同的:你的提示词加上整个对话历史记录随每条消息一起发送到模型。第1条消息很便宜。第20条消息很昂贵——因为模型在生成响应之前重新读取所有19条之前的消息。
这意味着最大的token消耗不是复杂的提示词。而是长对话。一个30条消息的对话,其中每条消息都重新读取完整历史记录,花费的token大约是6个独立5条消息对话的5倍,尽管完成的总工作量相同。
第二个消耗是迭代。"添加认证" → "不,我是指OAuth" → "使用Google提供商" → "并添加速率限制" → "还要处理刷新token"需要5次交互,而一个详细的提示词本来可以一次做对:"添加OAuth认证,使用Google提供商,在认证端点上包括速率限制,并处理刷新token。"
8个技巧
1. 每15-20条消息后开始新的对话。这是单一最有影响力的习惯。用3-4句话总结你的当前进度,开始新的聊天,粘贴总结作为上下文。你每条消息的token成本下降回基线。
2. 像交接文档一样编写提示词。包括什么存在、你想改变什么、什么不应该被触及,以及预期的结果。一个精确的提示词替代3-4个模糊的提示词。净token节省:60-70%。
3. 为任务使用正确的模型。Claude Sonnet用于常规编辑。Opus用于复杂推理。不要对不需要的任务使用最强大(和最昂贵的)模型。在Cursor中,手动选择模型而不是使用默认值。
4. 修剪你的输入。如果你要求Claude Code审查一个文件,提取相关部分——不要在只有50行重要时给它整个1000行文件。
5. 不要要求AI重复或重新格式化。复制输出并自己重新格式化。"你能把它改写成项目符号吗?"花费的成本等于原始响应加上新响应的成本。选择文本,在本地重新格式化。
6. 使用Projects获取持久上下文。在Claude中,一次性将你的项目文档、编码标准和偏好上传到Project。每个对话都继承这个上下文而不会重复解释它。
7. 安装Caveman进行输出压缩。开源Caveman插件从Claude Code响应中去除冗长的解释,减少40-60%的输出token,同时保持代码准确性。查看我们的3个Claude Code仓库指南了解设置说明。
8. 使用Code Burn监控。你无法优化你没有测量的东西。Code Burn显示按文件、按对话的token消耗。仅仅是可视化就会改变你的行为。
从这篇文章中获得价值?我们每周发布实用的AI成本节省指南。加入更聪明的构建者 →
改变你行为的数学
典型的Claude Pro订阅在5小时窗口内提供大约45条Opus消息。没有优化的情况下,一个复杂的编码会话在90分钟内耗尽这个配额。使用这些技巧,相同的工作需要30-35条消息——为你的一天的其余部分留出空间。
"我总是达到速率限制"和"我很少达到速率限制"之间的区别不是支付更高的层级。而是工作流程纪律。
关于更长提示词的反直觉真相
更长、更详细的提示词每条消息花费更多token。但它每个任务花费更少token,因为它减少了来回消息的数量。我们的提示词优化器使提示词更长、更具体——这正是为什么它总体上为你节省token。一个80字的有效提示词花费的成本少于5个10字的无效提示词。
你能写出的最昂贵的提示词是一个短的、模糊的、需要发送三次的提示词。
这是我们每周做的事。关于AI工具、工作流程和诚实观点的深入探讨——没有炒作,没有填充。加入我们 →
披露:本文中的某些链接是联盟链接。我们只推荐我们亲自测试和定期使用的工具。查看我们的完整披露政策。