一个模糊的10字提示需要4轮澄清,消耗的token数比一个精确的80字提示(第一次就能成功)还要多。最昂贵的AI互动不是长的那个——而是你必须重复的那个。以下是8个技术,可以在Claude Code、Cursor和所有其他AI编码工具中将token使用量减少一半。
- 根本原因:60% 的token浪费来自重新解释上下文和迭代模糊提示
- 最大杠杆:启动新对话(节省重新阅读整个历史记录)
- 次大杠杆:更好的提示(一个好提示替代3-4个坏提示)
- 有帮助的工具:Caveman(输出压缩)、Code Burn(使用情况监控)
- 适用于:Claude Code、Cursor、GitHub Copilot、Windsurf——所有的都适用
- 最后验证时间:2026年4月
为什么会浪费Token
每个AI编码工具的工作原理都是一样的:你的提示加上整个对话历史记录随着每条消息一起发送给模型。第一条消息很便宜。第20条消息很昂贵——因为模型在生成响应前重新阅读了全部19条之前的消息。
这意味着最大的token消耗不是复杂的提示。而是长对话。一个有30条消息的对话,其中每条消息都重新阅读完整历史记录,成本大约是6个独立的5条消息对话(完成相同总工作量)的5倍。
第二个消耗是迭代。"添加auth" → "不,我是说OAuth" → "带Google提供商" → "还要添加速率限制" → "还要处理刷新token"这样5次交互,而一个详细的提示本来就能做对:"添加带Google提供商的OAuth身份验证,包括auth端点的速率限制和刷新token处理。"
8个技术
1. 每15-20条消息后启动新对话。这是单一最有影响力的习惯。用3-4句话总结你当前的进度,开始新聊天,将总结粘贴为上下文。你每条消息的token成本会回到基线。
2. 像移交文档一样写提示。包括什么已存在、你想改变什么、什么不应该被触及,以及预期的结果。一个精确的提示替代3-4个模糊的。净token节省:60-70%。
3. 为任务使用合适的模型。Claude Sonnet用于常规编辑。Opus用于复杂推理。不要为不需要最强大(也最昂贵)模型的任务使用它。在Cursor中,手动选择模型,而不是使用默认值。
4. 修剪你的输入。如果你要求Claude Code审查一个文件,提取相关部分——当只有50行重要时,不要喂它整个1000行文件。
5. 不要要求AI重复或重新格式化。复制输出并自己重新格式化。"你能把它改写成项目列表吗?"的成本等于原始响应加上新响应。选择文本,在本地重新格式化。
6. 使用Projects进行持久上下文。在Claude中,将你的项目文档、编码标准和偏好上传到Project一次。每个对话都继承此上下文,而不会浪费token重新解释它。
7. 安装Caveman进行输出压缩。开源Caveman插件从Claude Code响应中去除冗长的解释,将输出token减少40-60%,同时保持代码准确性。查看我们的3个Claude Code repos指南了解设置说明。
8. 使用Code Burn进行监控。你无法优化你没有测量的东西。Code Burn显示按文件、按对话的token消费。仅仅这种可视化就会改变你的行为。
觉得有价值?我们每周发布实用的AI成本节省指南。加入更聪明地构建的读者 →
改变你行为的数学
典型的Claude Pro订阅在5小时时间窗口内给你大约45条Opus消息。没有优化,一个复杂的编码会话在90分钟内耗尽。使用这些技术,相同的工作只需30-35条消息——为你剩余的一天留下余地。
"我总是达到速率限制"和"我很少达到速率限制"之间的区别不是支付更高的套餐。而是工作流纪律。
关于更长提示的反直觉真理
一个更长、更详细的提示每条消息成本更多token。但它每个任务的成本更少,因为它减少了来回消息的数量。我们的Prompt Optimizer让提示更长更具体——这正是为什么它总体上为你节省token。一个有效的80字提示的成本比五个无效的10字提示少。
你能写的最昂贵的提示是一个需要发送三次的短的、模糊的提示。
这是我们每周做的事。一个关于AI工具、工作流程和诚实观点的深入探讨——没有炒作,没有填充。加入我们 →
披露:本文中的某些链接是affiliate链接。我们只推荐我们亲自测试和定期使用的工具。查看我们的完整披露政策。