如何停止在Claude Code上消耗代币（完整指南）

新建聊天、交接提示、模型选择、原始人模式、代码燃烧——八个习惯可以减少可计费的上下文。

一个模糊的10字提示需要4轮澄清，消耗的token数比一个精确的80字提示（第一次就能成功）还要多。最昂贵的AI互动不是长的那个——而是你必须重复的那个。以下是8个技术，可以在Claude Code、Cursor和所有其他AI编码工具中将token使用量减少一半。

快速事实

为什么会浪费Token

每个AI编码工具的工作原理都是一样的：你的提示加上整个对话历史记录随着每条消息一起发送给模型。第一条消息很便宜。第20条消息很昂贵——因为模型在生成响应前重新阅读了全部19条之前的消息。

这意味着最大的token消耗不是复杂的提示。而是长对话。一个有30条消息的对话，其中每条消息都重新阅读完整历史记录，成本大约是6个独立的5条消息对话（完成相同总工作量）的5倍。

第二个消耗是迭代。"添加auth" → "不，我是说OAuth" → "带Google提供商" → "还要添加速率限制" → "还要处理刷新token"这样5次交互，而一个详细的提示本来就能做对："添加带Google提供商的OAuth身份验证，包括auth端点的速率限制和刷新token处理。"

1. 每15-20条消息后启动新对话。这是单一最有影响力的习惯。用3-4句话总结你当前的进度，开始新聊天，将总结粘贴为上下文。你每条消息的token成本会回到基线。

2. 像移交文档一样写提示。包括什么已存在、你想改变什么、什么不应该被触及，以及预期的结果。一个精确的提示替代3-4个模糊的。净token节省：60-70%。

3. 为任务使用合适的模型。Claude Sonnet用于常规编辑。Opus用于复杂推理。不要为不需要最强大（也最昂贵）模型的任务使用它。在Cursor中，手动选择模型，而不是使用默认值。

4. 修剪你的输入。如果你要求Claude Code审查一个文件，提取相关部分——当只有50行重要时，不要喂它整个1000行文件。

5. 不要要求AI重复或重新格式化。复制输出并自己重新格式化。"你能把它改写成项目列表吗？"的成本等于原始响应加上新响应。选择文本，在本地重新格式化。

6. 使用Projects进行持久上下文。在Claude中，将你的项目文档、编码标准和偏好上传到Project一次。每个对话都继承此上下文，而不会浪费token重新解释它。

7. 安装Caveman进行输出压缩。开源Caveman插件从Claude Code响应中去除冗长的解释，将输出token减少40-60%，同时保持代码准确性。查看我们的3个Claude Code repos指南了解设置说明。

8. 使用Code Burn进行监控。你无法优化你没有测量的东西。Code Burn显示按文件、按对话的token消费。仅仅这种可视化就会改变你的行为。

觉得有价值？我们每周发布实用的AI成本节省指南。加入更聪明地构建的读者 →

典型的Claude Pro订阅在5小时时间窗口内给你大约45条Opus消息。没有优化，一个复杂的编码会话在90分钟内耗尽。使用这些技术，相同的工作只需30-35条消息——为你剩余的一天留下余地。

"我总是达到速率限制"和"我很少达到速率限制"之间的区别不是支付更高的套餐。而是工作流纪律。

一个更长、更详细的提示每条消息成本更多token。但它每个任务的成本更少，因为它减少了来回消息的数量。我们的Prompt Optimizer让提示更长更具体——这正是为什么它总体上为你节省token。一个有效的80字提示的成本比五个无效的10字提示少。

你能写的最昂贵的提示是一个需要发送三次的短的、模糊的提示。

这是我们每周做的事。一个关于AI工具、工作流程和诚实观点的深入探讨——没有炒作，没有填充。加入我们 →

披露：本文中的某些链接是affiliate链接。我们只推荐我们亲自测试和定期使用的工具。查看我们的完整披露政策。