Cách Dừng Tiêu Thụ Token trên Claude Code (Hướng Dẫn Hoàn Chỉnh)

Các cuộc trò chuyện mới, lời nhắc bàn giao, lựa chọn mô hình, Caveman, Code Burn — tám thói quen giảm bối cảnh có thể tính toán.

Một prompt mơ hồ 10 từ cần 4 vòng làm rõ tiêu tốn nhiều token hơn một prompt chính xác 80 từ hoạt động ngay lần đầu. Tương tác AI đắt nhất không phải là cái dài — đó là cái bạn phải lặp lại. Dưới đây là 8 kỹ thuật giúp giảm một nửa lượng token sử dụng trên Claude Code, Cursor và mọi công cụ AI coding khác.

Những Sự Kiện Nhanh

Nguyên nhân gốc rễ: 60% token lãng phí đến từ việc giải thích lại ngữ cảnh và lặp lại các prompt mơ hồ
Đòn bẩy lớn nhất: Bắt đầu các cuộc trò chuyện mới (tiết kiệm việc đọc lại toàn bộ lịch sử)
Đòn bẩy thứ hai: Prompt tốt hơn (một prompt tốt thay thế 3-4 cái xấu)
Công cụ hỗ trợ: Caveman (nén đầu ra), Code Burn (giám sát sử dụng)
Áp dụng cho: Claude Code, Cursor, GitHub Copilot, Windsurf — tất cả chúng
Xác minh lần cuối: Tháng 4 năm 2026

Tại Sao Lãng Phí Token Xảy Ra

Mọi công cụ AI coding hoạt động theo cách tương tự: prompt của bạn cộng với toàn bộ lịch sử cuộc trò chuyện được gửi tới mô hình với mỗi tin nhắn. Tin nhắn 1 rẻ. Tin nhắn 20 đắt — vì mô hình đọc lại tất cả 19 tin nhắn trước đó trước khi tạo phản hồi.

Điều này có nghĩa là rò rỉ token lớn nhất không phải là prompt phức tạp. Đó là những cuộc trò chuyện dài. Một cuộc trò chuyện 30 tin nhắn nơi mỗi tin nhắn đọc lại toàn bộ lịch sử tiêu tốn khoảng 5 lần so với sáu cuộc trò chuyện riêng biệt 5 tin nhắn sẽ tiêu tốn cho cùng một công việc.

Sự rò rỉ thứ hai là lặp lại. "Thêm auth" → "Không, tôi muốn nói OAuth" → "Với nhà cung cấp Google" → "Và thêm giới hạn tốc độ" → "Cũng xử lý token làm mới" tiêu tốn năm tương tác khi một prompt chi tiết sẽ đã có được nó đúng: "Thêm xác thực OAuth với nhà cung cấp Google, bao gồm giới hạn tốc độ trên các endpoint xác thực và xử lý làm mới token."

8 Kỹ Thuật

1. Bắt đầu cuộc trò chuyện mới mỗi 15-20 tin nhắn. Đây là thói quen có tác động lớn nhất. Tóm tắt tiến độ hiện tại của bạn trong 3-4 câu, bắt đầu chat mới, dán tóm tắt làm ngữ cảnh. Chi phí token trên mỗi tin nhắn của bạn giảm xuống mức cơ sở.

2. Viết prompt như tài liệu bàn giao. Bao gồm những gì tồn tại, những gì bạn muốn thay đổi, những gì KHÔNG nên chạm đến, và kết quả dự kiến. Một prompt chính xác thay thế 3-4 cái mơ hồ. Tiết kiệm token ròng: 60-70%.

3. Sử dụng mô hình phù hợp cho nhiệm vụ. Claude Sonnet để chỉnh sửa thường xuyên. Opus cho lý luận phức tạp. Đừng sử dụng mô hình mạnh nhất (và đắt nhất) cho những nhiệm vụ không cần nó. Trong Cursor, chọn thủ công mô hình thay vì sử dụng mặc định.

4. Cắt ngắn đầu vào của bạn. Nếu bạn yêu cầu Claude Code xem xét một tệp, trích xuất phần liên quan — đừng cho nó toàn bộ tệp 1.000 dòng khi chỉ 50 dòng là quan trọng.

5. Đừng yêu cầu AI lặp lại hoặc định dạng lại. Sao chép đầu ra và định dạng lại nó yourself. "Bạn có thể viết lại thành bullet points không?" tiêu tốn tương tự như phản hồi ban đầu cộng với cái mới. Chọn văn bản, định dạng lại locally.

6. Sử dụng Projects cho ngữ cảnh liên tục. Trong Claude, tải lên tài liệu dự án, tiêu chuẩn mã hóa và tùy chọn của bạn lên một Project một lần. Mỗi cuộc trò chuyện kế thừa ngữ cảnh này mà không tiêu tốn token giải thích lại.

7. Cài đặt Caveman để nén đầu ra. Plugin mã nguồn mở Caveman loại bỏ các giải thích dài dòng khỏi phản hồi Claude Code, giảm token đầu ra 40-60% trong khi vẫn bảo tồn độ chính xác mã. Xem hướng dẫn 3 Claude Code repos của chúng tôi để biết hướng dẫn thiết lập.

8. Giám sát với Code Burn. Bạn không thể tối ưu hóa những gì bạn không đo lường. Code Burn hiển thị mức tiêu thụ token theo tệp, theo cuộc trò chuyện. Chính sự hiển thị này thay đổi hành vi của bạn.

Nhận giá trị từ điều này? Chúng tôi xuất bản các hướng dẫn tiết kiệm chi phí AI hàng tuần. Tham gia các độc giả xây dựng thông minh hơn →

Toán Học Thay Đổi Hành Vi Của Bạn

Một đăng ký Claude Pro điển hình cung cấp khoảng 45 tin nhắn Opus mỗi cửa sổ 5 giờ. Mà không tối ưu hóa, một phiên coding phức tạp tiêu tốn hết trong 90 phút. Với những kỹ thuật này, cùng một công việc tiêu tốn 30-35 tin nhắn — để lại đủ cho phần còn lại của ngày bạn.

Sự khác biệt giữa "Tôi luôn đạt đến giới hạn tốc độ" và "Tôi hiếm khi đạt đến giới hạn tốc độ" không phải là trả tiền cho một cấp cao hơn. Đó là kỷ luật quy trình làm việc.

Sự Thật Phản Trực Quan Về Prompt Dài Hơn

Một prompt dài hơn, chi tiết hơn tiêu tốn nhiều token trên mỗi tin nhắn. Nhưng nó tiêu tốn ít token hơn trên mỗi nhiệm vụ vì nó giảm số lượng tin nhắn qua lại. Prompt Optimizer của chúng tôi làm cho prompt dài hơn và cụ thể hơn — và đó chính xác là lý do tại sao nó tiết kiệm token của bạn. Một prompt 80 từ hoạt động tiêu tốn ít hơn năm prompt 10 từ không hoạt động.

Prompt đắt nhất bạn có thể viết là một cái mơ hồ, ngắn gọn mà bạn phải gửi ba lần.

Đây là những gì chúng tôi làm mỗi tuần. Một bài phân tích sâu về công cụ AI, quy trình làm việc và những quan điểm trung thực — không hype, không lộn xộn. Tham gia chúng tôi →

Công bố: Một số liên kết trong bài viết này là liên kết liên kết. Chúng tôi chỉ khuyến nghị các công cụ mà chúng tôi đã kiểm tra và sử dụng thường xuyên. Xem chính sách công bố đầy đủ của chúng tôi.

Cách Dừng Tiêu Thụ Token trên Claude Code (Hướng Dẫn Hoàn Chỉnh)

Tại Sao Lãng Phí Token Xảy Ra

8 Kỹ Thuật

Toán Học Thay Đổi Hành Vi Của Bạn

Sự Thật Phản Trực Quan Về Prompt Dài Hơn

Keep reading