Một lời nhắc mơ hồ 10 từ đòi hỏi 4 vòng làm rõ tiêu tốn nhiều token hơn một lời nhắc chính xác 80 từ hoạt động lần đầu tiên. Tương tác AI tốn kém nhất không phải là cái dài — nó là cái bạn phải lặp lại. Dưới đây là 8 kỹ thuật giảm một nửa việc sử dụng token trên Claude Code, Cursor và mọi công cụ AI coding khác.

Sự Kiện Nhanh
  • Nguyên nhân gốc: 60% lãng phí token đến từ việc giải thích lại ngữ cảnh và lặp lại các lời nhắc mơ hồ
  • Đòn bẩy lớn nhất: Bắt đầu các cuộc trò chuyện mới (tiết kiệm việc đọc lại toàn bộ lịch sử)
  • Đòn bẩy thứ hai: Lời nhắc tốt hơn (một lời nhắc tốt thay thế 3-4 cái xấu)
  • Công cụ giúp: Caveman (nén đầu ra), Code Burn (giám sát sử dụng)
  • Áp dụng cho: Claude Code, Cursor, GitHub Copilot, Windsurf — tất cả chúng
  • Lần xác minh cuối cùng: Tháng 4 năm 2026

Tại Sao Lãng Phí Token Xảy Ra

Mọi công cụ AI coding hoạt động theo cách tương tự dưới nắp: lời nhắc của bạn cộng với toàn bộ lịch sử cuộc trò chuyện được gửi đến mô hình với mỗi thư. Thư 1 rẻ. Thư 20 tốn kém — vì mô hình đọc lại tất cả 19 thư trước đó trước khi tạo phản hồi.

Điều này có nghĩa là rò rỉ token lớn nhất không phải là những lời nhắc phức tạp. Đó là những cuộc trò chuyện dài. Một cuộc trò chuyện 30 thư trong đó mỗi thư đọc lại lịch sử đầy đủ tiêu tốn khoảng 5 lần so với sáu cuộc trò chuyện riêng biệt 5-thư sẽ có cho cùng một lượng công việc.

Rò rỉ thứ hai là lặp lại. "Thêm xác thực" → "Không, tôi có nghĩa là OAuth" → "Với nhà cung cấp Google" → "Và thêm giới hạn tốc độ" → "Cũng xử lý token làm mới" tiêu tốn năm tương tác khi một lời nhắc chi tiết sẽ đã nhận được nó đúng: "Thêm xác thực OAuth với nhà cung cấp Google, bao gồm giới hạn tốc độ trên các điểm cuối xác thực và xử lý token làm mới."

8 Kỹ Thuật

1. Bắt đầu các cuộc trò chuyện mới mỗi 15-20 thư. Đây là thói quen có tác động lớn nhất. Tóm tắt tiến độ hiện tại của bạn trong 3-4 câu, bắt đầu một cuộc trò chuyện mới, dán tóm tắt làm ngữ cảnh. Chi phí token của bạn trên mỗi thư quay trở lại mức cơ sở.

2. Viết lời nhắc như các tài liệu bàn giao. Bao gồm cái gì tồn tại, cái gì bạn muốn thay đổi, cái gì KHÔNG nên chạm vào, và kết quả dự kiến. Một lời nhắc chính xác thay thế 3-4 cái mơ hồ. Tiết kiệm token ròng: 60-70%.

3. Sử dụng mô hình phù hợp cho nhiệm vụ. Claude Sonnet cho các chỉnh sửa thường xuyên. Opus cho suy luận phức tạp. Đừng sử dụng mô hình mạnh mẽ nhất (và tốn kém nhất) cho các nhiệm vụ không cần nó. Trong Cursor, chọn thủ công mô hình thay vì sử dụng mặc định.

4. Cắt tỉa đầu vào của bạn. Nếu bạn yêu cầu Claude Code xem xét một tập tin, trích xuất phần có liên quan — đừng cho nó toàn bộ tập tin 1.000 dòng khi chỉ 50 dòng quan trọng.

5. Đừng yêu cầu AI lặp lại hoặc định dạng lại. Sao chép đầu ra và định dạng lại nó yourself. "Bạn có thể viết lại đó dưới dạng các dấu đầu dòng?" tiêu tốn giống như phản hồi ban đầu cộng với cái mới. Chọn văn bản, định dạng lại cục bộ.

6. Sử dụng Dự án cho ngữ cảnh liên tục. Trong Claude, tải lên tài liệu dự án, tiêu chuẩn mã hóa và tùy chọn của bạn vào một Dự án một lần. Mọi cuộc trò chuyện kế thừa ngữ cảnh này mà không cần đốt token giải thích lại.

7. Cài đặt Caveman để nén đầu ra. Plugin Caveman mã nguồn mở loại bỏ các giải thích dài dòng khỏi phản hồi Claude Code, giảm token đầu ra xuống 40-60% trong khi bảo toàn độ chính xác của mã. Xem hướng dẫn 3 kho Claude Code của chúng tôi để biết hướng dẫn thiết lập.

8. Giám sát với Code Burn. Bạn không thể tối ưu hóa những gì bạn không đo lường. Code Burn hiển thị mức tiêu thụ token cho mỗi tập tin, cho mỗi cuộc trò chuyện. Chính sự hiển thị này sẽ thay đổi hành vi của bạn.

Nhận giá trị từ cái này? Chúng tôi xuất bản các hướng dẫn tiết kiệm chi phí AI thực tế hàng tuần. Tham gia những người đọc xây dựng thông minh hơn →

Toán Học Thay Đổi Hành Vi Của Bạn

Một gói Claude Pro điển hình cung cấp cho bạn khoảng 45 thư Opus mỗi 5 giờ. Không có tối ưu hóa, một phiên mã hóa phức tạp sẽ tiêu tốn điều này trong 90 phút. Với những kỹ thuật này, công việc tương tự mất 30-35 thư — để lại chỗ cho phần còn lại của ngày.

Sự khác biệt giữa "Tôi luôn chạm vào giới hạn tốc độ" và "Tôi hiếm khi chạm vào giới hạn tốc độ" không phải là trả tiền cho một gói cao hơn. Nó là kỷ luật quy trình làm việc.

Sự Thật Phản Trực Giác Về Những Lời Nhắc Dài Hơn

Một lời nhắc dài hơn, chi tiết hơn tiêu tốn nhiều token hơn trên mỗi thư. Nhưng nó tiêu tốn ít token hơn trên mỗi nhiệm vụ vì nó giảm số lượng thư qua lại. Trình Tối Ưu Hóa Lời Nhắc của chúng tôi làm cho các lời nhắc dài hơn và cụ thể hơn — và đó chính xác là lý do tại sao nó tiết kiệm token của bạn tổng thể. Một lời nhắc 80 từ hoạt động tốn ít hơn năm lời nhắc 10 từ không hoạt động.

Lời nhắc tốn kém nhất bạn có thể viết là một cái ngắn, mơ hồ phải được gửi ba lần.

Đây là những gì chúng tôi làm mỗi tuần. Một phân tích sâu về công cụ AI, quy trình làm việc và các ý kiến trung thực — không quảng cáo, không lấp liếm. Tham gia chúng tôi →

Tiết lộ: Một số liên kết trong bài viết này là liên kết liên kết. Chúng tôi chỉ khuyến nghị các công cụ mà chúng tôi đã kiểm tra và sử dụng thường xuyên. Xem chính sách tiết lộ đầy đủ của chúng tôi.