Cạn kiệt Claude Code quota của bạn trong một phiên làm việc không phải là vấn đề của mô hình — đó là vấn đề của quy trình làm việc. Ba kho lưu trữ nguồn mở được phát hành vào tháng 4 năm 2026 khắc phục ba vấn đề tiêu tốn token lớn nhất: đầu ra AI phồng phồng, rò rỉ token vô hình và xây dựng lại thiết kế từ đầu. Đây là những gì mỗi cái làm, cách cài đặt chúng và cái nào để bắt đầu.
- Caveman: Cắt bớt đầu ra AI phồng phồng trong khi giữ lại độ chính xác. Claude Code skill/plugin.
- Code Burn: Cho thấy chính xác nơi token của bạn rò rỉ theo từng tệp và từng cuộc trò chuyện.
- Design Extract: Kỹ thuật đảo ngược thiết kế của bất kỳ trang web nào bao gồm hoạt ảnh và tương tác.
- Tác động kết hợp: Giảm 40-60% sử dụng token trên các dự án điển hình
- Chi phí: Miễn phí, nguồn mở, cấp phép MIT
- Xác minh lần cuối: Tháng 4 năm 2026
Tại sao bạn đang cạn kiệt Token
Claude Code mạnh nhưng tốn kém cho mỗi lần tương tác. Mỗi tin nhắn bạn gửi bao gồm toàn bộ lịch sử cuộc trò chuyện. Mỗi phản hồi Claude tạo ra đều tính vào quota của bạn. Và Claude, theo mặc định, tạo ra các phản hồi dài dòng — giải thích lý do của nó, thêm bối cảnh bạn không yêu cầu và viết mã nhiều hơn cần thiết.
Kết quả: một phiên mã hóa 2 giờ sử dụng 30% quota Pro của bạn lại tiêu tốn 80%. Bạn đạt giới hạn tỷ lệ vào buổi trưa và chờ cho đến khi reset 5 giờ.
Ba kho lưu trữ này tấn công vấn đề từ các góc độ khác nhau.
Caveman: Nói ít hơn, Xây dựng tốt hơn
Caveman là một Claude Code skill và plugin buộc AI phải giao tiếp với đầu ra nén và trực tiếp. Slogan nói rõ tất cả: "Tại sao sử dụng nhiều token khi ít làm được việc."
Nó làm gì: Caveman chặn các phản hồi của Claude Code và cắt bớt giải thích không cần thiết, bối cảnh dư thừa và suy luận dài dòng. Đầu ra mã vẫn giống hệt — phần mỡ xung quanh nó bị cắt bỏ. Bạn nhận được mã hoạt động giống nhau với 40-60% ít token hơn.
Cách cài đặt: Caveman có sẵn dưới dạng Claude Code skill (thêm nó vào thư mục .claude/skills của dự án của bạn) hoặc dưới dạng plugin độc lập. Kho lưu trữ bao gồm các điểm chuẩn cho thấy độ chính xác được bảo toàn trong khi độ dài đầu ra giảm đáng kể.
Khi nào sử dụng: Mọi dự án. Không có hạn chế để cắt bớt giải thích dài dòng khi bạn tập trung vào xây dựng. Nếu bạn cần Claude giải thích lý do của nó cho một quyết định cụ thể, hãy yêu cầu rõ ràng — Caveman không ngăn chặn giải thích mà bạn yêu cầu, chỉ những giải thích không cần thiết.
Hệ sinh thái Caveman cũng bao gồm Cavemem (quản lý bộ nhớ) và Cavekit (tối ưu hóa bản dựng), nhưng plugin cốt lõi "nói ít hơn" là nơi tiết kiệm token nằm.
Code Burn: Xem Token của bạn đi đâu
Code Burn là một công cụ giám sát cho thấy chính xác nơi token của bạn đang bị tiêu thụ. Nó chia nhỏ sử dụng theo từng tệp, từng cuộc trò chuyện và từng loại tương tác — vì vậy bạn có thể thấy rằng refactor auth.ts của bạn đã cạn kiệt 40% quota hàng ngày của bạn trong khi các điều chỉnh CSS của bạn sử dụng 2%.
Nó làm gì: Thêm bảng điều khiển vào quy trình Claude Code của bạn hiển thị tiêu thụ token thực tế. Làm nổi bật các hoạt động tốn kém (đọc tệp lớn, lịch sử cuộc trò chuyện dài, các tác vụ đa tệp agent) và gợi ý tối ưu hóa.
Cách cài đặt: Có sẵn dưới dạng plugin Claude Code. Chạy cục bộ — không có dữ liệu nào rời khỏi máy của bạn.
Khi nào sử dụng: Cài đặt nó một lần và để nó chạy. Chính tính khả năng hiển thị cũng thay đổi hành vi. Khi bạn có thể thấy rằng tiếp tục một cuộc trò chuyện tốn 3 lần so với việc bắt đầu một cuộc mới, bạn bắt đầu lại. Khi bạn có thể thấy rằng tệp 500 dòng của bạn đang được đọc lại trên mỗi lần tương tác, bạn chia nó.
Nhận được giá trị từ điều này? Chúng tôi bao gồm các công cụ mã hóa AI với độ sâu kỹ thuật trung thực. Tham gia những độc giả xây dựng thông minh hơn →
Design Extract: Sao chép thiết kế của bất kỳ trang web nào
Design Extract kỹ thuật đảo ngược thiết kế trực quan của bất kỳ trang web nào — màu sắc, phông chữ, khoảng cách, hoạt ảnh, tương tác — và tạo ra một đặc điểm kỹ thuật có cấu trúc mà bạn có thể cung cấp trực tiếp cho Claude Code hoặc Cursor để tái tạo.
Nó làm gì: Chỉ vào bất kỳ URL nào. Nó ghi lại CSS được tính toán, cấu trúc DOM, các khung hình hoạt ảnh và các mẫu tương tác. Đầu ra là một tài liệu thiết kế có cấu trúc mà các công cụ mã hóa AI có thể sử dụng để tái tạo thiết kế một cách chính xác.
Cách cài đặt: Có sẵn dưới dạng công cụ độc lập hoặc plugin Claude Code. Yêu cầu Node.js.
Khi nào sử dụng: Bất cứ khi nào bạn thấy thiết kế mà bạn muốn sao chép hoặc lấy cảm hứng. Thay vì kiểm tra thủ công các phần tử, sao chép các mã hex và đoán khoảng cách — Design Extract thực hiện nó trong một lệnh và tạo ra một đặc điểm kỹ thuật sẵn sàng cho lời nhắc.
Tiết kiệm token ở đây là gián tiếp nhưng đáng kể. Nếu không có Design Extract, bạn mô tả một thiết kế mơ hồ ("làm cho nó trông giống như trang giá của Stripe"), Claude tạo ra một thứ gần đúng và bạn dành 5-10 vòng điều chỉnh qua lại. Với Design Extract, bạn cung cấp một đặc điểm kỹ thuật chính xác và nhận được một kết quả gần hơn lần đầu tiên.
Cái nào cài đặt trước tiên
Bắt đầu với Caveman. Nó không yêu cầu thay đổi hành vi — cài đặt nó và mọi lần tương tác sẽ rẻ hơn tự động. Sau đó thêm Code Burn để có tính khả năng hiển thị. Sau đó Design Extract khi bạn có một dự án nặng thiết kế.
Để biết thêm về quản lý chi phí Claude Code, hãy xem so sánh chi phí thực tế Claude Code so với Cursor của chúng tôi. Để nhận các mẹo chung về giảm tiêu cạn token trên tất cả các công cụ AI, hãy đọc hướng dẫn giới hạn tỷ lệ Claude của chúng tôi.
Muốn làm cho lời nhắc của bạn hiệu quả hơn trước khi gửi chúng? Trình tối ưu hóa lời nhắc của chúng tôi loại bỏ tính mơ hồ và thêm tính cụ thể — điều này có nghĩa là ít vòng qua lại hơn, có nghĩa là ít token bị tiêu cạn hơn.
Đây là những gì chúng tôi làm mỗi tuần. Một bài đi sâu về công cụ AI, quy trình làm việc và quan điểm trung thực — không hype, không lấp liếm. Tham gia chúng tôi →
Công bố: Một số liên kết trong bài viết này là liên kết liên kết. Chúng tôi chỉ đề xuất các công cụ mà chúng tôi đã cá nhân kiểm tra và sử dụng thường xuyên. Xem chính sách công bố đầy đủ của chúng tôi.