Niejasna instrukcja z 10 słowami, która wymaga 4 rund wyjaśnień, kosztuje więcej tokenów niż precyzyjna instrukcja z 80 słowami, która działa za pierwszym razem. Najdroższa interakcja z AI to nie długa — to ta, którą trzeba powtórzyć. Oto 8 technik, które zmniejszają użycie tokenów o połowę w Claude Code, Cursor i każdym innym narzędziu AI do kodowania.

Szybkie fakty
  • Pierwotna przyczyna: 60% marnotrawstwa tokenów pochodzi z ponownego wyjaśniania kontekstu i iteracji nad niejasными instrukcjami
  • Największa dźwignia: Rozpoczęcie nowych rozmów (oszczędza ponowne odczytywanie całej historii)
  • Druga dźwignia: Lepsze instrukcje (jedna dobra instrukcja zastępuje 3-4 złe)
  • Narzędzia, które pomagają: Caveman (kompresja wyjścia), Code Burn (monitorowanie użycia)
  • Dotyczy: Claude Code, Cursor, GitHub Copilot, Windsurf — wszystkich z nich
  • Ostatnia weryfikacja: Kwiecień 2026

Dlaczego dochodzi do marnotrawstwa tokenów

Każde narzędzie AI do kodowania działa w ten sam sposób pod maską: Twoja instrukcja plus cała historia rozmowy jest wysyłana do modelu z każdą wiadomością. Wiadomość 1 jest tania. Wiadomość 20 jest droga — ponieważ model ponownie czyta wszystkie 19 poprzednich wiadomości przed wygenerowaniem odpowiedzi.

To oznacza, że największy drenaż tokenów to nie złożone instrukcje. To długie rozmowy. Rozmowa z 30 wiadomościami, w której każda wiadomość ponownie czyta pełną historię, kosztuje mniej więcej 5 razy więcej niż sześć oddzielnych rozmów 5-wiadomościowych wykonanych dla tej samej pracy.

Drugim drenaż to iteracja. "Dodaj auth" → "Nie, miałem na myśli OAuth" → "Z dostawcą Google" → "I dodaj ograniczenie szybkości" → "Również obsłuż tokeny odświeżania" kosztuje pięć interakcji, gdy jedna szczegółowa instrukcja by to uzyskała: "Dodaj uwierzytelnianie OAuth z dostawcą Google, w tym ograniczenie szybkości na punktach końcowych uwierzytelniania i obsługę tokenów odświeżania."

8 technik

1. Rozpoczynaj świeże rozmowy co 15-20 wiadomości. To najpopularniejszy nawyk. Podsumuj swój obecny postęp w 3-4 zdaniach, rozpocznij nowy czat, wklej podsumowanie jako kontekst. Twój koszt tokenów na wiadomość wraca do linii bazowej.

2. Pisz instrukcje jak dokumenty przekazania. Uwzględnij to, co istnieje, co chcesz zmienić, co NIE powinno być dotykane i oczekiwany rezultat. Jedna precyzyjna instrukcja zastępuje 3-4 niejasne. Oszczędność netto tokenów: 60-70%.

3. Użyj odpowiedniego modelu do zadania. Claude Sonnet do rutynowych edycji. Opus do złożonego rozumowania. Nie używaj najpotężniejszego (i najdroższego) modelu do zadań, które go nie wymagają. W Cursor ręcznie wybierz model zamiast korzystać z domyślnego.

4. Przycnij swoje dane wejściowe. Jeśli prosisz Claude Code o przejrzenie pliku, wyodrębnij odpowiednią sekcję — nie podawaj mu całego pliku z 1000 linii, gdy ma znaczenie tylko 50 linii.

5. Nie prosź AI o powtórzenie lub przeformatowanie. Skopiuj wyjście i przeformatuj je samodzielnie. "Czy możesz to przepisać jako punkty?" kosztuje tyle samo co pierwotna odpowiedź plus nowa. Zaznacz tekst, przeformatuj lokalnie.

6. Użyj Projektów dla trwałego kontekstu. W Claude załaduj dokumentację projektu, standardy kodowania i preferencje do Projektu raz. Każda rozmowa dziedziczy ten kontekst bez spalania tokenów na ponowne wyjaśnianie.

7. Zainstaluj Caveman do kompresji wyjścia. Wtyczka open-source Caveman usuwa szczegółowe wyjaśnienia z odpowiedzi Claude Code, zmniejszając tokeny wyjścia o 40-60% przy zachowaniu dokładności kodu. Zapoznaj się z naszym przewodnikiem 3 repozytoriów Claude Code po instrukcje instalacji.

8. Monitoruj za pomocą Code Burn. Nie możesz optymalizować tego, czego nie mierzysz. Code Burn pokazuje konsumpcję tokenów dla każdego pliku i rozmowy. Sama widoczność zmienia Twoje zachowanie.

Czy to jest dla Ciebie wartościowe? Publikujemy praktyczne przewodniki oszczędzające koszty AI co tydzień. Dołącz do czytelników, którzy budują inteligentniej →

Matematyka, która zmienia Twoje zachowanie

Typowa subskrypcja Claude Pro daje Ci mniej więcej 45 wiadomości Opus na 5-godzinne okno. Bez optymalizacji, złożona sesja kodowania pali to w 90 minut. Z tymi technikami ta sama praca zajmuje 30-35 wiadomości — pozostawiając miejsce na resztę Twojego dnia.

Różnica między "Zawsze osiągam limity szybkości" a "Rzadko osiągam limity szybkości" to nie płacenie za wyższą warstwę. To dyscyplina przepływu pracy.

Sprzeczna z intuicją prawda o dłuższych instrukcjach

Dłuższa, bardziej szczegółowa instrukcja kosztuje więcej tokenów na wiadomość. Ale kosztuje mniej tokenów na zadanie, ponieważ zmniejsza liczbę wiadomości tam i z powrotem. Nasz Optimizer instrukcji wydłuża instrukcje i czyni je bardziej specyficzne — i to dokładnie dlatego oszczędza ci tokeny ogółem. Jedna instrukcja z 80 słowami, która działa, kosztuje mniej niż pięć instrukcji z 10 słowami, które nie działają.

Najdroższa instrukcja, którą możesz napisać, to krótka, niejasna, którą trzeba wysłać trzy razy.

To jest to, co robimy co tydzień. Jedno dogłębne zagłębienie się w narzędzia AI, przepływy pracy i uczciwe opinie — bez szumu, bez wypełniacza. Dołącz do nas →

Ujawnienie: Niektóre łącza w tym artykule to łącza partnerskie. Polecamy tylko narzędzia, które osobiście testowaliśmy i regularnie używamy. Zapoznaj się z naszą pełną polityką ujawniania.