Niejasna instrukcja 10-słowna, która wymaga 4 rund wyjaśnień, kosztuje więcej tokenów niż precyzyjna instrukcja 80-słowna, która działa za pierwszym razem. Najdroższe jest nie długie interakcje sztuczną inteligencją — to ta, którą musisz powtórzyć. Oto 8 technik, które zmniejszają użycie tokenów o połowę w Claude Code, Cursor i każdym innym narzędziu AI do kodowania.

Szybkie fakty
  • Przyczyna główna: 60% strat tokenów pochodzi z ponownego wyjaśniania kontekstu i iteracji na niejasnych instrukcjach
  • Największy dźwignia: Rozpoczęcie świeżych konwersacji (oszczędza ponowne czytanie całej historii)
  • Druga dźwignia: Lepsze instrukcje (jedna dobra instrukcja zastępuje 3-4 złe)
  • Narzędzia pomocne: Caveman (kompresja danych wyjściowych), Code Burn (monitorowanie użycia)
  • Dotyczy: Claude Code, Cursor, GitHub Copilot, Windsurf — wszystkich z nich
  • Ostatnia weryfikacja: Kwiecień 2026

Dlaczego dochodzi do strat tokenów

Każde narzędzie kodowania AI działa w ten sam sposób: twoja instrukcja oraz cała historia konwersacji jest wysyłana do modelu z każdą wiadomością. Wiadomość 1 jest tania. Wiadomość 20 jest droga — ponieważ model ponownie czyta wszystkie 19 poprzednich wiadomości przed wygenerowaniem odpowiedzi.

Oznacza to, że największym drenaż tokenów nie są złożone instrukcje. To długie konwersacje. Konwersacja 30-wiadomościowa, w której każda wiadomość ponownie czyta pełną historię, kosztuje mniej więcej 5x tyle, co sześć oddzielnych konwersacji 5-wiadomościowych dla tej samej całkowitej pracy.

Drugi drenaż to iteracja. "Dodaj autentykację" → "Nie, miałem na myśli OAuth" → "Z dostawcą Google" → "I dodaj ograniczenie szybkości" → "Też obsługuj tokeny odświeżenia" wymaga pięciu interakcji, gdy jedna szczegółowa instrukcja byłaby prawidłowa: "Dodaj autentykację OAuth z dostawcą Google, w tym ograniczenie szybkości na punktach końcowych autentykacji i obsługę tokenów odświeżenia."

8 technik

1. Rozpoczynaj świeże konwersacje co 15-20 wiadomości. To jest jedyną najbardziej wpływową nawyk. Podsumuj swoje obecne postępy w 3-4 zdaniach, rozpocznij nowy czat, wklej podsumowanie jako kontekst. Koszt tokenów na wiadomość spada z powrotem do poziomu wyjściowego.

2. Pisz instrukcje jak dokumenty przekazania. Uwzględnij, co istnieje, co chcesz zmienić, czego NIE powinno być dotykane i oczekiwany wynik. Jedna precyzyjna instrukcja zastępuje 3-4 niejasne. Oszczędność tokenów netto: 60-70%.

3. Użyj właściwego modelu do zadania. Claude Sonnet do rutynowych edycji. Opus do złożonego rozumowania. Nie używaj najpotężniejszego (i najdroższego) modelu do zadań, które go nie potrzebują. W Cursor ręcznie wybierz model zamiast używania domyślnego.

4. Przytnij swoje dane wejściowe. Jeśli prosisz Claude Code o przejrzenie pliku, wyodrębnij odpowiednią sekcję — nie podawaj całego pliku 1000-liniowego, gdy ważne są tylko 50 linii.

5. Nie proś sztucznej inteligencji o powtórzenie lub reformatowanie. Skopiuj dane wyjściowe i sformatuj je sam. "Czy możesz to przepisać jako punkty?" kosztuje tyle samo co oryginalna odpowiedź plus nowa. Wybierz tekst, sformatuj lokalnie.

6. Użyj Projektów dla trwałego kontekstu. W Claude prześlij dokumentację projektu, standardy kodowania i preferencje do Projektu raz. Każda konwersacja dziedziczy ten kontekst bez spalania tokenów na ponowne wyjaśnianie go.

7. Zainstaluj Caveman do kompresji danych wyjściowych. Wtyczka open-source Caveman usuwa gadatliwe wyjaśnienia z odpowiedzi Claude Code, zmniejszając tokeny wyjściowe o 40-60% przy zachowaniu dokładności kodu. Zapoznaj się z naszym przewodnikiem 3 Claude Code repos aby uzyskać instrukcje konfiguracji.

8. Monitoruj Code Burn. Nie możesz zoptymalizować tego, czego nie mierzysz. Code Burn pokazuje zużycie tokenów na plik, na konwersację. Sama widoczność zmienia twoje zachowanie.

Czerpiesz wartość z tego? Publikujemy praktyczne przewodniki oszczędzania kosztów AI co tydzień. Dołącz do czytelników, którzy budują mądrzej →

Matematyka, która zmienia twoje zachowanie

Typowa subskrypcja Claude Pro daje ci około 45 wiadomości Opus na okno 5 godzin. Bez optymalizacji, złożona sesja kodowania spala to w 90 minut. Dzięki tym technikom, ta sama praca zajmuje 30-35 wiadomości — pozostawiając miejsce dla reszty dnia.

Różnica między "Zawsze osiągam limity szybkości" a "Rzadko osiągam limity szybkości" to nie płacenie za wyższą warstwę. To dyscyplina workflow'u.

Kontraintuicyjna prawda o dłuższych instrukcjach

Dłuższa, bardziej szczegółowa instrukcja kosztuje więcej tokenów na wiadomość. Ale kosztuje mniej tokenów na zadanie, ponieważ zmniejsza liczbę wiadomości tam i z powrotem. Nasz Optymalizator instrukcji wydłuża instrukcje i czyni je bardziej szczegółowymi — i to dokładnie dlatego oszczędza ci tokeny ogółem. Jedna instrukcja 80-słowna, która działa, kosztuje mniej niż pięć instrukcji 10-słownych, które nie działają.

Najdrożej jest instrukcja, którą możesz napisać to krótka, niejasna ta, którą trzeba wysłać trzy razy.

To jest to, co robimy co tydzień. Jedno dogłębne zagłębienie się w narzędzia AI, workflow'i i uczciwe poglądy — bez szumu, bez wypełniaczy. Dołącz do nas →

Ujawnienie: Niektóre linki w tym artykule to linki afiliacyjne. Polecamy tylko narzędzia, które osobiście testowaliśmy i regularnie używamy. Zapoznaj się z naszą pełną polityką ujawniania.