Ein vager 10-Wort-Prompt, der 4 Runden Klärung benötigt, kostet mehr Token als ein präziser 80-Wort-Prompt, der beim ersten Versuch funktioniert. Die teuerste KI-Interaktion ist nicht die lange – es ist die, die du wiederholen musst. Hier sind 8 Techniken, die die Token-Nutzung um die Hälfte über Claude Code, Cursor und alle anderen KI-Coding-Tools hinweg reduzieren.
- Grundursache: 60% der Token-Verschwendung stammen aus wiederholten Erklärungen von Kontext und Iterationen über vage Prompts
- Größter Hebel: Neue Gespräche starten (spart das Erneut-Lesen der gesamten Verlauf)
- Zweiter Hebel: Bessere Prompts (ein guter Prompt ersetzt 3-4 schlechte)
- Hilfreiche Tools: Caveman (Output-Kompression), Code Burn (Nutzungsüberwachung)
- Anwendbar auf: Claude Code, Cursor, GitHub Copilot, Windsurf – alle davon
- Zuletzt verifiziert: April 2026
Warum Token-Verschwendung passiert
Jedes KI-Coding-Tool funktioniert unter der Haube gleich: Dein Prompt plus die gesamte Gesprächshistorie werden mit jeder Nachricht an das Modell gesendet. Nachricht 1 ist günstig. Nachricht 20 ist teuer – weil das Modell alle 19 vorherigen Nachrichten erneut liest, bevor es eine Antwort generiert.
Das bedeutet, der größte Token-Verbrauch ist nicht komplexe Prompts. Es sind lange Gespräche. Ein 30-Nachrichten-Gespräch, bei dem jede Nachricht die volle Verlauf erneut liest, kostet ungefähr das 5-fache von sechs separaten 5-Nachrichten-Gesprächen für die gleiche Gesamtarbeit.
Der zweite Verbrauch ist Iteration. „Add auth" → „Nein, ich meinte OAuth" → „Mit Google-Provider" → „Und Rate Limiting hinzufügen" → „Auch Refresh-Tokens handhaben" kostet fünf Interaktionen, wenn ein detaillierter Prompt es richtig gemacht hätte: „Füge OAuth-Authentifizierung mit Google-Provider hinzu, einschließlich Rate Limiting auf den Auth-Endpunkten und Refresh-Token-Handling."
Die 8 Techniken
1. Starten Sie alle 15-20 Nachrichten neue Gespräche. Dies ist die einzelne wirkungsvollste Gewohnheit. Fassen Sie Ihren aktuellen Fortschritt in 3-4 Sätzen zusammen, starten Sie einen neuen Chat, fügen Sie die Zusammenfassung als Kontext ein. Ihre Token-Kosten pro Nachricht fallen auf Baseline zurück.
2. Schreiben Sie Prompts wie Übergabedokumente. Fügen Sie ein, was vorhanden ist, was Sie geändert haben möchten, was NICHT berührt werden sollte, und das erwartete Ergebnis. Ein präziser Prompt ersetzt 3-4 vage. Token-Einsparungen netto: 60-70%.
3. Verwenden Sie das richtige Modell für die Aufgabe. Claude Sonnet für routinemäßige Änderungen. Opus für komplexes Reasoning. Verwenden Sie nicht das leistungsstärkste (und teuerste) Modell für Aufgaben, die es nicht benötigen. In Cursor wählen Sie das Modell manuell aus, anstatt die Standardeinstellung zu verwenden.
4. Trimmen Sie Ihre Eingabe. Wenn Sie Claude Code bitten, eine Datei zu überprüfen, extrahieren Sie den relevanten Abschnitt – fügen Sie nicht die gesamte 1.000-Zeilen-Datei ein, wenn nur 50 Zeilen wichtig sind.
5. Bitten Sie die KI nicht zu wiederholen oder umzuformatieren. Kopieren Sie die Ausgabe und formatieren Sie sie selbst um. „Kannst du das als Aufzählungspunkte umschreiben?" kostet dasselbe wie die ursprüngliche Antwort plus die neue. Wählen Sie den Text aus, formatieren Sie lokal um.
6. Verwenden Sie Projekte für persistenten Kontext. In Claude laden Sie Ihre Projektdokumentation, Coding-Standards und Vorlieben einmalig in ein Projekt hoch. Jedes Gespräch erbt diesen Kontext, ohne Token zu verschwenden, um ihn erneut zu erklären.
7. Installieren Sie Caveman für Output-Kompression. Das Open-Source-Plugin Caveman entfernt ausschweifende Erklärungen aus Claude Code Antworten und reduziert Output-Token um 40-60% bei Beibehaltung der Code-Genauigkeit. Lesen Sie unseren 3 Claude Code Repos Guide für Setup-Anweisungen.
8. Überwachen Sie mit Code Burn. Sie können nicht optimieren, was Sie nicht messen. Code Burn zeigt Token-Verbrauch pro Datei und pro Gespräch. Die Sichtbarkeit allein ändert Ihr Verhalten.
Nutzen Sie das? Wir veröffentlichen wöchentlich praktische Guides zur KI-Kosteneinsparung. Treten Sie Lesern bei, die smarter bauen →
Die Mathematik, die Ihr Verhalten verändert
Ein typisches Claude Pro Abonnement gibt Ihnen ungefähr 45 Opus-Nachrichten pro 5-Stunden-Fenster. Ohne Optimierung verbraucht eine komplexe Coding-Sitzung dies in 90 Minuten. Mit diesen Techniken nimmt die gleiche Arbeit 30-35 Nachrichten – und hinterlässt Spielraum für den Rest Ihres Tages.
Der Unterschied zwischen „Ich treffe immer Rate Limits" und „Ich treffe selten Rate Limits" ist nicht, für einen höheren Plan zu bezahlen. Es ist Workflow-Disziplin.
Die kontraintuitive Wahrheit über längere Prompts
Ein längerer, detaillierterer Prompt kostet mehr Token pro Nachricht. Aber es kostet weniger Token pro Aufgabe, weil es die Anzahl der Hin-und-Her-Nachrichten reduziert. Unser Prompt Optimizer macht Prompts länger und spezifischer – und genau deshalb spart er Ihnen insgesamt Token. Ein 80-Wort-Prompt, der funktioniert, kostet weniger als fünf 10-Wort-Prompts, die nicht funktionieren.
Der teuerste Prompt, den Sie schreiben können, ist ein kurzer, vager, der dreimal gesendet werden muss.
Das machen wir jede Woche. Eine tiefe Analyse zu KI-Tools, Workflows und ehrliche Meinungen – keine Hype, kein Füllstoff. Machen Sie mit →
Offenlegung: Einige Links in diesem Artikel sind Affiliate-Links. Wir empfehlen nur Tools, die wir persönlich getestet und regelmäßig verwenden. Lesen Sie unsere vollständige Offenlegungsrichtlinie.