Ein vages 10-Wort-Prompt, das 4 Runden Klärung erfordert, kostet mehr Token als ein präzises 80-Wort-Prompt, das beim ersten Versuch funktioniert. Die teuerste KI-Interaktion ist nicht die lange – es ist die, die man wiederholen muss. Hier sind 8 Techniken, die die Token-Nutzung um die Hälfte über Claude Code, Cursor und alle anderen KI-Coding-Tools hinweg senken.

Schnelle Fakten
  • Grundursache: 60% der Token-Verschwendung kommt vom erneuten Erklären von Kontext und vom Iterieren über vage Prompts
  • Größter Hebel: Neue Gespräche starten (spart das erneute Lesen der gesamten Historie)
  • Zweiter Hebel: Bessere Prompts (ein guter Prompt ersetzt 3-4 schlechte)
  • Tools, die helfen: Caveman (Output-Komprimierung), Code Burn (Nutzungsüberwachung)
  • Gilt für: Claude Code, Cursor, GitHub Copilot, Windsurf – alle davon
  • Zuletzt überprüft: April 2026

Warum Token-Verschwendung passiert

Alle KI-Coding-Tools funktionieren auf gleiche Weise: Dein Prompt plus die gesamte Gesprächshistorie werden mit jeder Nachricht an das Modell gesendet. Nachricht 1 ist günstig. Nachricht 20 ist teuer – weil das Modell alle 19 vorherigen Nachrichten erneut liest, bevor es eine Antwort generiert.

Das bedeutet, der größte Token-Drain sind nicht komplexe Prompts. Es sind lange Gespräche. Ein 30-Nachrichten-Gespräch, bei dem jede Nachricht die vollständige Historie erneut liest, kostet ungefähr das 5-fache von sechs separaten 5-Nachrichten-Gesprächen für die gleiche Gesamtarbeit.

Der zweite Drain ist Iteration. „Füge Auth hinzu" → „Nein, ich meinte OAuth" → „Mit Google-Provider" → „Und füge Rate Limiting hinzu" → „Behandle auch Refresh Token" kostet fünf Interaktionen, wenn ein detaillierter Prompt es richtig gemacht hätte: „Füge OAuth-Authentifizierung mit Google-Provider hinzu, einschließlich Rate Limiting auf den Auth-Endpoints und Refresh-Token-Handling."

Die 8 Techniken

1. Starten Sie alle 15-20 Nachrichten neue Gespräche. Dies ist die wichtigste Gewohnheit. Fassen Sie Ihren aktuellen Fortschritt in 3-4 Sätzen zusammen, starten Sie einen neuen Chat und fügen Sie die Zusammenfassung als Kontext ein. Deine Token-Kosten pro Nachricht fallen auf das Baseline-Niveau zurück.

2. Schreiben Sie Prompts wie Übergabedokumente. Geben Sie an, was existiert, was Sie ändern möchten, was NICHT angefasst werden sollte, und das erwartete Ergebnis. Ein präziser Prompt ersetzt 3-4 vage. Netto-Token-Ersparnis: 60-70%.

3. Verwenden Sie das richtige Modell für die Aufgabe. Claude Sonnet für routinemäßige Bearbeitungen. Opus für komplexes Reasoning. Verwenden Sie nicht das leistungsstärkste (und teuerste) Modell für Aufgaben, die das nicht benötigen. In Cursor wählen Sie das Modell manuell aus, statt den Standard zu verwenden.

4. Trimmen Sie Ihre Eingabe. Wenn Sie Claude Code bitten, eine Datei zu überprüfen, extrahieren Sie den relevanten Abschnitt – geben Sie nicht die gesamte 1.000-Zeilen-Datei, wenn nur 50 Zeilen wichtig sind.

5. Bitten Sie die KI nicht, zu wiederholen oder neu zu formatieren. Kopieren Sie die Ausgabe und formatieren Sie sie selbst neu. „Kannst du das als Aufzählungspunkte umschreiben?" kostet das gleiche wie die ursprüngliche Antwort plus die neue. Wählen Sie den Text aus, formatieren Sie lokal neu.

6. Verwenden Sie Projects für persistenten Kontext. In Claude laden Sie Ihre Projektdokumentation, Coding-Standards und Vorlieben einmal in ein Project hoch. Jedes Gespräch erbt diesen Kontext, ohne Tokens für erneutes Erklären zu verbrennen.

7. Installieren Sie Caveman für Output-Komprimierung. Das Open-Source-Caveman-Plugin entfernt ausführliche Erklärungen aus Claude Code-Antworten und reduziert Output-Tokens um 40-60%, während Code-Genauigkeit erhalten bleibt. Sehen Sie unseren 3 Claude Code Repos-Leitfaden für Setupanweisungen.

8. Überwachen Sie mit Code Burn. Sie können nicht optimieren, was Sie nicht messen. Code Burn zeigt Token-Verbrauch pro Datei und pro Gespräch. Allein die Sichtbarkeit ändert Ihr Verhalten.

Nutzen Sie das? Wir veröffentlichen jede Woche praktische Guides zum Sparen von KI-Kosten. Treten Sie Lesern bei, die intelligenter bauen →

Die Mathematik, die Dein Verhalten ändert

Ein typisches Claude Pro-Abonnement gibt Ihnen ungefähr 45 Opus-Nachrichten pro 5-Stunden-Fenster. Ohne Optimierung verbraucht eine komplexe Coding-Sitzung dies in 90 Minuten. Mit diesen Techniken kostet die gleiche Arbeit 30-35 Nachrichten – und hinterlässt Spielraum für den Rest Ihres Tages.

Der Unterschied zwischen „Ich treffe immer Rate Limits" und „Ich treffe selten Rate Limits" ist nicht, für ein höheres Tier zu bezahlen. Es ist Workflow-Disziplin.

Die kontraintuitive Wahrheit über längere Prompts

Ein längerer, detaillierteren Prompt kostet mehr Tokens pro Nachricht. Aber er kostet weniger Tokens pro Aufgabe, weil er die Anzahl der hin und her gehenden Nachrichten reduziert. Unser Prompt Optimizer macht Prompts länger und spezifischer – und genau deshalb spart er Ihnen insgesamt Tokens. Ein 80-Wort-Prompt, der funktioniert, kostet weniger als fünf 10-Wort-Prompts, die es nicht tun.

Der teuerste Prompt, den Sie schreiben können, ist ein kurzer, vager, der dreimal gesendet werden muss.

Das machen wir jede Woche. Ein tiefgehendes Deep Dive zu KI-Tools, Workflows und ehrlichen Ansichten – keine Übertreibungen, kein Füllstoff. Treten Sie uns bei →

Offenlegung: Einige Links in diesem Artikel sind Affiliate-Links. Wir empfehlen nur Tools, die wir persönlich getestet und regelmäßig verwenden. Sehen Sie unsere vollständige Offenlegungsrichtlinie.