Een vaag 10-woords prompt dat 4 rondes verduidelijking vereist, kost meer tokens dan een precieze 80-woords prompt die direct werkt. De duurste AI-interactie is niet de lange — het is degene die je moet herhalen. Hier zijn 8 technieken die tokengebruik in de helft reduceren op Claude Code, Cursor, en elk ander AI-coderingstool.

Snelle feiten
  • Hoofdoorzaak: 60% van tokenverspilling komt van het opnieuw uitleggen van context en itereren op vage prompts
  • Grootste hefboom: Nieuwe gesprekken starten (bespaart het opnieuw lezen van volledige geschiedenis)
  • Tweede hefboom: Betere prompts (één goed prompt vervangt 3-4 slechte)
  • Hulpmiddelen die helpen: Caveman (outputcompressie), Code Burn (gebruiksmonitoring)
  • Van toepassing op: Claude Code, Cursor, GitHub Copilot, Windsurf — allemaal
  • Laatst geverifieerd: April 2026

Waarom tokenverspilling gebeurt

Elk AI-coderingstool werkt onder de motorkap op dezelfde manier: je prompt plus de volledige gespreksgeschiedenis wordt met elk bericht naar het model gestuurd. Bericht 1 is goedkoop. Bericht 20 is duur — omdat het model alle 19 vorige berichten opnieuw leest voordat het een antwoord genereert.

Dit betekent dat de grootste tokendrain niet complexe prompts zijn. Het zijn lange gesprekken. Een 30-bericht gesprek waarbij elk bericht de volledige geschiedenis opnieuw leest, kost ongeveer 5x zoveel als zes aparte 5-bericht gesprekken voor hetzelfde totale werk.

De tweede drain is iteratie. "Voeg auth toe" → "Nee, ik bedoelde OAuth" → "Met Google-provider" → "En voeg rate limiting toe" → "Ook refresh tokens afhandelen" kost vijf interacties terwijl één gedetailleerd prompt het goed zou hebben gedaan: "Voeg OAuth-authenticatie toe met Google-provider, inclusief rate limiting op de auth-endpoints en afhandeling van refresh tokens."

De 8 technieken

1. Start elk 15-20 berichten een nieuw gesprek. Dit is de meest impactvolle gewoonte. Vat je huidige voortgang samen in 3-4 zinnen, start een nieuwe chat, plak de samenvatting als context. Je tokenkosten per bericht vallen terug naar baseline.

2. Schrijf prompts als overdracht documenten. Voeg in wat bestaat, wat je wilt veranderen, wat NIET mag worden aangeraakt, en het verwachte resultaat. Eén precieze prompt vervangt 3-4 vage. Nettobesparingen tokens: 60-70%.

3. Gebruik het juiste model voor de taak. Claude Sonnet voor routinewijzigingen. Opus voor complexe redenering. Gebruik niet het krachtigste (en duurste) model voor taken die het niet nodig hebben. Selecteer in Cursor handmatig het model in plaats van de standaard te gebruiken.

4. Trim je input. Als je Claude Code vraagt een bestand te beoordelen, extraheer de relevante sectie — voer het niet het volledige 1.000-regels bestand in als maar 50 regels ertoe doen.

5. Vraag de AI niet om te herhalen of opnieuw in te delen. Kopieer de output en voer het opnieuw in jezelf. "Kun je dat als opsommingspunten herschrijven?" kost hetzelfde als het originele antwoord plus de nieuwe. Selecteer de tekst, voer lokaal opnieuw in.

6. Gebruik Projects voor blijvende context. Upload in Claude je projectdocumentatie, coderingsnormen en voorkeuren eenmaal naar een Project. Elk gesprek erft deze context zonder tokens opnieuw uit te geven aan het uitleggen.

7. Installeer Caveman voor outputcompressie. De open-source Caveman-plugin verwijdert uitgebreide uitleg uit Claude Code-antwoorden, waardoor uitvoertokens met 40-60% worden gereduceerd terwijl de codeaccuraatheid behouden blijft. Zie onze 3 Claude Code-repos-gids voor setup-instructies.

8. Monitor met Code Burn. Je kunt niet optimaliseren wat je niet meet. Code Burn toont per-bestand, per-gesprek tokenverbruik. De zichtbaarheid alleen verandert je gedrag.

Krijgt dit waarde? We publiceren wekelijks praktische AI-kostenbespaaringshandleidingen. Sluit je aan bij lezers die slimmer bouwen →

De wiskunde die je gedrag verandert

Een typisch Claude Pro-abonnement geeft je ongeveer 45 Opus-berichten per 5-uurvenster. Zonder optimalisatie verbruikt een complexe coderingsessie dit in 90 minuten. Met deze technieken kost hetzelfde werk 30-35 berichten — waardoor ruimte overblijft voor de rest van je dag.

Het verschil tussen "ik bereik altijd tarieflimieten" en "ik bereik zelden tarieflimieten" is niet betalen voor een hogere tier. Het is werkstroomdiscipline.

De Tegenintuïtieve waarheid over langere prompts

Een langer, meer gedetailleerd prompt kost meer tokens per bericht. Maar het kost minder tokens per taak omdat het het aantal heen-en-weer berichten vermindert. Onze Prompt Optimizer maakt prompts langer en specifieker — en dat is precies waarom het je tokens bespaard. Eén 80-woords prompt die werkt, kost minder dan vijf 10-woords prompts die niet werken.

De duurste prompt die je kunt schrijven is er een die kort, vaag is en drie keer moet worden verzonden.

Dit is wat we elke week doen. Eén diepgaande analyse van AI-tools, workflows, en eerlijke inzichten — geen hype, geen vulmateriaal. Sluit je aan →

Openbaring: Sommige links in dit artikel zijn affiliatelinks. We bevelen alleen tools aan die we persoonlijk hebben getest en regelmatig gebruiken. Zie ons volledige openbaaringsbeleid.