Een vaag 10-woord prompt dat 4 rondes verduidelijking nodig heeft kost meer tokens dan een precieze 80-woord prompt die de eerste keer werkt. De duurste AI-interactie is niet de lange — het is de interactie die je moet herhalen. Hier zijn 8 technieken die het tokengebruik in alle AI-coderingshulpmiddelen halveert.
- Onderliggende oorzaak: 60% van het tokenverlies komt van het opnieuw uitleggen van context en itereren op vage prompts
- Grootste hefboom: Nieuwe gesprekken starten (bespaart het opnieuw lezen van volledige geschiedenis)
- Tweede hefboom: Betere prompts (één goede prompt vervangt 3-4 slechte)
- Hulpmiddelen die helpen: Caveman (output compressie), Code Burn (gebruiksmonitoring)
- Van toepassing op: Claude Code, Cursor, GitHub Copilot, Windsurf — allemaal
- Laatst geverifieerd: April 2026
Waarom Tokenverlies Gebeurt
Elke AI-coderingshulpmiddel werkt onder de motorkap op dezelfde manier: je prompt plus de volledige gespreksgeschiedenis wordt met elk bericht naar het model verzonden. Bericht 1 is goedkoop. Bericht 20 is duur — omdat het model alle 19 vorige berichten opnieuw leest voordat het een antwoord genereert.
Dit betekent dat de grootste tokenafvoer niet complexe prompts zijn. Het zijn lange gesprekken. Een 30-bericht gesprek waarbij elk bericht de volledige geschiedenis opnieuw leest kost ongeveer 5x zoveel als zes aparte 5-bericht gesprekken voor hetzelfde totale werk.
De tweede afvoer is iteratie. "Voeg auth toe" → "Nee, ik bedoelde OAuth" → "Met Google-provider" → "En voeg rate limiting toe" → "Ook refresh tokens afhandelen" kost vijf interacties terwijl één gedetailleerde prompt het goed zou hebben gedaan: "Voeg OAuth-authenticatie toe met Google-provider, inclusief rate limiting op de auth-eindpunten en afhandeling van refresh tokens."
De 8 Technieken
1. Start om de 15-20 berichten nieuwe gesprekken. Dit is de enige meest impactvolle gewoonte. Vat je huidige voortgang samen in 3-4 zinnen, start een nieuw gesprek, plak het overzicht als context. Je tokenkosten per bericht dalen terug naar baseline.
2. Schrijf prompts als overdracht-documenten. Neem op wat bestaat, wat je gewijzigd wilt hebben, wat NIET moet worden aangeraakt, en het verwachte resultaat. Één precieze prompt vervangt 3-4 vage. Netto tokenbesparing: 60-70%.
3. Gebruik het juiste model voor de taak. Claude Sonnet voor routine-bewerkingen. Opus voor complexe redenering. Gebruik niet het meest krachtige (en duurste) model voor taken die het niet nodig hebben. In Cursor selecteer je het model handmatig in plaats van de standaard te gebruiken.
4. Trim je invoer. Als je Claude Code vraagt een bestand te beoordelen, extraheer het relevante deel — voer niet het hele 1.000-regels bestand in als slechts 50 regels van belang zijn.
5. Vraag de AI niet om te herhalen of opnieuw in te delen. Kopieer de output en herformatteer deze zelf. "Kun je dat als bullet points herschrijven?" kost hetzelfde als het originele antwoord plus het nieuwe. Selecteer de tekst, herformatteer lokaal.
6. Gebruik Projects voor persistente context. In Claude upload je projectdocumentatie, codeerstandaarden en voorkeuren eenmaal naar een Project. Elk gesprek erft deze context zonder tokens voor opnieuw uitleggen te verbruiken.
7. Installeer Caveman voor output compressie. De open-source Caveman-plugin verwijdert uitgebreide uitleg uit Claude Code-antwoorden, waardoor output tokens met 40-60% worden gereduceerd terwijl codeaccuracy behouden blijft. Zie onze 3 Claude Code repos-gids voor installatie-instructies.
8. Monitor met Code Burn. Je kunt niet optimaliseren wat je niet meet. Code Burn toont tokenverbruik per bestand, per gesprek. De zichtbaarheid alleen verandert je gedrag al.
Vind je dit waardevol? We publiceren wekelijks praktische AI-kostenbesparingsgidsen. Sluit je aan bij lezers die slimmer bouwen →
De Wiskunde Die Je Gedrag Verandert
Een typisch Claude Pro-abonnement geeft je ongeveer 45 Opus-berichten per 5-uurs venster. Zonder optimalisatie verbruikt een complexe coderingssessie dit in 90 minuten. Met deze technieken verbruikt hetzelfde werk 30-35 berichten — wat ruimte laat voor de rest van je dag.
Het verschil tussen "ik raak altijd rate limits" en "ik raak zelden rate limits" is niet betalen voor een hogere laag. Het is workflow discipline.
De Contra-intuïtieve Waarheid Over Langere Prompts
Een langere, meer gedetailleerde prompt kost meer tokens per bericht. Maar het kost minder tokens per taak omdat het het aantal heen-en-weer berichten vermindert. Onze Prompt Optimizer maakt prompts langer en specifieker — en dat is precies waarom het je totaal tokens bespaart. Eén 80-woord prompt die werkt kost minder dan vijf 10-woord prompts die niet werken.
De duurste prompt die je kunt schrijven is een korte, vage die drie keer verzonden moet worden.
Dit doen we elke week. Eén diepgaande analyse over AI-hulpmiddelen, workflows en eerlijke meningen — geen hype, geen vulling. Sluit je bij ons aan →
Openbaarmaking: Sommige links in dit artikel zijn affiliate links. We raden alleen hulpmiddelen aan die we persoonlijk hebben getest en regelmatig gebruiken. Zie ons volledige openbaarmakingsbeleid.