Un prompt vago di 10 parole che richiede 4 round di chiarimenti consuma più token rispetto a un prompt preciso di 80 parole che funziona al primo tentativo. L'interazione AI più costosa non è quella lunga — è quella che devi ripetere. Ecco 8 tecniche che dimezzano l'uso dei token su Claude Code, Cursor e tutti gli altri strumenti di AI coding.
- Causa radice: Il 60% dello spreco di token proviene dalla ri-spiegazione del contesto e dall'iterazione su prompt vaghi
- Leva principale: Iniziare conversazioni nuove (risparmia la ri-lettura della cronologia completa)
- Seconda leva: Prompt migliori (un buon prompt sostituisce 3-4 prompt cattivi)
- Strumenti utili: Caveman (compressione output), Code Burn (monitoraggio utilizzo)
- Si applica a: Claude Code, Cursor, GitHub Copilot, Windsurf — tutti
- Ultimo verificato: Aprile 2026
Perché Avviene lo Spreco di Token
Ogni strumento di AI coding funziona allo stesso modo sotto il cofano: il tuo prompt più l'intera cronologia della conversazione viene inviato al modello con ogni messaggio. Il messaggio 1 è economico. Il messaggio 20 è costoso — perché il modello ri-legge tutti i 19 messaggi precedenti prima di generare una risposta.
Questo significa che il più grande drenaggio di token non è da prompt complessi. È da conversazioni lunghe. Una conversazione di 30 messaggi dove ogni messaggio ri-legge la cronologia completa costa approssimativamente 5x quello che sei conversazioni separate di 5 messaggi costerebbero per lo stesso lavoro totale.
Il secondo drenaggio è l'iterazione. "Aggiungi auth" → "No, intendevo OAuth" → "Con il provider Google" → "E aggiungi rate limiting" → "Gestisci anche i token di refresh" costa cinque interazioni quando un prompt dettagliato avrebbe ottenuto il risultato giusto: "Aggiungi autenticazione OAuth con provider Google, incluso il rate limiting sugli endpoint di auth e la gestione dei token di refresh."
Le 8 Tecniche
1. Inizia conversazioni nuove ogni 15-20 messaggi. Questa è l'abitudine singolarmente più impattante. Riassumi il tuo progresso attuale in 3-4 frasi, inizia una nuova chat, incolla il riassunto come contesto. Il costo del tuo token per messaggio torna al baseline.
2. Scrivi prompt come documenti di handoff. Includi cosa esiste, cosa vuoi cambiato, cosa NON deve essere toccato, e il risultato atteso. Un prompt preciso sostituisce 3-4 vaghi. Risparmio di token netto: 60-70%.
3. Usa il modello giusto per il compito. Claude Sonnet per modifiche di routine. Opus per il ragionamento complesso. Non usare il modello più potente (e più costoso) per compiti che non lo richiedono. In Cursor, seleziona manualmente il modello invece di usare quello predefinito.
4. Taglia il tuo input. Se chiedi a Claude Code di revisionare un file, estrai la sezione rilevante — non dargli l'intero file di 1.000 righe quando solo 50 righe contano.
5. Non chiedere all'AI di ripetere o riformattare. Copia l'output e riformattalo tu stesso. "Puoi riscrivere questo come punti elenco?" costa lo stesso della risposta originale più quella nuova. Seleziona il testo, riformatta localmente.
6. Usa Projects per il contesto persistente. In Claude, carica la documentazione del tuo progetto, gli standard di codifica e le preferenze in un Project una volta. Ogni conversazione eredita questo contesto senza bruciare token ri-spiegandolo.
7. Installa Caveman per la compressione dell'output. Il plugin open-source Caveman rimuove le spiegazioni verbose dalle risposte di Claude Code, riducendo i token di output del 40-60% preservando l'accuratezza del codice. Consulta la nostra guida 3 repo di Claude Code per le istruzioni di configurazione.
8. Monitora con Code Burn. Non puoi ottimizzare quello che non misuri. Code Burn mostra il consumo di token per file, per conversazione. La visibilità da sola cambia il tuo comportamento.
Trovi valore in questo? Pubblichiamo guide pratiche di risparmio AI settimanalmente. Unisciti ai lettori che costruiscono in modo più intelligente →
La Matematica Che Cambia Il Tuo Comportamento
Un abbonamento tipico a Claude Pro ti dà approssimativamente 45 messaggi Opus per finestra di 5 ore. Senza ottimizzazione, una sessione di coding complessa brucia questo in 90 minuti. Con queste tecniche, lo stesso lavoro richiede 30-35 messaggi — lasciando spazio per il resto della tua giornata.
La differenza tra "Colpisco sempre i limiti di frequenza" e "Raramente colpisco i limiti di frequenza" non è pagare un tier più alto. È la disciplina del flusso di lavoro.
La Verità Controintuitiva Sui Prompt Più Lunghi
Un prompt più lungo e più dettagliato costa più token per messaggio. Ma costa meno token per compito perché riduce il numero di messaggi avanti e indietro. Il nostro Prompt Optimizer rende i prompt più lunghi e più specifici — ed è esattamente per questo che ti risparmia token complessivamente. Un prompt di 80 parole che funziona costa meno di cinque prompt di 10 parole che non funzionano.
Il prompt più costoso che puoi scrivere è uno breve e vago che deve essere inviato tre volte.
È quello che facciamo ogni settimana. Un approfondimento su strumenti AI, flussi di lavoro e opinioni oneste — niente hype, niente riempitivo. Unisciti a noi →
Divulgazione: Alcuni link in questo articolo sono link di affiliazione. Consigliamo solo strumenti che abbiamo testato personalmente e usiamo regolarmente. Consulta la nostra politica di divulgazione completa.