Google hat Gemini 3.1 mit einem Kontextfenster von 2 Millionen Tokens veröffentlicht. Jede Schlagzeile stellte dies als Durchbruch dar. Und für bestimmte Anwendungsfälle – die Verarbeitung ganzer Codebasen, die Analyse ganzer Bücher oder die Suche in stundenlangem Videomaterial – ist es das auch. Doch das Marketing hat eine gefährliche Annahme geschaffen: Mehr Kontext gleich bessere Ergebnisse.

Das stimmt nicht. Bei den meisten realen Aufgaben zählt die Qualität des Kontexts mehr als die Menge. Ein präziser 5.000-Token-Prompt mit genau den richtigen Informationen liefert bessere Ergebnisse als ein 500.000-Token-Dump mit allem, was nur entfernt damit zusammenhängt.

Wichtige Erkenntnis

Kontextfenster sind wie Stauraum: Ein größerer Garage macht dich nicht zum besseren Fahrer. Entscheidend ist, was du in den Kontext legst – nicht wie viel Platz verfügbar ist. Context Engineering (die Auswahl des RICHTIGEN Kontexts) ist die Fähigkeit, die bessere Ergebnisse liefert, nicht die Größe des Kontextfensters.

Warum führt mehr Kontext nicht zu besseren Ergebnissen?

Das „Mitte-vergessen“-Problem. Studien zeigen immer wieder, dass LLMs Inhalten in der Mitte langer Kontexte weniger Aufmerksamkeit schenken. Informationen am Anfang und Ende werden deutlich präziser verarbeitet als Inhalte an Position 100.000. Das ist kein Bug, sondern eine grundlegende Eigenschaft der Transformer-Attention-Mechanismen. 2 Millionen Tokens in den Kontext zu laden bedeutet, dass ein großer Teil davon für das Modell praktisch unsichtbar bleibt.

Signal-Rausch-Verhältnis. Wenn du eine gesamte Codebasis in ein 2-Millionen-Token-Kontextfenster lädst, ist der Großteil dieses Codes für deine konkrete Frage irrelevant. Das Modell muss erst herausfinden, welche Dateien wirklich zählen – und das gelingt nicht immer. Ein gezieltes Hochladen der 3–5 relevanten Dateien liefert deutlich präzisere Antworten als ein vollständiger Repository-Dump.

Token-Kosten steigen mit dem Kontext. Die Verarbeitung von 2 Millionen Tokens kostet deutlich mehr als die von 5.000 Tokens. Bei Routineaufgaben – E-Mails schreiben, Zusammenfassungen erstellen, Fragen beantworten – zahlst du 400-fach mehr für eine marginale (oder gar keine) Verbesserung der Qualität.

Kontext-Ansatz Ausgabequalität Kosten Geschwindigkeit
5K Tokens mit fokussiertem KontextAusgezeichnet – das Modell konzentriert sich genau auf das WesentlicheMinimalSchnell
50K Tokens relevanter DokumenteSehr gut – mehr Kontext hilft bei komplexen AufgabenMittelGut
500K+ Token VolldumpVariabel – abhängig von Aufgabe und „Mitte-vergessen“-EffektenHochLangsam
2M Tokens maximale AuslastungNur bei spezifischen Aufgaben nützlich (Codebasis-Suche, Buchanalyse)Sehr hochSehr langsam
---

📬 Findest du das hilfreich? Wir durchschneiden das AI-Marketing mit praxisnahen Analysen – wöchentlich. In deinen Posteingang →

---

Wann zählen große Kontextfenster wirklich?

Große Kontextfenster helfen wirklich nur in genau drei Szenarien:

1. Große Dokumente nach bestimmten Informationen durchsuchen. „Finde jede Erwähnung der ‚Kündigungsbedingungen‘ in diesen 50 Verträgen.“ Das ist Retrieval, keine Analyse – und mehr Kontext bedeutet einfach mehr Dokumente, die durchsucht werden können.

2. Informationen aus mehreren Quellen miteinander verknüpfen. „Vergleiche die Methodik-Abschnitte dieser 20 Forschungsarbeiten.“ Dafür müssen mehrere Dokumente gleichzeitig im Speicher gehalten werden – etwas, das mit kleinen Kontextfenstern unmöglich ist.

3. Ganze Codebasen analysieren. „Finde alle Funktionen, die die Payment-API aufrufen, und prüfe die Fehlerbehandlung.“ Das erfordert Überblick über das gesamte Projekt. Claude Code löst das über CLAUDE.md-Dateien statt über rohen Kontext, aber Geminis Ansatz, einfach alles zu laden, funktioniert ebenfalls.

Für alles andere – Schreiben, Entwürfe erstellen, Zusammenfassen, einzelne Dokumente analysieren, Fragen beantworten, Inhalte erstellen – schlägt Kontextqualität immer Kontextmenge.

Die entscheidende Fähigkeit ist Context Engineering – die richtigen 5.000 Tokens aus deinen verfügbaren Informationen auszuwählen. Der Prompt Optimizer unterstützt dich dabei, indem er Prompts so umstrukturiert, dass der relevanteste Kontext in der wirksamsten Form eingebettet wird.

---

📬 Mehr davon? Konträre AI-Analysen, fundiert durch Forschung. Kostenlos abonnieren →

---

Häufig gestellte Fragen

Ist Geminis 2M-Kontext also nutzlos?

Überhaupt nicht. Für die oben genannten spezifischen Anwendungsfälle (Durchsuchen großer Dokumente, Querverweise, Codebasis-Analyse) ist er tatsächlich bahnbrechend. Der Punkt ist, dass die Kontextgröße als allgemeine Qualitätsverbesserung vermarktet wird, obwohl es sich um eine spezialisierte Fähigkeit handelt. Die meisten alltäglichen AI-Aufgaben profitieren von fokussiertem Kontext, nicht von massivem Kontext.

Sollte ich mein AI-Modell nach der Kontextgröße auswählen?

Nur, wenn du regelmäßig mit sehr großen Dokumenten oder Codebasen arbeitest. Für die meisten Nutzer sind die Qualitätsunterschiede zwischen den Modellen (Claudes Schreibqualität, GPTs Durchsatz, Geminis multimodale Fähigkeiten) deutlich wichtiger als die Kontextgröße.

Wie lang sollte ein idealer Prompt sein?

Bei den meisten Aufgaben reichen 200–500 Wörter gut strukturierter Kontext (das ICCSSE-Framework) für optimale Ergebnisse. Darüber hinaus gibt es abnehmende Erträge, es sei denn, du fügst tatsächlich Referenzdokumente hinzu, die das Modell analysieren soll.

Hinweis: Einige Links in diesem Artikel sind Affiliate-Links. Wir empfehlen nur Tools, die wir selbst getestet haben und regelmäßig nutzen. Siehe unsere vollständige Offenlegungspolitik.