Zeitachse der Ausweitung von LLM-Kontextfenstern in den letzten fünf Jahren

(reddit.com)

10 Punkte von GN⁺ 2025-08-27 | 3 Kommentare | Auf WhatsApp teilen

In den vergangenen fünf Jahren haben die einzelnen Unternehmen die Größe der Kontextfenster im Wettbewerb von 2K auf 2M ausgeweitet
Viele weisen jedoch darauf hin, dass die angegebene Größe des Kontextfensters und die tatsächlich nutzbare Größe voneinander abweichen
Beim Vergleich der realen Leistung wichtiger Modelle wie Gemini 2.5 Pro, GPT-5, Claude, Qwen und Llama gibt es zahlreiche Erfahrungen, die deutlich von den beworbenen Angaben abweichen
Ein skeptischer Blick, wonach „großer Kontext zwar sinnvoll ist, in der Praxis aber nur in der Nähe von 4–8k wirklich sauber funktioniert“, steht positiven Erfahrungsberichten gegenüber, nach denen „mehrere hunderttausend Token in der Praxis nutzbar sind“

Zentrale Streitpunkte

1. Tatsächlich nutzbare Kontextgröße
- Die Timeline für den praktischen Einsatz lautet 1k→2k→4k→8k→8k→8k→32k→40k, wobei nur Gemini 2.5 Pro 80k ermöglicht
- Der tatsächlich nutzbare Bereich liegt noch immer nur bei 4–8k
- „Die gelabelte Größe ist bedeutungslos, entscheidend ist die nutzbare Kontextlänge“
- Die Diskrepanz zwischen deklarierter Größe und real nutzbarer Größe wird anerkannt
2. Leistung von Gemini
- Gemini 2.5 Pro ist bis 250k stabil, 500k sind ebenfalls nutzbar, bei 800k kommen zwar Antworten, die Genauigkeit sinkt jedoch
- Bis 200k ist der Leistungsabfall sehr langsam, und auch danach bleibt Gemini am stärksten
- Gemini nutzt nicht nur eine RoPE-Erweiterung, sondern eine eigene Architektur wie Sequence Sharding; einige Layer führen Dense Attention über alle Tokens aus
3. Bewertung von GPT-5
- GPT-5-thinking funktioniert auch oberhalb von 200k gut
- Bis 100k ist es sehr präzise, die Leistung fällt jedoch früher ab als bei Gemini
4. Bewertung von Claude
- Es herrscht weitgehend Einigkeit, dass Claude beim Halten großer Kontexte Schwächen zeigt
  - Details, Reihenfolgen von Ereignissen oder Methodennamen werden falsch erinnert oder halluziniert
- Claude Sonnet 4 hat selbst bei 4k Speicherprobleme und ist schwächer als Qwen 32b
- „Claude ist wirklich schlecht, ich bin zu Qwen gewechselt“
5. Qwen, Mistral, Gemma usw.
- Mistral Large und Gemma3 27B wirken bei 32k ordentlich
- Gemma3 gehört eher zur schlechtesten Kategorie; als Referenz wird der Fiction.live-Benchmark empfohlen
6. Llama-Serie
- Llama 4 Scout beansprucht Unterstützung für 10 Millionen Tokens
- Der real nutzbare Bereich ist deutlich kleiner. Im 0,5M-Kontexttest wurde nur das letzte Dokument zusammengefasst → damit auch für große Codebasen ungeeignet
7. Detaillierte Erfahrungen je Modell
- „Kohärenz (coherence) ≠ tatsächliche Nutzbarkeit“; auch Gemini 2.5 Pro hat bei Roman-Zusammenfassungen mit 10–20k Schwierigkeiten, den Kontext nachzuverfolgen
- Gemini 1.5 Pro ist in anderen Bereichen schwächer, wird beim Interpretieren langer Kontexte aber als besser als 2.5 Pro bewertet
- Agentenartige Coding-Tools haben System-Prompts von 20k oder mehr; daher ist die Behauptung falsch, man könne nur 4–8k nutzen. Allerdings ist der frühe Kontext am stabilsten

Sonstiges

Geteilte Tools/Ressourcen:
- Tool zur Erstellung animierter Grafiken: Remotion
- Material zu Leistungsabfall: LoCoDiff-bench

Fazit

Gemeinsamer Konsens: Zwischen den „offiziellen Spezifikationen“ und der tatsächlichen Leistung im Praxiseinsatz gibt es je nach Modell große Unterschiede
Gemini: Wird insgesamt als am stabilsten bewertet und gilt auch bei großem Kontext als stark
GPT-5: Bis in mittlere Bereiche hervorragend, der Leistungsabfall setzt jedoch früher ein als bei Gemini
Claude: Erhält bei der Nutzung langer Kontexte die schlechteste Bewertung
Llama/Gemma: Die reale Nutzbarkeit bleibt hinter den unterstützten Spezifikationen zurück

3 Kommentare

firstlesson 2025-08-27

Ich persönlich habe den überwältigenden Unterschied, von dem in Benchmarks die Rede ist, ehrlich gesagt nicht wirklich gespürt.
Gefühlt ist es eher nur auf dem Niveau von „ein bisschen besser“ und nicht so, dass es deutlich anders wäre.
Im Gegenteil habe ich eher den Eindruck, dass die Leistung der Modelle insgesamt angeglichen wurde und die Leute deshalb strenger vergleichen, haha.
Letztlich hängt das meiner Meinung nach davon ab, in welcher Situation man es einsetzt.

Gemini hat ein so großes Kontextfenster, dass es sich wohl gut für große Codebases oder das Beibehalten langer Kontexte eignet, während Claude seine Stärke in einer stabilen Genauigkeit beim Coding hat; man kann also je nach Einsatzzweck wählen.

tested 2025-08-27

Gibt es – abgesehen von AI-Benchmark-Zahlen – aus der tatsächlichen Nutzungserfahrung ein Modell, dessen Coding-Leistung besser ist als die von Claude?

shakespeares 2025-08-27

Claude hat zwar Schwächen bei langem Kontext, aber beim Programmieren scheint es mir trotzdem am besten zu sein.

Zeitachse der Ausweitung von LLM-Kontextfenstern in den letzten fünf Jahren

Zentrale Streitpunkte

1. Tatsächlich nutzbare Kontextgröße

2. Leistung von Gemini

3. Bewertung von GPT-5

4. Bewertung von Claude

5. Qwen, Mistral, Gemma usw.

6. Llama-Serie

7. Detaillierte Erfahrungen je Modell

Sonstiges

Fazit

Verwandte Beiträge

3 Kommentare