- In den vergangenen fünf Jahren haben die einzelnen Unternehmen die Größe der Kontextfenster im Wettbewerb von 2K auf 2M ausgeweitet
- Viele weisen jedoch darauf hin, dass die angegebene Größe des Kontextfensters und die tatsächlich nutzbare Größe voneinander abweichen
- Beim Vergleich der realen Leistung wichtiger Modelle wie Gemini 2.5 Pro, GPT-5, Claude, Qwen und Llama gibt es zahlreiche Erfahrungen, die deutlich von den beworbenen Angaben abweichen
- Ein skeptischer Blick, wonach „großer Kontext zwar sinnvoll ist, in der Praxis aber nur in der Nähe von 4–8k wirklich sauber funktioniert“, steht positiven Erfahrungsberichten gegenüber, nach denen „mehrere hunderttausend Token in der Praxis nutzbar sind“
Zentrale Streitpunkte
-
1. Tatsächlich nutzbare Kontextgröße
- Die Timeline für den praktischen Einsatz lautet 1k→2k→4k→8k→8k→8k→32k→40k, wobei nur Gemini 2.5 Pro 80k ermöglicht
- Der tatsächlich nutzbare Bereich liegt noch immer nur bei 4–8k
- „Die gelabelte Größe ist bedeutungslos, entscheidend ist die nutzbare Kontextlänge“
- Die Diskrepanz zwischen deklarierter Größe und real nutzbarer Größe wird anerkannt
-
2. Leistung von Gemini
- Gemini 2.5 Pro ist bis 250k stabil, 500k sind ebenfalls nutzbar, bei 800k kommen zwar Antworten, die Genauigkeit sinkt jedoch
- Bis 200k ist der Leistungsabfall sehr langsam, und auch danach bleibt Gemini am stärksten
- Gemini nutzt nicht nur eine RoPE-Erweiterung, sondern eine eigene Architektur wie Sequence Sharding; einige Layer führen Dense Attention über alle Tokens aus
-
3. Bewertung von GPT-5
- GPT-5-thinking funktioniert auch oberhalb von 200k gut
- Bis 100k ist es sehr präzise, die Leistung fällt jedoch früher ab als bei Gemini
-
4. Bewertung von Claude
- Es herrscht weitgehend Einigkeit, dass Claude beim Halten großer Kontexte Schwächen zeigt
- Details, Reihenfolgen von Ereignissen oder Methodennamen werden falsch erinnert oder halluziniert
- Claude Sonnet 4 hat selbst bei 4k Speicherprobleme und ist schwächer als Qwen 32b
- „Claude ist wirklich schlecht, ich bin zu Qwen gewechselt“
-
5. Qwen, Mistral, Gemma usw.
- Mistral Large und Gemma3 27B wirken bei 32k ordentlich
- Gemma3 gehört eher zur schlechtesten Kategorie; als Referenz wird der Fiction.live-Benchmark empfohlen
-
6. Llama-Serie
- Llama 4 Scout beansprucht Unterstützung für 10 Millionen Tokens
- Der real nutzbare Bereich ist deutlich kleiner. Im 0,5M-Kontexttest wurde nur das letzte Dokument zusammengefasst → damit auch für große Codebasen ungeeignet
-
7. Detaillierte Erfahrungen je Modell
- „Kohärenz (coherence) ≠ tatsächliche Nutzbarkeit“; auch Gemini 2.5 Pro hat bei Roman-Zusammenfassungen mit 10–20k Schwierigkeiten, den Kontext nachzuverfolgen
- Gemini 1.5 Pro ist in anderen Bereichen schwächer, wird beim Interpretieren langer Kontexte aber als besser als 2.5 Pro bewertet
- Agentenartige Coding-Tools haben System-Prompts von 20k oder mehr; daher ist die Behauptung falsch, man könne nur 4–8k nutzen. Allerdings ist der frühe Kontext am stabilsten
Sonstiges
- Geteilte Tools/Ressourcen:
- Tool zur Erstellung animierter Grafiken: Remotion
- Material zu Leistungsabfall: LoCoDiff-bench
Fazit
- Gemeinsamer Konsens: Zwischen den „offiziellen Spezifikationen“ und der tatsächlichen Leistung im Praxiseinsatz gibt es je nach Modell große Unterschiede
- Gemini: Wird insgesamt als am stabilsten bewertet und gilt auch bei großem Kontext als stark
- GPT-5: Bis in mittlere Bereiche hervorragend, der Leistungsabfall setzt jedoch früher ein als bei Gemini
- Claude: Erhält bei der Nutzung langer Kontexte die schlechteste Bewertung
- Llama/Gemma: Die reale Nutzbarkeit bleibt hinter den unterstützten Spezifikationen zurück
3 Kommentare
Ich persönlich habe den überwältigenden Unterschied, von dem in Benchmarks die Rede ist, ehrlich gesagt nicht wirklich gespürt.
Gefühlt ist es eher nur auf dem Niveau von „ein bisschen besser“ und nicht so, dass es deutlich anders wäre.
Im Gegenteil habe ich eher den Eindruck, dass die Leistung der Modelle insgesamt angeglichen wurde und die Leute deshalb strenger vergleichen, haha.
Letztlich hängt das meiner Meinung nach davon ab, in welcher Situation man es einsetzt.
Gemini hat ein so großes Kontextfenster, dass es sich wohl gut für große Codebases oder das Beibehalten langer Kontexte eignet, während Claude seine Stärke in einer stabilen Genauigkeit beim Coding hat; man kann also je nach Einsatzzweck wählen.
Gibt es – abgesehen von AI-Benchmark-Zahlen – aus der tatsächlichen Nutzungserfahrung ein Modell, dessen Coding-Leistung besser ist als die von Claude?
Claude hat zwar Schwächen bei langem Kontext, aber beim Programmieren scheint es mir trotzdem am besten zu sein.