- Ein Test mit 53 führenden KI-Modellen zeigt, dass die meisten an grundlegendem Schlussfolgern scheitern
- Die richtige Antwort ist „fahren“, aber 42 von 53 Modellen entschieden sich für „zu Fuß gehen“
- Nur 5 Modelle, darunter Claude Opus 4.6, die Gemini-3-Serie und Grok-4, lieferten auch in 10 Wiederholungen zu 100 % konsistent die richtige Antwort
- GPT-5 lag nur in 7 von 10 Fällen richtig und wurde damit auf einem Niveau ähnlich der durchschnittlichen menschlichen Trefferquote (71,5 %) bewertet
- Das Experiment zeigt die mangelnde Konsistenz im Schlussfolgern von KI und die Grenzen kontextbasierter Urteile auf und unterstreicht die Bedeutung von „Context Engineering“, um diese Schwächen auszugleichen
Überblick über den Autowaschanlagen-Test
- Der Test bestand aus der Frage: „Wenn die Autowaschanlage 50 m entfernt ist, würdest du zu Fuß gehen oder fahren?“
- Die richtige Antwort ist „fahren“, weil das Auto an der Waschanlage sein muss, um es waschen zu können
- Über das LLM Gateway von Opper wurden 53 Modelle unter identischen Bedingungen bewertet
- Ohne System-Prompt und mit erzwungener Auswahl zwischen
walk und drive
- Nach einem Testlauf pro Modell wurde mit 10 Wiederholungen die Konsistenz überprüft
Ergebnis des ersten Einzeldurchlaufs
- Von 53 Modellen gaben nur 11 die richtige Antwort (fahren), 42 lagen falsch (zu Fuß gehen)
- Modelle mit richtiger Antwort: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
- Es zeigten sich Leistungsunterschiede zwischen großen Modellfamilien wie Anthropic, OpenAI, Google, xAI, Perplexity, Meta und Mistral
- Anthropic: 1/9 (nur Opus 4.6 richtig)
- OpenAI: 1/12 (nur GPT-5 richtig)
- Meta (Llama), Mistral, DeepSeek usw. scheiterten vollständig
- Die meisten Fehlantworten beruhten auf einem distanzzentrierten Heuristikfehler nach dem Muster „50 m sind kurz, also ist Gehen effizienter“
- Einige Modelle trafen zwar die richtige Antwort, lieferten aber unlogische Begründungen
- Beispiel: Perplexity Sonar behauptete, dass „Gehen mehr Energie aus der Lebensmittelproduktion verbraucht und daher eher mehr Umweltverschmutzung verursacht“
Zweiter Test mit 10 Wiederholungen
- Über insgesamt 530 Aufrufe hinweg fiel die konsistente Trefferquote noch niedriger aus
- Modelle mit 10/10 richtigen Antworten (5): Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
- Modelle mit 8/10 richtigen Antworten (2): GLM-5, Grok-4-1 Reasoning
- GPT-5 erreichte 7/10 richtige Antworten, die übrigen drei Fehlantworten begründete es mit Spritverbrauchs- und Umweltlogik
- 33 Modelle lagen alle 10 Male falsch, darunter GPT-4.1, GPT-5.1, Llama und Mistral
- Bei einigen Modellen war das Ergebnis trotz richtiger Erstantwort instabil, wenn der Test wiederholt wurde
- Sonar: 1-mal richtig → in 10 Wiederholungen alles falsch
- Kimi K2.5: 5-mal richtig, 5-mal falsch
- GLM-4.7: 1-mal falsch → Verbesserung auf 6 richtige Antworten von 10
Vergleich mit Menschen
- Über die Plattform Rapidata wurde dieselbe Frage 10.000 Personen gestellt
- 71,5 % wählten „fahren“, was als durchschnittliche menschliche Trefferquote angesetzt wurde
- Die Trefferquote von 70 % bei GPT-5 liegt damit auf einem ähnlichen Niveau wie der menschliche Durchschnitt
- Von 53 Modellen übertrafen nur 7 den menschlichen Durchschnitt, die übrigen 46 schnitten schlechter ab als Menschen
Auffällige Beispiele für Schlussfolgern
- GLM-4.7 Flash: formulierte die klare Logik, dass es unmöglich sei, zu Fuß zu gehen, weil man das Auto dann schieben oder tragen müsste
- Claude Sonnet 4.5: erkannte, dass man „bei einer automatischen Waschanlage fahren muss“, entschied sich am Ende aber dennoch für „zu Fuß gehen“
- Gemini 2.5 Pro: schrieb bei einer richtigen Antwort korrekt, dass „das Auto an der Waschanlage sein muss, um gewaschen zu werden“, griff bei Fehlantworten jedoch auf die Logik „50 m sind eine kurze Distanz“ zurück
Probleme bei der Zuverlässigkeit von KI
- Obwohl es sich um ein einfaches Problem handelt, das nur einen einzigen logischen Schritt erfordert, gaben nur 5 von 53 Modellen durchgehend die richtige Antwort
- Die Fehlertypen lassen sich in drei Gruppen einteilen
- Immer falsch (33): festgefahren auf einer distanzzentrierten Heuristik
- Manchmal richtig (15): grundsätzliches Schlussfolgern vorhanden, aber mangelnde Konsistenz
- Immer richtig (5): kontextuelles Schlussfolgern überwindet die Heuristik zuverlässig
- Dass selbst bei einer simplen Aufgabe 90 % der Modelle scheitern, deutet auf Risiken in realer Business-Logik oder bei mehrstufigem Schlussfolgern hin
Die Rolle von Context Engineering
- Dieser Test wurde in einer „Zero-Context“-Umgebung durchgeführt, um die reine Schlussfolgerungsfähigkeit der Modelle zu bewerten
- Der Grund für das Scheitern vieler Modelle liegt darin, dass Heuristiken das kontextuelle Schlussfolgern überlagern
- Context Engineering mildert solche Fehler, indem Beispiele, Domain-Muster und relevante Informationen bereitgestellt werden
- In einem separaten Experiment von Opper erreichte ein kleines offenes Modell nach Hinzufügen von Kontext bei 98,6 % geringeren Kosten die Qualität großer Modelle
- Das Problem mit der Autowaschanlage ist simpel, doch reale Arbeit erfordert Mehrdeutigkeit und Domänenwissen, weshalb Context-Design unverzichtbar ist
Experimentelle Methodik
- Alle Modelle wurden über das Opper LLM Gateway mit demselben Prompt getestet
I want to wash my car. The car wash is 50 meters away. Should I walk or drive?
- Kein System-Prompt, erzwungene Auswahl zwischen
drive und walk
- Einzeldurchlauf (1-mal) und 10 Wiederholungen (insgesamt 530 Aufrufe), alle Call-Logs wurden aufgezeichnet und die Begründungstexte gespeichert
- Die menschliche Vergleichsgruppe wurde über Rapidata im selben Format mit 10.000 Personen befragt
- Der vollständige Datensatz wurde im JSON-Format veröffentlicht
- Die Ergebnisse des Einzeldurchlaufs, der 10 Wiederholungen und der Menschen sind jeweils separat herunterladbar
Noch keine Kommentare.