- Ein Test mit 53 führenden KI-Modellen zeigt, dass die meisten an grundlegendem Schlussfolgern scheitern
- Die richtige Antwort ist „fahren“, aber 42 von 53 Modellen entschieden sich für „zu Fuß gehen“
- Nur 5 Modelle, darunter Claude Opus 4.6, die Gemini-3-Serie und Grok-4, lieferten auch in 10 Wiederholungen zu 100 % konsistent die richtige Antwort
- GPT-5 lag nur in 7 von 10 Fällen richtig und wurde damit auf einem Niveau ähnlich der durchschnittlichen menschlichen Trefferquote (71,5 %) bewertet
- Das Experiment zeigt die mangelnde Konsistenz im Schlussfolgern von KI und die Grenzen kontextbasierter Urteile auf und unterstreicht die Bedeutung von „Context Engineering“, um diese Schwächen auszugleichen
Überblick über den Autowaschanlagen-Test
- Der Test bestand aus der Frage: „Wenn die Autowaschanlage 50 m entfernt ist, würdest du zu Fuß gehen oder fahren?“
- Die richtige Antwort ist „fahren“, weil das Auto an der Waschanlage sein muss, um es waschen zu können
- Über das LLM Gateway von Opper wurden 53 Modelle unter identischen Bedingungen bewertet
- Ohne System-Prompt und mit erzwungener Auswahl zwischen
walkunddrive - Nach einem Testlauf pro Modell wurde mit 10 Wiederholungen die Konsistenz überprüft
- Ohne System-Prompt und mit erzwungener Auswahl zwischen
Ergebnis des ersten Einzeldurchlaufs
- Von 53 Modellen gaben nur 11 die richtige Antwort (fahren), 42 lagen falsch (zu Fuß gehen)
- Modelle mit richtiger Antwort: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
- Es zeigten sich Leistungsunterschiede zwischen großen Modellfamilien wie Anthropic, OpenAI, Google, xAI, Perplexity, Meta und Mistral
- Anthropic: 1/9 (nur Opus 4.6 richtig)
- OpenAI: 1/12 (nur GPT-5 richtig)
- Meta (Llama), Mistral, DeepSeek usw. scheiterten vollständig
- Die meisten Fehlantworten beruhten auf einem distanzzentrierten Heuristikfehler nach dem Muster „50 m sind kurz, also ist Gehen effizienter“
- Einige Modelle trafen zwar die richtige Antwort, lieferten aber unlogische Begründungen
- Beispiel: Perplexity Sonar behauptete, dass „Gehen mehr Energie aus der Lebensmittelproduktion verbraucht und daher eher mehr Umweltverschmutzung verursacht“
Zweiter Test mit 10 Wiederholungen
- Über insgesamt 530 Aufrufe hinweg fiel die konsistente Trefferquote noch niedriger aus
- Modelle mit 10/10 richtigen Antworten (5): Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
- Modelle mit 8/10 richtigen Antworten (2): GLM-5, Grok-4-1 Reasoning
- GPT-5 erreichte 7/10 richtige Antworten, die übrigen drei Fehlantworten begründete es mit Spritverbrauchs- und Umweltlogik
- 33 Modelle lagen alle 10 Male falsch, darunter GPT-4.1, GPT-5.1, Llama und Mistral
- Bei einigen Modellen war das Ergebnis trotz richtiger Erstantwort instabil, wenn der Test wiederholt wurde
- Sonar: 1-mal richtig → in 10 Wiederholungen alles falsch
- Kimi K2.5: 5-mal richtig, 5-mal falsch
- GLM-4.7: 1-mal falsch → Verbesserung auf 6 richtige Antworten von 10
Vergleich mit Menschen
- Über die Plattform Rapidata wurde dieselbe Frage 10.000 Personen gestellt
- 71,5 % wählten „fahren“, was als durchschnittliche menschliche Trefferquote angesetzt wurde
- Die Trefferquote von 70 % bei GPT-5 liegt damit auf einem ähnlichen Niveau wie der menschliche Durchschnitt
- Von 53 Modellen übertrafen nur 7 den menschlichen Durchschnitt, die übrigen 46 schnitten schlechter ab als Menschen
Auffällige Beispiele für Schlussfolgern
- GLM-4.7 Flash: formulierte die klare Logik, dass es unmöglich sei, zu Fuß zu gehen, weil man das Auto dann schieben oder tragen müsste
- Claude Sonnet 4.5: erkannte, dass man „bei einer automatischen Waschanlage fahren muss“, entschied sich am Ende aber dennoch für „zu Fuß gehen“
- Gemini 2.5 Pro: schrieb bei einer richtigen Antwort korrekt, dass „das Auto an der Waschanlage sein muss, um gewaschen zu werden“, griff bei Fehlantworten jedoch auf die Logik „50 m sind eine kurze Distanz“ zurück
Probleme bei der Zuverlässigkeit von KI
- Obwohl es sich um ein einfaches Problem handelt, das nur einen einzigen logischen Schritt erfordert, gaben nur 5 von 53 Modellen durchgehend die richtige Antwort
- Die Fehlertypen lassen sich in drei Gruppen einteilen
- Immer falsch (33): festgefahren auf einer distanzzentrierten Heuristik
- Manchmal richtig (15): grundsätzliches Schlussfolgern vorhanden, aber mangelnde Konsistenz
- Immer richtig (5): kontextuelles Schlussfolgern überwindet die Heuristik zuverlässig
- Dass selbst bei einer simplen Aufgabe 90 % der Modelle scheitern, deutet auf Risiken in realer Business-Logik oder bei mehrstufigem Schlussfolgern hin
Die Rolle von Context Engineering
- Dieser Test wurde in einer „Zero-Context“-Umgebung durchgeführt, um die reine Schlussfolgerungsfähigkeit der Modelle zu bewerten
- Der Grund für das Scheitern vieler Modelle liegt darin, dass Heuristiken das kontextuelle Schlussfolgern überlagern
- Context Engineering mildert solche Fehler, indem Beispiele, Domain-Muster und relevante Informationen bereitgestellt werden
- In einem separaten Experiment von Opper erreichte ein kleines offenes Modell nach Hinzufügen von Kontext bei 98,6 % geringeren Kosten die Qualität großer Modelle
- Das Problem mit der Autowaschanlage ist simpel, doch reale Arbeit erfordert Mehrdeutigkeit und Domänenwissen, weshalb Context-Design unverzichtbar ist
Experimentelle Methodik
- Alle Modelle wurden über das Opper LLM Gateway mit demselben Prompt getestet
I want to wash my car. The car wash is 50 meters away. Should I walk or drive?- Kein System-Prompt, erzwungene Auswahl zwischen
driveundwalk - Einzeldurchlauf (1-mal) und 10 Wiederholungen (insgesamt 530 Aufrufe), alle Call-Logs wurden aufgezeichnet und die Begründungstexte gespeichert
- Die menschliche Vergleichsgruppe wurde über Rapidata im selben Format mit 10.000 Personen befragt
- Der vollständige Datensatz wurde im JSON-Format veröffentlicht
- Die Ergebnisse des Einzeldurchlaufs, der 10 Wiederholungen und der Menschen sind jeweils separat herunterladbar
3 Kommentare
Bei Gemini Pro war es wirklich zum Totlachen,
weil es geantwortet hat, man könne auch zu Fuß gehen, wenn man das Auto mitnehmen könne.
Eine witzige Antwort, haha
Hacker-News-Meinungen
Interessant ist, dass das Ergebnis der menschlichen Antworten exakt mit ChatGPT übereinstimmt.
Realistisch betrachtet wirkt das so, als sei ein „menschlicher Antwortservice“ praktisch tot. Am Ende werden Menschen wohl einen Weg finden, Arbeit an KI abzuschieben, unabhängig von der Qualität.
Rapidata integriert Mikro-Umfragen in Dinge wie Duolingo oder Spiele-Apps, sodass Nutzer statt Werbung teilnehmen. Die Nutzer sind verifiziert, und es gibt keinen Anreiz, die richtige Antwort zu treffen.
Es ist interessant, wie hier – wie im obigen Kommentar – mit unbegründeter Gewissheit Schlussfolgerungen gezogen werden.
Ich pflege ein persönliches Evaluierungsset aus Fragen des Typs „misguided attention“.
Der Kern solcher Probleme ist kein Logikversagen, sondern Mehrdeutigkeit und fehlender Kontext. Menschen ergänzen implizite Annahmen, Modelle dagegen nicht.
Die meisten Beispiele vom Typ „KI scheitert schon an einfachen Fragen“ sind so formuliert, dass sie einen statistischen Bias auslösen. Schon eine kleine Änderung des Kontexts kann das Ergebnis umkehren.
Das heißt: Das Versagen des Modells liegt an Empfindlichkeit gegenüber Framing, nicht am Fehlen von Schlussfolgerungsfähigkeit.
Der menschliche Referenzwert von 71,5 % zeigt die Mehrdeutigkeit des Problems.
Die Frage „Soll ich zur Waschanlage laufen oder fahren?“ kann als „Soll ich für diese kurze Strecke wirklich fahren?“ verstanden werden. Es ist also kein reines Logikproblem, sondern ein Problem pragmatischer Interpretation.
Menschen nehmen an, dass die Frage aus einer realen Situation stammt, und interpretieren sie nach dem kooperativen Gesprächsprinzip (Grices Kooperationsprinzip).
Deshalb denken sie zunächst: „Es wird schon einen Grund geben, zu laufen“, bis ihnen klar wird: „Das ist wohl eine Fangfrage.“
Wenn man dem Modell Sonnet 4.6 vorher sagt: „Du machst gerade einen Intelligenztest“, gibt es zu 100 % die richtige Antwort.
Modelle neigen dazu, menschliche Fragen als reale Situationen zu interpretieren; wenn man also explizit macht, dass es ein Test ist, sinkt die Fehlerquote.
Ein ähnliches Phänomen gibt es auch bei Coding-Agenten. Anfangs wirkt eine Frage unsinnig, aber sobald der Code geladen wird, ergibt sie Sinn.
Bei realer Problemlösung, etwa im Software-Design, wiederholt sich dieses Muster ebenfalls.
LLMs verlassen sich weiterhin auf Pattern Matching und analysieren nicht die Bedeutung des Ergebnisses.
Modelle gehen normalerweise davon aus, dass Fragen reale Situationen betreffen. Solche impliziten Signale anzutrainieren kann die Genauigkeit erhöhen, aber die Natürlichkeit verschlechtern.
Wenn man ans Ende der Frage den Satz „Überprüfe deine Annahmen“ anhängt, geben die meisten Modelle die richtige Antwort.
Wenn ein einziger Satz den Fehler beseitigt, liegt die Vermutung nahe, dass KI-Anbieter das aus Kostenoptimierung nicht in den Systemprompt schreiben.
Die dazugehörige Diskussion ist in einem früheren Kommentar zusammengefasst.
Der bei der Google-Suche gesehene Dialog zum „Car Wash Test“ war ziemlich komisch.
Die meisten KIs antworten: „Bei 50 m geh zu Fuß“, aber richtig ist: „Du musst das Auto zur Waschanlage bringen, also musst du fahren.“
Dieser Test zeigt den Unterschied zwischen Pattern Matching und echtem Schlussfolgern.
Die über Rapidata ermittelte menschliche Referenz war, dass 71,5 % „fahren“ wählten.
Die korrekte Antwort wäre eine Rückfrage zur Klärung: „Wo ist das Auto?“
Aber selbst wenn man ChatGPT sagt: „Mein Auto ist 50 m von der Waschanlage entfernt“, liegt es immer noch falsch.
Diese Frage ist nicht simpel. Ein intelligenter Mensch würde sich fragen, warum man so etwas überhaupt fragt und ob nicht Kontext fehlt.
Deshalb könnte die richtige Antwort weder „fahren“ noch „laufen“ sein, sondern: „Bitte präzisiere die Frage.“
Verwandtes Beispiel: Bild einer Rain‑x-Autowaschflüssigkeit
Das Modell Sonnet 4.6 hat zwar einen hohen Common-Sense-Score, liegt aber unter Opus.
Im Modus Opus 4.6 Extended Reasoning lautete die Antwort „Geh zu Fuß“, obwohl der Autor dort 10/10 richtige Antworten erhalten haben will.
Vermutlich wurde die Memory-Funktion der App automatisch in den Prompt eingefügt und hat das Schlussfolgern gestört. Wenn man Memory und Bio-Infos deaktiviert, wechselt die Antwort zu „Fahr“.
Das heißt, versteckte Pre-Prompts können das Schlussfolgern eines Modells verzerren.