„Autowaschanlagen-Test“ mit 53 KI-Modellen: „Wenn die Waschanlage 50 m entfernt ist, würdest du zu Fuß gehen oder fahren?“

(opper.ai)

10 Punkte von GN⁺ 2026-02-25 | Noch keine Kommentare. | Auf WhatsApp teilen

Ein Test mit 53 führenden KI-Modellen zeigt, dass die meisten an grundlegendem Schlussfolgern scheitern
Die richtige Antwort ist „fahren“, aber 42 von 53 Modellen entschieden sich für „zu Fuß gehen“
Nur 5 Modelle, darunter Claude Opus 4.6, die Gemini-3-Serie und Grok-4, lieferten auch in 10 Wiederholungen zu 100 % konsistent die richtige Antwort
GPT-5 lag nur in 7 von 10 Fällen richtig und wurde damit auf einem Niveau ähnlich der durchschnittlichen menschlichen Trefferquote (71,5 %) bewertet
Das Experiment zeigt die mangelnde Konsistenz im Schlussfolgern von KI und die Grenzen kontextbasierter Urteile auf und unterstreicht die Bedeutung von „Context Engineering“, um diese Schwächen auszugleichen

Überblick über den Autowaschanlagen-Test

Der Test bestand aus der Frage: „Wenn die Autowaschanlage 50 m entfernt ist, würdest du zu Fuß gehen oder fahren?“
- Die richtige Antwort ist „fahren“, weil das Auto an der Waschanlage sein muss, um es waschen zu können
Über das LLM Gateway von Opper wurden 53 Modelle unter identischen Bedingungen bewertet
- Ohne System-Prompt und mit erzwungener Auswahl zwischen walk und drive
- Nach einem Testlauf pro Modell wurde mit 10 Wiederholungen die Konsistenz überprüft

Von 53 Modellen gaben nur 11 die richtige Antwort (fahren), 42 lagen falsch (zu Fuß gehen)
Modelle mit richtiger Antwort: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
Es zeigten sich Leistungsunterschiede zwischen großen Modellfamilien wie Anthropic, OpenAI, Google, xAI, Perplexity, Meta und Mistral
- Anthropic: 1/9 (nur Opus 4.6 richtig)
- OpenAI: 1/12 (nur GPT-5 richtig)
- Meta (Llama), Mistral, DeepSeek usw. scheiterten vollständig
Die meisten Fehlantworten beruhten auf einem distanzzentrierten Heuristikfehler nach dem Muster „50 m sind kurz, also ist Gehen effizienter“
Einige Modelle trafen zwar die richtige Antwort, lieferten aber unlogische Begründungen
- Beispiel: Perplexity Sonar behauptete, dass „Gehen mehr Energie aus der Lebensmittelproduktion verbraucht und daher eher mehr Umweltverschmutzung verursacht“

Über insgesamt 530 Aufrufe hinweg fiel die konsistente Trefferquote noch niedriger aus
Modelle mit 10/10 richtigen Antworten (5): Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
Modelle mit 8/10 richtigen Antworten (2): GLM-5, Grok-4-1 Reasoning
GPT-5 erreichte 7/10 richtige Antworten, die übrigen drei Fehlantworten begründete es mit Spritverbrauchs- und Umweltlogik
33 Modelle lagen alle 10 Male falsch, darunter GPT-4.1, GPT-5.1, Llama und Mistral
Bei einigen Modellen war das Ergebnis trotz richtiger Erstantwort instabil, wenn der Test wiederholt wurde
- Sonar: 1-mal richtig → in 10 Wiederholungen alles falsch
- Kimi K2.5: 5-mal richtig, 5-mal falsch
- GLM-4.7: 1-mal falsch → Verbesserung auf 6 richtige Antworten von 10

Über die Plattform Rapidata wurde dieselbe Frage 10.000 Personen gestellt
- 71,5 % wählten „fahren“, was als durchschnittliche menschliche Trefferquote angesetzt wurde
Die Trefferquote von 70 % bei GPT-5 liegt damit auf einem ähnlichen Niveau wie der menschliche Durchschnitt
Von 53 Modellen übertrafen nur 7 den menschlichen Durchschnitt, die übrigen 46 schnitten schlechter ab als Menschen

GLM-4.7 Flash: formulierte die klare Logik, dass es unmöglich sei, zu Fuß zu gehen, weil man das Auto dann schieben oder tragen müsste
Claude Sonnet 4.5: erkannte, dass man „bei einer automatischen Waschanlage fahren muss“, entschied sich am Ende aber dennoch für „zu Fuß gehen“
Gemini 2.5 Pro: schrieb bei einer richtigen Antwort korrekt, dass „das Auto an der Waschanlage sein muss, um gewaschen zu werden“, griff bei Fehlantworten jedoch auf die Logik „50 m sind eine kurze Distanz“ zurück

Obwohl es sich um ein einfaches Problem handelt, das nur einen einzigen logischen Schritt erfordert, gaben nur 5 von 53 Modellen durchgehend die richtige Antwort
Die Fehlertypen lassen sich in drei Gruppen einteilen
- Immer falsch (33): festgefahren auf einer distanzzentrierten Heuristik
- Manchmal richtig (15): grundsätzliches Schlussfolgern vorhanden, aber mangelnde Konsistenz
- Immer richtig (5): kontextuelles Schlussfolgern überwindet die Heuristik zuverlässig
Dass selbst bei einer simplen Aufgabe 90 % der Modelle scheitern, deutet auf Risiken in realer Business-Logik oder bei mehrstufigem Schlussfolgern hin

Dieser Test wurde in einer „Zero-Context“-Umgebung durchgeführt, um die reine Schlussfolgerungsfähigkeit der Modelle zu bewerten
Der Grund für das Scheitern vieler Modelle liegt darin, dass Heuristiken das kontextuelle Schlussfolgern überlagern
Context Engineering mildert solche Fehler, indem Beispiele, Domain-Muster und relevante Informationen bereitgestellt werden
- In einem separaten Experiment von Opper erreichte ein kleines offenes Modell nach Hinzufügen von Kontext bei 98,6 % geringeren Kosten die Qualität großer Modelle
Das Problem mit der Autowaschanlage ist simpel, doch reale Arbeit erfordert Mehrdeutigkeit und Domänenwissen, weshalb Context-Design unverzichtbar ist

Alle Modelle wurden über das Opper LLM Gateway mit demselben Prompt getestet
- I want to wash my car. The car wash is 50 meters away. Should I walk or drive?
- Kein System-Prompt, erzwungene Auswahl zwischen drive und walk
- Einzeldurchlauf (1-mal) und 10 Wiederholungen (insgesamt 530 Aufrufe), alle Call-Logs wurden aufgezeichnet und die Begründungstexte gespeichert
Die menschliche Vergleichsgruppe wurde über Rapidata im selben Format mit 10.000 Personen befragt
Der vollständige Datensatz wurde im JSON-Format veröffentlicht
- Die Ergebnisse des Einzeldurchlaufs, der 10 Wiederholungen und der Menschen sind jeweils separat herunterladbar