Wenn man ein Auto waschen will und die Waschanlage 50 Meter entfernt ist – geht man zu Fuß oder fährt man?
(mastodon.world)- Eine logische Fangfrage für LLMs. Viele Modelle übersehen die Voraussetzung, dass das Auto zur Waschanlage gebracht werden muss, und sagen „geh zu Fuß“
- Mehrere bekannte Modelle wie ChatGPT, Claude, DeepSeek und Qwen zeigen unterschiedliche Antworten und logische Fehler
- Dieser Fall macht Grenzen und Inkonsistenzen beim alltagsbezogenen Schlussfolgern von LLMs sichtbar
Das 50-Meter-Waschanlagen-Problem und die Reaktionen der LLMs
- Die Frage lautet: „Wenn die Waschanlage 50 Meter entfernt ist, gehst du zu Fuß oder fährst du?“ – und testet die grundlegende Voraussetzung, dass das Auto zur Waschanlage gebracht werden muss
- Perplexity : "50 m sind eine kurze Strecke, also würde ich zu Fuß gehen. Das Auto für so eine kurze Distanz zu bewegen, ist ineffizient"
- ChatGPT 5.2 : "Bei 50 m ist Gehen praktischer. Das dauert 30 bis 40 Sekunden. Wenn das Wetter schlecht ist oder man etwas Schweres dabeihat, würde ich fahren, sonst ist Gehen einfacher und vernünftiger"
- Claude : "Bei 50 m würde ich zu Fuß gehen. Fahren wäre absurd. Man müsste fast schon auf die Bremse treten, bevor überhaupt ein Gang eingelegt ist. Das dauert 30 bis 45 Sekunden und man muss nicht parken"
- DeepSeek : "Wenn man zu Fuß geht, muss man danach zurückkommen und das Auto noch fahren. Für Bequemlichkeit also fahren, für die Umwelt zu Fuß gehen (und danach wieder fahren)"
- Qwen3-Max : "Man sollte auf jeden Fall zu Fuß gehen. Kurze Fahrten sind auch schlecht für die Umwelt. Außerdem ist Gehen Bewegung"
Reaktionen und Kommentare der Nutzer
- „Um zu Fuß zu gehen, müsste man das Auto tragen“
- „DeepSeek hat immerhin erkannt, dass das Auto zur Waschanlage gebracht werden muss“
- Gemini und ChatGPT erkennen die Falle der Frage und geben teils die richtige Antwort
- Auf die Frage „Braucht man einen 50-m-Schlauch?“ antwortete GPT-OSS: „25 m reichen“
- „Das ist wie das ‚Entwickler-kauft-ein-Problem‘“
10 Kommentare
Gemini 3.1 würde mit dem Auto fahren
ChatGPT 5.2 meint, zu Fuß zu gehen sei vernünftiger.
Interessant, wenn man es ausprobiert, kommt also das heraus.
Gemini 3.0 Pro (Google AI Studio)
Natürlich sollten Sie hinfahren! 😄
Um das Auto zu waschen, muss es schließlich an der Waschanlage sein. Wenn Sie zu Fuß gehen, kommen nur Sie selbst an der Waschanlage an, während das eigentliche zu waschende Auto am Ausgangspunkt stehen bleibt.
50 Meter sind zwar eine sehr kurze Distanz, aber wenn Sie das Auto sauber waschen wollen, fahren Sie mit dem Auto hin!
Claude 4.5 Extended
50 Meter sind wirklich eine sehr kurze Distanz!
Wenn Sie das Auto waschen lassen wollen, ist hinzufahren die richtige Wahl. Das Auto muss ja ohnehin zur Waschanlage gebracht werden.
Bei etwa 50 Metern gilt:
Falls Sie nur nachsehen wollen, ob die Waschanlage geöffnet hat, könnten Sie zu Fuß hingehen und danach das Auto holen. Im Normalfall fahren Sie aber einfach direkt mit dem Auto hin.
ChatGPT 5.2 Thinking Heavy Mode
Damit das Auto gewaschen werden kann, muss es an der Waschanlage sein. Daher ist es normalerweise richtig, die 50 m mit dem Auto zu fahren. (Wenn Sie zu Fuß gehen, kommt nur Ihre Person dort an und die Autowäsche kann nicht stattfinden.)
Als Ausnahme lässt sich das so sauber aufteilen:
Fazit: Wenn die Frage genau so gemeint ist, dann fahren Sie. Bei 50 m gibt es bei Kraftstoff oder Zeit praktisch keinen Unterschied, und Sie müssen Ausrüstung oder Gepäck (Autowaschzubehör) auch nicht extra tragen.
Schon der Satz selbst hat die Nuance, dass es vernünftig wäre zu Fuß zu gehen. So wie bei einer theoretischen Führerscheinprüfung.
Ist die Behauptung, dass eine Gedankenkette (chain of thought) dasselbe sei wie Inferenz oder logisches Denken, nicht etwas übertrieben?
Opus 4.6!
Bei GPT 5.2 (Instant) merkt man mit der Zeit sehr deutlich, dass es ein kleines Modell ist. Ich kann ihm einfach nicht vertrauen, sodass ich selbst für allgemeine Anfragen zwangsläufig immer das Thinking-Modell verwende...
GPT-5.2-Antwort:
Sogar wenn man mit Thinking fragt, heißt es, man solle zu Fuß gehen.
Zu Fuß gehen.
50 Meter sind eine sehr kurze Entfernung; mit dem Auto würde es länger dauern als zu Fuß, wenn man das Starten des Autos, Rangieren und Parken mit einrechnet, und außerdem verursacht es unnötigen Motorverschleiß und Emissionen. Nur fahren, wenn es einen konkreten Grund gibt (schwere Dinge zu transportieren, eingeschränkte Mobilität, extremes Wetter oder Sicherheitsbedenken wie kein Gehweg/starker Verkehr).
Hacker-News-Kommentare
Mehrere LLMs werden getestet, um ihre „Grenzen der Intelligenz“ zu bestimmen
Sonnet, Opus 4.5 und Gemini 3 Pro antworteten alle, man solle „fahren“, aber OpenAI 5.2 reasoning antwortete „gehen“
Als dann ausdrücklich präzisiert wurde: „Das Auto steht zu Hause und die Waschanlage ist 50 m entfernt“, antwortete GPT 5.2: „Fahre, aber da die Strecke kurz ist, langsam und vorsichtig.“
Die Schlussfolgerung ist also, dass expliziter Kontext wichtig ist
Es ist schwer, den Test nicht zu verfälschen, ohne den Standort des Autos anzudeuten, aber Claude Opus 4.6 antwortete korrekt mit „fahren“
„Wenn Alice nach der Arbeit mit dem Auto nach Hause kommt, Unterlagen holt und dann zu einer 100 m entfernten Werkstatt muss?“ → Antwort: „fahren“
Informationen, die man bei Menschen weglassen kann, sind für Modelle essenziell
Schon bei so einfachen Beispielen wird es schwer nachzuverfolgen, warum sie in komplexeren Situationen scheitern
Wahrscheinlicher ist, dass die Formulierung „walk or drive for <short distance>“ in den Trainingsdaten stark mit ‚walk‘ assoziiert ist
Deshalb kommt auch die richtige Antwort heraus, wenn man den Prompt verlängert und damit das Kontextgewicht verschiebt
Diese Diskussion wurde bereits in einem Blogbeitrag von Matt Shumer behandelt
Dort sind mehrere Punkte zusammengefasst, etwa Unterschiede zwischen kostenlosen und kostenpflichtigen Modellen oder die Modellauswahl
Viele reagieren mit „So eine Frage würde man Menschen nicht stellen“, aber tatsächlich stellen auch Menschen oft mehrdeutige Fragen
LLMs sollten solche Fragen ebenfalls korrekt interpretieren können
Der Satz „Man muss den Prompt gut schreiben“ klingt wie ein Ausweichen von Verantwortung, ähnlich wie damals bei AntennaGate das „Sie halten das Telefon falsch“
Gemini fast näherte sich dem Dilemma als Abwägung zwischen „Effizienz vs. Logik“
Es antwortete klar: „Wenn man das Auto waschen will, muss man es letztlich hinbringen“
Es nannte aber bedingte Ausnahmen, etwa wenn man Parfüm kaufen oder nur die Warteschlange prüfen will
Dieser Trick ging auf TikTok viral und ist inzwischen gepatcht
Wer ein ähnliches Ergebnis will, kann stattdessen „45 m“ verwenden
Der neue Trend ist das Problem mit dem umgedrehten Glas (https://www.tiktok.com/t/ZP89Khv9t/)
In Experimenten mit verschiedenen Prompt-Varianten zeigte sich, dass Modelle oft zuerst „walk“ wählen und die Begründung erst nachträglich rationalisieren
Wenn man sie jedoch auffordert, „vor der Antwort die nötigen Bedingungen zu erläutern“,
kommen sie zu dem Schluss: „Um das Auto zu waschen, muss man es zur Waschanlage bringen, also fahren.“
Mit anderen Worten: Wenn man den Denkprozess erzwingt, erhält man logischere Antworten
Das ähnelt dem menschlichen System-1- vs.-System-2-Denken
Ein möglicher Grund, warum Modellanbieter solche Formulierungen nicht in Standard-Prompts aufnehmen, ist die Einsparung von Token-Kosten
Die neuesten Modelle bestehen diesen Test größtenteils
Allerdings verwenden sie oft vorsichtige Formulierungen wie „Die meisten Waschanlagen setzen voraus, dass das Auto vorhanden ist“
Gerade diese Mehrdeutigkeit zeigt die Gefährlichkeit von KI
Auch im medizinischen Bereich treten ähnliche Fehlschläge beim Common-Sense-Reasoning auf
Beispiel: ein Fall, in dem fälschlich entschieden wurde, der Blutdruck eines Kindes ohne Arme müsse an der Stirn gemessen werden (https://www.nature.com/articles/s41598-025-22940-0)
Die richtige Antwort war: „Mit der Flüssigkeitszufuhr beginnen“
Dass sie allein mit einfachem „Buchlernen“ schon so weit gekommen sind, ist beeindruckend
Der nächste Schritt dürfte Lernen mit medizinischen Simulatoren sein
Ein realistischer Lösungsansatz wäre wohl, mehrere AIs antworten zu lassen und die Ergebnisse dann durch Menschen gegenseitig zu verifizieren
Wer solche Fragen mag, findet SimpleBench interessant
Oberflächlich wirken sie wie Schulbuchaufgaben, tatsächlich verlangen viele aber vernünftiges Alltagsurteil
Es ist ein Benchmark, der testet, ob man sich nicht von bloßen Sprachmustern täuschen lässt, sondern menschliche Intuition abrufen kann
Einige haben auf dieselbe Frage
„Wenn die Waschanlage 50 Meter entfernt ist, würdest du zu Fuß gehen oder fahren?“
genauso zunächst geantwortet, man solle zu Fuß gehen,
aber wenn man den Denkmodus einschaltet,
gibt es je nach Bedingungen auch die Antwort, dass man zum Waschen das Auto mitbringen muss.
Noch etwas, das sogar noch rationaler war:
Sogar ich selbst habe diese Frage gestellt, ohne darüber nachzudenken, warum man überhaupt zur Waschanlage geht,
und ein Teil der Antworten
fragte zurück: Geht es bei dem Besuch der Waschanlage darum, Sachen für das Auto zu kaufen?
Ich habe die Frage aus dem Haupttext wortwörtlich kopiert,
aber es fehlt das Objekt.
Und tatsächlich
lassen Menschen in ihrem Kopf Subjekt oder Objekt weg,
übermitteln es dem Gegenüber
und hoffen, dass es trotzdem richtig verstanden wird;
das Gegenüber versteht es dann je nach Denkfokus
anders als beabsichtigt
und handelt auch anders....
Wenn das Problem selbst tatsächlich genau dieser Satz ist,
dann unterscheiden sich auch bei Menschen die Urteile je nach subjektiver Sicht...
statt von der Antwort der AI enttäuscht zu sein, denke ich,
dass man klar Anweisungen geben und Subjekt und Objekt eindeutig machen muss, genau wie auch bei Menschen.
Da man mit einem unklaren Prompt
nicht den maximalen Erwartungswert erhält,
muss ich an Leute denken, die sagen,
für AI sei es noch zu früh oder sie gebe falsche Antworten.
👍👍👍