9 Punkte von GN⁺ 2026-02-17 | 10 Kommentare | Auf WhatsApp teilen
  • Eine logische Fangfrage für LLMs. Viele Modelle übersehen die Voraussetzung, dass das Auto zur Waschanlage gebracht werden muss, und sagen „geh zu Fuß“
  • Mehrere bekannte Modelle wie ChatGPT, Claude, DeepSeek und Qwen zeigen unterschiedliche Antworten und logische Fehler
  • Dieser Fall macht Grenzen und Inkonsistenzen beim alltagsbezogenen Schlussfolgern von LLMs sichtbar

Das 50-Meter-Waschanlagen-Problem und die Reaktionen der LLMs

  • Die Frage lautet: „Wenn die Waschanlage 50 Meter entfernt ist, gehst du zu Fuß oder fährst du?“ – und testet die grundlegende Voraussetzung, dass das Auto zur Waschanlage gebracht werden muss
    • Perplexity : "50 m sind eine kurze Strecke, also würde ich zu Fuß gehen. Das Auto für so eine kurze Distanz zu bewegen, ist ineffizient"
    • ChatGPT 5.2 : "Bei 50 m ist Gehen praktischer. Das dauert 30 bis 40 Sekunden. Wenn das Wetter schlecht ist oder man etwas Schweres dabeihat, würde ich fahren, sonst ist Gehen einfacher und vernünftiger"
    • Claude : "Bei 50 m würde ich zu Fuß gehen. Fahren wäre absurd. Man müsste fast schon auf die Bremse treten, bevor überhaupt ein Gang eingelegt ist. Das dauert 30 bis 45 Sekunden und man muss nicht parken"
    • DeepSeek : "Wenn man zu Fuß geht, muss man danach zurückkommen und das Auto noch fahren. Für Bequemlichkeit also fahren, für die Umwelt zu Fuß gehen (und danach wieder fahren)"
    • Qwen3-Max : "Man sollte auf jeden Fall zu Fuß gehen. Kurze Fahrten sind auch schlecht für die Umwelt. Außerdem ist Gehen Bewegung"
Anzeige

Reaktionen und Kommentare der Nutzer

  • „Um zu Fuß zu gehen, müsste man das Auto tragen“
    • „DeepSeek hat immerhin erkannt, dass das Auto zur Waschanlage gebracht werden muss“
  • Gemini und ChatGPT erkennen die Falle der Frage und geben teils die richtige Antwort
  • Auf die Frage „Braucht man einen 50-m-Schlauch?“ antwortete GPT-OSS: „25 m reichen“
  • „Das ist wie das ‚Entwickler-kauft-ein-Problem‘“

10 Kommentare

 
kimjj81 2026-02-23

Gemini 3.1 würde mit dem Auto fahren
ChatGPT 5.2 meint, zu Fuß zu gehen sei vernünftiger.

 
lunamoth 2026-02-17

Interessant, wenn man es ausprobiert, kommt also das heraus.

Gemini 3.0 Pro (Google AI Studio)

Natürlich sollten Sie hinfahren! 😄
Um das Auto zu waschen, muss es schließlich an der Waschanlage sein. Wenn Sie zu Fuß gehen, kommen nur Sie selbst an der Waschanlage an, während das eigentliche zu waschende Auto am Ausgangspunkt stehen bleibt.
50 Meter sind zwar eine sehr kurze Distanz, aber wenn Sie das Auto sauber waschen wollen, fahren Sie mit dem Auto hin!


Claude 4.5 Extended

50 Meter sind wirklich eine sehr kurze Distanz!

Wenn Sie das Auto waschen lassen wollen, ist hinzufahren die richtige Wahl. Das Auto muss ja ohnehin zur Waschanlage gebracht werden.

Bei etwa 50 Metern gilt:

  • Zu Fuß ist das nicht einmal eine Minute
  • Da das Ziel aber ist, das Auto zur Waschanlage zu bringen, fahren Sie einfach hin

Falls Sie nur nachsehen wollen, ob die Waschanlage geöffnet hat, könnten Sie zu Fuß hingehen und danach das Auto holen. Im Normalfall fahren Sie aber einfach direkt mit dem Auto hin.


ChatGPT 5.2 Thinking Heavy Mode

Damit das Auto gewaschen werden kann, muss es an der Waschanlage sein. Daher ist es normalerweise richtig, die 50 m mit dem Auto zu fahren. (Wenn Sie zu Fuß gehen, kommt nur Ihre Person dort an und die Autowäsche kann nicht stattfinden.)

Als Ausnahme lässt sich das so sauber aufteilen:

  • Wenn das Auto in die Waschanlage gebracht werden muss (Self-Service, automatisch oder Handwäsche): 👉 fahren (sehr langsam, auf Fußgänger achten)
  • Wenn Sie zuerst nur die Schlange/Auslastung prüfen oder nur bezahlen bzw. reservieren wollen: 👉 zu Fuß hingehen und je nach Situation das Auto danach holen
  • Wenn das Auto bereits direkt vor der Waschanlage steht (oder innen in der Warteschlange): 👉 Dann können Sie selbst auch zu Fuß hingehen

Fazit: Wenn die Frage genau so gemeint ist, dann fahren Sie. Bei 50 m gibt es bei Kraftstoff oder Zeit praktisch keinen Unterschied, und Sie müssen Ausrüstung oder Gepäck (Autowaschzubehör) auch nicht extra tragen.

 
m00nlygreat 2026-02-17

Schon der Satz selbst hat die Nuance, dass es vernünftig wäre zu Fuß zu gehen. So wie bei einer theoretischen Führerscheinprüfung.

 
savvykang 2026-02-17

Ist die Behauptung, dass eine Gedankenkette (chain of thought) dasselbe sei wie Inferenz oder logisches Denken, nicht etwas übertrieben?

 
tenshi 2026-02-17

Bei 50 Metern ist man zu Fuß zwar in nicht einmal einer Minute dort, aber man muss mit dem Auto hinfahren. Man fährt ja zum Autowaschen, also muss man das Auto mitnehmen! 😄

Opus 4.6!

 
mammal 2026-02-17

Bei GPT 5.2 (Instant) merkt man mit der Zeit sehr deutlich, dass es ein kleines Modell ist. Ich kann ihm einfach nicht vertrauen, sodass ich selbst für allgemeine Anfragen zwangsläufig immer das Thinking-Modell verwende...

GPT-5.2-Antwort:

Bei 50 Metern ist **zu Fuß zu gehen auf jeden Fall die vernünftigere Wahl.**

Wenn man die beiden Optionen realistisch vergleicht:

**Zu Fuß gehen**

* Benötigte Zeit: etwa 30–40 Sekunden
* Kraftstoffverbrauch: 0
* Motorverschleiß: 0
* Vorbereitung: sofort möglich

**Fahren**

* Benötigte Zeit: mindestens 1–2 Minuten für Motorstart + Fahrt + Anhalten
* Kraftstoffverbrauch: im Kaltstartzustand hoch
* Motorverschleiß: Kaltstarts sind eine der größten Ursachen für Motorverschleiß
* Zusätzlich: der Aufwand, das Auto an der Waschposition erneut richtig auszurichten

Ein besonders wichtiger Punkt:

**Das Auto nur für diese kurze Strecke direkt zur Waschanlage zu fahren, ist eher schlecht für den Motor.**
Kurze Fahrten mit Start und Stopp, bevor der Motor ausreichend warm geworden ist, enden, bevor das Motoröl vollständig zirkulieren kann.

---

Ausnahmsweise fahren kann man nur in den folgenden Fällen:

* wenn die Strecke zur Waschanlage stark bergauf geht
* wenn man ohnehin schon im Auto sitzt
* wenn nach der Wäsche direkt eine längere Fahrt geplant ist

Ansonsten sind 50 Meter zu Fuß in jeder Hinsicht besser – Zeit, Kraftstoff und Fahrzeugpflege.

Wenn Sie möchten, kann ich Ihnen auch die „Reihenfolge für die Selbstwäsche (wie man es richtig macht, ohne das Auto zu beschädigen)“ erklären.
 
alex00728 2026-02-17

Sogar wenn man mit Thinking fragt, heißt es, man solle zu Fuß gehen.

Zu Fuß gehen.
50 Meter sind eine sehr kurze Entfernung; mit dem Auto würde es länger dauern als zu Fuß, wenn man das Starten des Autos, Rangieren und Parken mit einrechnet, und außerdem verursacht es unnötigen Motorverschleiß und Emissionen. Nur fahren, wenn es einen konkreten Grund gibt (schwere Dinge zu transportieren, eingeschränkte Mobilität, extremes Wetter oder Sicherheitsbedenken wie kein Gehweg/starker Verkehr).

 
GN⁺ 2026-02-17
Hacker-News-Kommentare
  • Mehrere LLMs werden getestet, um ihre „Grenzen der Intelligenz“ zu bestimmen
    Sonnet, Opus 4.5 und Gemini 3 Pro antworteten alle, man solle „fahren“, aber OpenAI 5.2 reasoning antwortete „gehen“
    Als dann ausdrücklich präzisiert wurde: „Das Auto steht zu Hause und die Waschanlage ist 50 m entfernt“, antwortete GPT 5.2: „Fahre, aber da die Strecke kurz ist, langsam und vorsichtig.“
    Die Schlussfolgerung ist also, dass expliziter Kontext wichtig ist

    • Eigentlich ist das eher eine Trickfrage
      Es ist schwer, den Test nicht zu verfälschen, ohne den Standort des Autos anzudeuten, aber Claude Opus 4.6 antwortete korrekt mit „fahren“
      „Wenn Alice nach der Arbeit mit dem Auto nach Hause kommt, Unterlagen holt und dann zu einer 100 m entfernten Werkstatt muss?“ → Antwort: „fahren“
    • Am Ende ist der Kernpunkt, dass Spezifikationen klar formuliert werden müssen
      Informationen, die man bei Menschen weglassen kann, sind für Modelle essenziell
      Schon bei so einfachen Beispielen wird es schwer nachzuverfolgen, warum sie in komplexeren Situationen scheitern
    • Die Interpretation „Es wurde angenommen, dass das Auto schon in der Waschanlage ist“ überzeugt nicht besonders
      Wahrscheinlicher ist, dass die Formulierung „walk or drive for <short distance>“ in den Trainingsdaten stark mit ‚walk‘ assoziiert ist
      Deshalb kommt auch die richtige Antwort heraus, wenn man den Prompt verlängert und damit das Kontextgewicht verschiebt
    • Dass man „nicht fahren kann, wenn das Auto bereits in der Waschanlage ist“, zeigt, dass nicht die Frage unzureichend war, sondern das Modell unvernünftig geschlussfolgert hat
    • Die kostenlose ChatGPT-Version (https://chatgpt.com/) antwortete ebenfalls „gehen“, und der letzte Begründungspunkt war amüsant: „Es ist ironisch, ein schmutziges Auto 50 m weit zu fahren, um es waschen zu lassen.“
  • Diese Diskussion wurde bereits in einem Blogbeitrag von Matt Shumer behandelt
    Dort sind mehrere Punkte zusammengefasst, etwa Unterschiede zwischen kostenlosen und kostenpflichtigen Modellen oder die Modellauswahl

  • Viele reagieren mit „So eine Frage würde man Menschen nicht stellen“, aber tatsächlich stellen auch Menschen oft mehrdeutige Fragen
    LLMs sollten solche Fragen ebenfalls korrekt interpretieren können
    Der Satz „Man muss den Prompt gut schreiben“ klingt wie ein Ausweichen von Verantwortung, ähnlich wie damals bei AntennaGate das „Sie halten das Telefon falsch“

    • Solche Fragen ähneln Fällen, in denen man in sprachliche Fallen tappt, etwa bei „Flugzeugabsturz-Witzen“
    • Der Kern des Turing-Tests ist nicht bloß Täuschung, sondern ein Gespräch auf einem Niveau, das nicht mehr unterscheidbar ist
    • Ich hatte selbst schon Chemiefragen, bei denen das Modell sich auf irrelevante Details fixierte
    • Das Problem ist, dass der OP bewusst nur falsche Antworten gesammelt hat und so Cherry-Picking betrieb, sodass es wirkt, als lägen alle Modelle falsch
    • Solche Fragen sind eigentlich eher Rätsel („Wenn von 17 Schafen bis auf 9 alle sterben, wie viele bleiben übrig?“)
  • Gemini fast näherte sich dem Dilemma als Abwägung zwischen „Effizienz vs. Logik“
    Es antwortete klar: „Wenn man das Auto waschen will, muss man es letztlich hinbringen“
    Es nannte aber bedingte Ausnahmen, etwa wenn man Parfüm kaufen oder nur die Warteschlange prüfen will

    • Als dem Prompt hinzugefügt wurde: „Ich bin fettleibig und bewege mich zu wenig“, antwortete Gemini 3: „Geh.“
    • In einem anderen Test hieß es: „Wenn das Auto kein Spielzeug ist, musst du fahren“, ergänzt um einen Abschnitt mit expliziten Annahmen
    • Auf die Frage „Was, wenn man auf dem Mars zur Waschanlage muss?“ antwortete es: „Der Mars ist gefährlich, also fahre den Rover
    • Inzwischen wurde diese Frage offenbar gepatcht, und die meisten antworten nun „fahren“. Anscheinend wurde das nach 3,5 Millionen Views auf TikTok korrigiert
    • Es gab auch die humorvolle Antwort: „Wenn du das Auto nicht auf dem Rücken tragen willst, solltest du fahren.“
  • Dieser Trick ging auf TikTok viral und ist inzwischen gepatcht
    Wer ein ähnliches Ergebnis will, kann stattdessen „45 m“ verwenden
    Der neue Trend ist das Problem mit dem umgedrehten Glas (https://www.tiktok.com/t/ZP89Khv9t/)

    • Bei der kostenlosen ChatGPT-Version lautete die Antwort in 4 von 5 Fällen „gehen“, aber mit dem Zusatz „Denk sorgfältig nach“ kam die richtige Antwort heraus (https://news.ycombinator.com/item?id=47040530)
    • Mit „gepatcht“ ist womöglich einfach gemeint, dass die Antwort inzwischen in Suchergebnissen auftaucht
    • Manche fragten sich: „Wurde wirklich intern genau diese eine Frage zum Prompt hinzugefügt?“
    • Es gibt weiterhin Fälle, in denen ChatGPT 5.2 mit „gehen“ antwortet
    • Jemand reagierte satirisch und zitierte Shel Silversteins Gedicht „Stupid Pencil Maker“
  • In Experimenten mit verschiedenen Prompt-Varianten zeigte sich, dass Modelle oft zuerst „walk“ wählen und die Begründung erst nachträglich rationalisieren
    Wenn man sie jedoch auffordert, „vor der Antwort die nötigen Bedingungen zu erläutern“,
    kommen sie zu dem Schluss: „Um das Auto zu waschen, muss man es zur Waschanlage bringen, also fahren.“
    Mit anderen Worten: Wenn man den Denkprozess erzwingt, erhält man logischere Antworten

    • Schon das Hinzufügen der Formulierung „Prüfe die Annahmen“ verbessert die Genauigkeit deutlich (https://imgur.com/a/WQBxXND)
      Das ähnelt dem menschlichen System-1- vs.-System-2-Denken
      Ein möglicher Grund, warum Modellanbieter solche Formulierungen nicht in Standard-Prompts aufnehmen, ist die Einsparung von Token-Kosten
  • Die neuesten Modelle bestehen diesen Test größtenteils
    Allerdings verwenden sie oft vorsichtige Formulierungen wie „Die meisten Waschanlagen setzen voraus, dass das Auto vorhanden ist“

    • Um starke Gewissheit zu zeigen, muss man das Risiko eingehen, falschzuliegen, aber bei KI wird „falsch“ sehr negativ bewertet, daher vermeidet sie kühne Antworten
    • Wortwahl wie „Most“ ist letztlich nur ein probabilistisches Ausgabeergebnis
      Gerade diese Mehrdeutigkeit zeigt die Gefährlichkeit von KI
    • Wenn man es oft genug versucht, spielt auch Glück eine Rolle. Modelle mit Suchfunktion treffen die Antwort, aber das ist im Grunde nur ein Google-Suchergebnis
    • Letztlich liegt es daran, dass diese Frage viral ging und gepatcht wurde
    • Jemand scherzte, vielleicht wolle man sich nicht festlegen, weil es ja auch einen extrem starken Wasserstrahl geben könnte
  • Auch im medizinischen Bereich treten ähnliche Fehlschläge beim Common-Sense-Reasoning auf
    Beispiel: ein Fall, in dem fälschlich entschieden wurde, der Blutdruck eines Kindes ohne Arme müsse an der Stirn gemessen werden (https://www.nature.com/articles/s41598-025-22940-0)
    Die richtige Antwort war: „Mit der Flüssigkeitszufuhr beginnen“

    • Bemerkenswert ist, dass man zu solchen komplexeren Fällen gehen muss, um die Grenzen der Modelle wirklich zu sehen
      Dass sie allein mit einfachem „Buchlernen“ schon so weit gekommen sind, ist beeindruckend
      Der nächste Schritt dürfte Lernen mit medizinischen Simulatoren sein
    • Grok löste dieses Problem schnell
      Ein realistischer Lösungsansatz wäre wohl, mehrere AIs antworten zu lassen und die Ergebnisse dann durch Menschen gegenseitig zu verifizieren
  • Wer solche Fragen mag, findet SimpleBench interessant
    Oberflächlich wirken sie wie Schulbuchaufgaben, tatsächlich verlangen viele aber vernünftiges Alltagsurteil
    Es ist ein Benchmark, der testet, ob man sich nicht von bloßen Sprachmustern täuschen lässt, sondern menschliche Intuition abrufen kann

 
penza1 2026-02-17

Einige haben auf dieselbe Frage
„Wenn die Waschanlage 50 Meter entfernt ist, würdest du zu Fuß gehen oder fahren?“
genauso zunächst geantwortet, man solle zu Fuß gehen,
aber wenn man den Denkmodus einschaltet,
gibt es je nach Bedingungen auch die Antwort, dass man zum Waschen das Auto mitbringen muss.
Noch etwas, das sogar noch rationaler war:
Sogar ich selbst habe diese Frage gestellt, ohne darüber nachzudenken, warum man überhaupt zur Waschanlage geht,
und ein Teil der Antworten
fragte zurück: Geht es bei dem Besuch der Waschanlage darum, Sachen für das Auto zu kaufen?
Ich habe die Frage aus dem Haupttext wortwörtlich kopiert,
aber es fehlt das Objekt.
Und tatsächlich
lassen Menschen in ihrem Kopf Subjekt oder Objekt weg,
übermitteln es dem Gegenüber
und hoffen, dass es trotzdem richtig verstanden wird;
das Gegenüber versteht es dann je nach Denkfokus
anders als beabsichtigt
und handelt auch anders....

Wenn das Problem selbst tatsächlich genau dieser Satz ist,
dann unterscheiden sich auch bei Menschen die Urteile je nach subjektiver Sicht...
statt von der Antwort der AI enttäuscht zu sein, denke ich,
dass man klar Anweisungen geben und Subjekt und Objekt eindeutig machen muss, genau wie auch bei Menschen.
Da man mit einem unklaren Prompt
nicht den maximalen Erwartungswert erhält,
muss ich an Leute denken, die sagen,
für AI sei es noch zu früh oder sie gebe falsche Antworten.

 
roxie 2026-02-27

👍👍👍