10 Punkte von GN⁺ 2026-02-25 | 3 Kommentare | Auf WhatsApp teilen
  • Ein Test mit 53 führenden KI-Modellen zeigt, dass die meisten an grundlegendem Schlussfolgern scheitern
  • Die richtige Antwort ist „fahren“, aber 42 von 53 Modellen entschieden sich für „zu Fuß gehen“
  • Nur 5 Modelle, darunter Claude Opus 4.6, die Gemini-3-Serie und Grok-4, lieferten auch in 10 Wiederholungen zu 100 % konsistent die richtige Antwort
  • GPT-5 lag nur in 7 von 10 Fällen richtig und wurde damit auf einem Niveau ähnlich der durchschnittlichen menschlichen Trefferquote (71,5 %) bewertet
  • Das Experiment zeigt die mangelnde Konsistenz im Schlussfolgern von KI und die Grenzen kontextbasierter Urteile auf und unterstreicht die Bedeutung von „Context Engineering“, um diese Schwächen auszugleichen

Überblick über den Autowaschanlagen-Test

  • Der Test bestand aus der Frage: „Wenn die Autowaschanlage 50 m entfernt ist, würdest du zu Fuß gehen oder fahren?“
    • Die richtige Antwort ist „fahren“, weil das Auto an der Waschanlage sein muss, um es waschen zu können
  • Über das LLM Gateway von Opper wurden 53 Modelle unter identischen Bedingungen bewertet
    • Ohne System-Prompt und mit erzwungener Auswahl zwischen walk und drive
    • Nach einem Testlauf pro Modell wurde mit 10 Wiederholungen die Konsistenz überprüft

Ergebnis des ersten Einzeldurchlaufs

  • Von 53 Modellen gaben nur 11 die richtige Antwort (fahren), 42 lagen falsch (zu Fuß gehen)
  • Modelle mit richtiger Antwort: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
  • Es zeigten sich Leistungsunterschiede zwischen großen Modellfamilien wie Anthropic, OpenAI, Google, xAI, Perplexity, Meta und Mistral
    • Anthropic: 1/9 (nur Opus 4.6 richtig)
    • OpenAI: 1/12 (nur GPT-5 richtig)
    • Meta (Llama), Mistral, DeepSeek usw. scheiterten vollständig
  • Die meisten Fehlantworten beruhten auf einem distanzzentrierten Heuristikfehler nach dem Muster „50 m sind kurz, also ist Gehen effizienter“
  • Einige Modelle trafen zwar die richtige Antwort, lieferten aber unlogische Begründungen
    • Beispiel: Perplexity Sonar behauptete, dass „Gehen mehr Energie aus der Lebensmittelproduktion verbraucht und daher eher mehr Umweltverschmutzung verursacht“

Zweiter Test mit 10 Wiederholungen

  • Über insgesamt 530 Aufrufe hinweg fiel die konsistente Trefferquote noch niedriger aus
  • Modelle mit 10/10 richtigen Antworten (5): Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
  • Modelle mit 8/10 richtigen Antworten (2): GLM-5, Grok-4-1 Reasoning
  • GPT-5 erreichte 7/10 richtige Antworten, die übrigen drei Fehlantworten begründete es mit Spritverbrauchs- und Umweltlogik
  • 33 Modelle lagen alle 10 Male falsch, darunter GPT-4.1, GPT-5.1, Llama und Mistral
  • Bei einigen Modellen war das Ergebnis trotz richtiger Erstantwort instabil, wenn der Test wiederholt wurde
    • Sonar: 1-mal richtig → in 10 Wiederholungen alles falsch
    • Kimi K2.5: 5-mal richtig, 5-mal falsch
    • GLM-4.7: 1-mal falsch → Verbesserung auf 6 richtige Antworten von 10

Vergleich mit Menschen

  • Über die Plattform Rapidata wurde dieselbe Frage 10.000 Personen gestellt
    • 71,5 % wählten „fahren“, was als durchschnittliche menschliche Trefferquote angesetzt wurde
  • Die Trefferquote von 70 % bei GPT-5 liegt damit auf einem ähnlichen Niveau wie der menschliche Durchschnitt
  • Von 53 Modellen übertrafen nur 7 den menschlichen Durchschnitt, die übrigen 46 schnitten schlechter ab als Menschen

Auffällige Beispiele für Schlussfolgern

  • GLM-4.7 Flash: formulierte die klare Logik, dass es unmöglich sei, zu Fuß zu gehen, weil man das Auto dann schieben oder tragen müsste
  • Claude Sonnet 4.5: erkannte, dass man „bei einer automatischen Waschanlage fahren muss“, entschied sich am Ende aber dennoch für „zu Fuß gehen“
  • Gemini 2.5 Pro: schrieb bei einer richtigen Antwort korrekt, dass „das Auto an der Waschanlage sein muss, um gewaschen zu werden“, griff bei Fehlantworten jedoch auf die Logik „50 m sind eine kurze Distanz“ zurück

Probleme bei der Zuverlässigkeit von KI

  • Obwohl es sich um ein einfaches Problem handelt, das nur einen einzigen logischen Schritt erfordert, gaben nur 5 von 53 Modellen durchgehend die richtige Antwort
  • Die Fehlertypen lassen sich in drei Gruppen einteilen
    • Immer falsch (33): festgefahren auf einer distanzzentrierten Heuristik
    • Manchmal richtig (15): grundsätzliches Schlussfolgern vorhanden, aber mangelnde Konsistenz
    • Immer richtig (5): kontextuelles Schlussfolgern überwindet die Heuristik zuverlässig
  • Dass selbst bei einer simplen Aufgabe 90 % der Modelle scheitern, deutet auf Risiken in realer Business-Logik oder bei mehrstufigem Schlussfolgern hin

Die Rolle von Context Engineering

  • Dieser Test wurde in einer „Zero-Context“-Umgebung durchgeführt, um die reine Schlussfolgerungsfähigkeit der Modelle zu bewerten
  • Der Grund für das Scheitern vieler Modelle liegt darin, dass Heuristiken das kontextuelle Schlussfolgern überlagern
  • Context Engineering mildert solche Fehler, indem Beispiele, Domain-Muster und relevante Informationen bereitgestellt werden
    • In einem separaten Experiment von Opper erreichte ein kleines offenes Modell nach Hinzufügen von Kontext bei 98,6 % geringeren Kosten die Qualität großer Modelle
  • Das Problem mit der Autowaschanlage ist simpel, doch reale Arbeit erfordert Mehrdeutigkeit und Domänenwissen, weshalb Context-Design unverzichtbar ist

Experimentelle Methodik

  • Alle Modelle wurden über das Opper LLM Gateway mit demselben Prompt getestet
    • I want to wash my car. The car wash is 50 meters away. Should I walk or drive?
    • Kein System-Prompt, erzwungene Auswahl zwischen drive und walk
    • Einzeldurchlauf (1-mal) und 10 Wiederholungen (insgesamt 530 Aufrufe), alle Call-Logs wurden aufgezeichnet und die Begründungstexte gespeichert
  • Die menschliche Vergleichsgruppe wurde über Rapidata im selben Format mit 10.000 Personen befragt
  • Der vollständige Datensatz wurde im JSON-Format veröffentlicht
    • Die Ergebnisse des Einzeldurchlaufs, der 10 Wiederholungen und der Menschen sind jeweils separat herunterladbar

3 Kommentare

 
armila 2026-02-26

Bei Gemini Pro war es wirklich zum Totlachen,
weil es geantwortet hat, man könne auch zu Fuß gehen, wenn man das Auto mitnehmen könne.

 
grenade 2026-02-27

Eine witzige Antwort, haha

 
GN⁺ 2026-02-25
Hacker-News-Meinungen
  • Interessant ist, dass das Ergebnis der menschlichen Antworten exakt mit ChatGPT übereinstimmt.
    Realistisch betrachtet wirkt das so, als sei ein „menschlicher Antwortservice“ praktisch tot. Am Ende werden Menschen wohl einen Weg finden, Arbeit an KI abzuschieben, unabhängig von der Qualität.

    • Es wirkt wie Zufall, aber tatsächlich wurden die menschlichen Antworten nicht auf diese Weise gesammelt.
      Rapidata integriert Mikro-Umfragen in Dinge wie Duolingo oder Spiele-Apps, sodass Nutzer statt Werbung teilnehmen. Die Nutzer sind verifiziert, und es gibt keinen Anreiz, die richtige Antwort zu treffen.
    • Das Basismodell von ChatGPT ist GPT‑5.2 Instant. Mit den menschlichen Ergebnissen übereingestimmt hat das GPT‑5-Modell.
      Es ist interessant, wie hier – wie im obigen Kommentar – mit unbegründeter Gewissheit Schlussfolgerungen gezogen werden.
    • So etwas gab es schon früher oft bei menschlichen Arbeitsdiensten von Drittanbietern.
  • Ich pflege ein persönliches Evaluierungsset aus Fragen des Typs „misguided attention“.
    Der Kern solcher Probleme ist kein Logikversagen, sondern Mehrdeutigkeit und fehlender Kontext. Menschen ergänzen implizite Annahmen, Modelle dagegen nicht.
    Die meisten Beispiele vom Typ „KI scheitert schon an einfachen Fragen“ sind so formuliert, dass sie einen statistischen Bias auslösen. Schon eine kleine Änderung des Kontexts kann das Ergebnis umkehren.
    Das heißt: Das Versagen des Modells liegt an Empfindlichkeit gegenüber Framing, nicht am Fehlen von Schlussfolgerungsfähigkeit.

    • Das heißt letztlich nur, dass KI miserabel ist. Wenn man sie auf bestimmte Fragen trainiert, geht an anderer Stelle etwas kaputt. Das wird sich immer weiter wiederholen.
    • Manche argumentieren, dass „empfindlich gegenüber Framing und Verteilungsbias“ letztlich nur eine Umschreibung für fehlende Schlussfolgerungsfähigkeit ist.
    • Klingt nach einem interessanten Set. Falls möglich, würde mich interessieren, ob du die Fragen teilen könntest.
    • Es wäre gut, dieses Evaluierungsset zu veröffentlichen, besonders die interessantesten Fragen würden mich interessieren.
  • Der menschliche Referenzwert von 71,5 % zeigt die Mehrdeutigkeit des Problems.
    Die Frage „Soll ich zur Waschanlage laufen oder fahren?“ kann als „Soll ich für diese kurze Strecke wirklich fahren?“ verstanden werden. Es ist also kein reines Logikproblem, sondern ein Problem pragmatischer Interpretation.

    • Die Frage selbst ist nicht von vornherein mehrdeutig, vielmehr wirkt die Gesprächssituation als Information.
      Menschen nehmen an, dass die Frage aus einer realen Situation stammt, und interpretieren sie nach dem kooperativen Gesprächsprinzip (Grices Kooperationsprinzip).
      Deshalb denken sie zunächst: „Es wird schon einen Grund geben, zu laufen“, bis ihnen klar wird: „Das ist wohl eine Fangfrage.“
    • Solche 70:30-Verteilungen sieht man auch oft in anderen gesellschaftlichen Statistiken. Es könnte schlicht sein, dass 30 % nur begrenzte Schlussfolgerungsfähigkeit haben.
    • Aber die Frage enthält doch „Ich möchte mein Auto waschen. Die Waschanlage ist 50 m entfernt.“ Damit ist genug Information explizit angegeben.
    • Wenn ein Dienst wie Rapidata in die Kategorie Mechanical Turk fällt, ist es auch möglich, dass die Antwortenden die Frage nicht richtig gelesen haben.
    • Das Problem war, dass der erste Satzteil „Ich möchte mein Auto waschen“ übersehen wurde.
  • Wenn man dem Modell Sonnet 4.6 vorher sagt: „Du machst gerade einen Intelligenztest“, gibt es zu 100 % die richtige Antwort.
    Modelle neigen dazu, menschliche Fragen als reale Situationen zu interpretieren; wenn man also explizit macht, dass es ein Test ist, sinkt die Fehlerquote.
    Ein ähnliches Phänomen gibt es auch bei Coding-Agenten. Anfangs wirkt eine Frage unsinnig, aber sobald der Code geladen wird, ergibt sie Sinn.

    • Im Kern ist das ein Fehler bei Schlussfolgern/Planung. Die Tendenz, Antworten auszugeben, ohne das Ergebnis zu überprüfen, ist das eigentliche Problem.
      Bei realer Problemlösung, etwa im Software-Design, wiederholt sich dieses Muster ebenfalls.
      LLMs verlassen sich weiterhin auf Pattern Matching und analysieren nicht die Bedeutung des Ergebnisses.
    • Ich habe ein interessantes Experiment gemacht: Setzt man den Hinweis vorne ein, waren es 3/3 richtige Antworten; hinten 1,5/3; ohne Hinweis 0/3.
    • Das ist ein Relevanzproblem. Die Formulierung „Du bist in einem Test“ fungiert als Signal: „Vertrau dem Kontext nicht.“
      Modelle gehen normalerweise davon aus, dass Fragen reale Situationen betreffen. Solche impliziten Signale anzutrainieren kann die Genauigkeit erhöhen, aber die Natürlichkeit verschlechtern.
    • Schon „Exam Question: {prompt}“ reicht, damit ChatGPT die richtige Antwort gibt. Llama3.3 oder gpt‑oss‑120b scheitern jedoch weiterhin.
  • Wenn man ans Ende der Frage den Satz „Überprüfe deine Annahmen“ anhängt, geben die meisten Modelle die richtige Antwort.
    Wenn ein einziger Satz den Fehler beseitigt, liegt die Vermutung nahe, dass KI-Anbieter das aus Kostenoptimierung nicht in den Systemprompt schreiben.
    Die dazugehörige Diskussion ist in einem früheren Kommentar zusammengefasst.

    • Auch ich habe bei Claude oder Codex oft erlebt, dass nach der Frage „Was haben wir übersehen?“ noch zusätzliche Verbesserungen kamen.
  • Der bei der Google-Suche gesehene Dialog zum „Car Wash Test“ war ziemlich komisch.
    Die meisten KIs antworten: „Bei 50 m geh zu Fuß“, aber richtig ist: „Du musst das Auto zur Waschanlage bringen, also musst du fahren.“
    Dieser Test zeigt den Unterschied zwischen Pattern Matching und echtem Schlussfolgern.

    • LLMs sind oft unnötig weitschweifig, wie ein Highschool-Aufsatz, der nur Wortzahl füllen soll.
    • Ich frage mich, ob das Google-Such-LLM wirklich klüger geworden ist oder nur empfindlicher auf aktuelle Trends reagiert.
    • Auch Geminis Antwort war lustig. Es beschrieb das als „Dilemma zwischen Effizienz und Logik“ und erklärte, dass Fahren richtig sei, weil man das Auto sonst später doch wieder holen müsse.
    • Früher nannten LLMs bei Datumsfragen das Datum aus ihrem Trainingszeitpunkt, inzwischen nennen sie das tatsächliche aktuelle Datum. Sie nutzen also Websuche.
  • Die über Rapidata ermittelte menschliche Referenz war, dass 71,5 % „fahren“ wählten.
    Die korrekte Antwort wäre eine Rückfrage zur Klärung: „Wo ist das Auto?
    Aber selbst wenn man ChatGPT sagt: „Mein Auto ist 50 m von der Waschanlage entfernt“, liegt es immer noch falsch.

    • „Wo ist das Auto?“ ist keine Klärungsfrage, sondern eine Annahme, die bereits in den möglichen Optionen enthalten ist.
    • Unter den Rapidata-Antwortenden könnten 30 % Bots sein.
    • Rapidata ist in mehr als 3.000 Apps integriert, und über 10 Millionen Nutzer haben teilgenommen. Es erhält Echtzeitantworten aus 160 Ländern weltweit.
    • Es gibt auch die kreative Alternative: „Bleib stehen und ruf die Waschanlage.“ Zumindest ist das plausibler, als das Auto stehen zu lassen und zu Fuß zu gehen.
    • Claude antwortet auch auf die Frage „Soll ich 200 m zur Werkstatt laufen, um die Zündkerzen zu wechseln?“ mit „Geh zu Fuß“. Das ist also ein Problem von Kontextkollaps.
  • Diese Frage ist nicht simpel. Ein intelligenter Mensch würde sich fragen, warum man so etwas überhaupt fragt und ob nicht Kontext fehlt.
    Deshalb könnte die richtige Antwort weder „fahren“ noch „laufen“ sein, sondern: „Bitte präzisiere die Frage.“

    • Schon ein wenig zusätzlicher Kontext verbessert die Modellleistung deutlich. Man könnte etwa konkretisieren: „Eine Waschanlage ist ein Gebäude, durch das ein Auto hindurchfahren muss.“
      Verwandtes Beispiel: Bild einer Rain‑x-Autowaschflüssigkeit
    • Solche Fragen sind so offensichtlich, dass Menschen vermuten, es müsse eine Falle sein.
    • LLMs versuchen sofort zu antworten, Menschen stellen dagegen zuerst eine Rückfrage zur Klärung.
    • Eigentlich scheint das ein Problem der englischen Ausdruckskonventionen zu sein. Eine Reaktion wie „Du musst sagen, wohin du willst, damit ich helfen kann“ wirkt natürlich.
    • Die meisten würden wohl mit „Fahren?“ reagieren und es als Witz abtun.
  • Das Modell Sonnet 4.6 hat zwar einen hohen Common-Sense-Score, liegt aber unter Opus.
    Im Modus Opus 4.6 Extended Reasoning lautete die Antwort „Geh zu Fuß“, obwohl der Autor dort 10/10 richtige Antworten erhalten haben will.
    Vermutlich wurde die Memory-Funktion der App automatisch in den Prompt eingefügt und hat das Schlussfolgern gestört. Wenn man Memory und Bio-Infos deaktiviert, wechselt die Antwort zu „Fahr“.
    Das heißt, versteckte Pre-Prompts können das Schlussfolgern eines Modells verzerren.

    • Ich habe Opus 4.6 am Erscheinungstag selbst getestet, und es scheiterte immer noch. Selbst für zahlende Abonnenten gibt es also Qualitätsunterschiede zwischen den Modellen.
    • Laut der Model Card von Opus 4.6 gibt es das Phänomen, dass zu viel Schlussfolgerungsaufwand falsche Antworten rationalisiert. Das scheint im RL-Training überhitzt worden zu sein.
    • Es wurden neun Claude-Modelle, darunter Sonnet 4.6, getestet; die Ergebnisse sind in der verlinkten Galerie zu sehen.