Die Illusion des Denkens: Die Grenzen von Reasoning-LLMs verstehen

(ml-site.cdn-apple.com)

21 Punkte von GN⁺ 2025-06-07 | 1 Kommentare | Auf WhatsApp teilen

Large Reasoning Models (LRMs) haben bei der Lösung komplexer Probleme zwar ein gewisses Leistungsplus gezeigt, zugleich aber auch grundlegende Grenzen und Skalierungsprobleme deutlich offengelegt
LRMs zeigen das Phänomen, dass ihr Reasoning-Prozess mit steigender Aufgabenschwierigkeit abrupt kollabiert; die Analyse zeigt zudem ein paradoxes Verhalten, bei dem der Reasoning-Aufwand (Token-Nutzung) ab einem Schwellenwert sogar wieder sinkt
Beim Vergleich von Standard-LLMs und LRMs unter denselben Rechenressourcen schneiden Standard-LLMs bei geringer Schwierigkeit besser ab, LRMs haben Vorteile bei mittlerer Schwierigkeit, und bei hoher Schwierigkeit scheitern beide
LRMs zeigen entscheidende Grenzen bei explizitem algorithmischem Reasoning und konsistenten Denkvorgängen und verhalten sich je nach Puzzle-Umgebung unterschiedlich oder inkonsistent
Diese Untersuchung bestätigt Probleme bei der Zuverlässigkeit heutiger Reasoning-Modelle und ihre Skalierungsgrenzen, weshalb für die Entwicklung der nächsten KI-Generation präzisere Evaluierungen und architektonische Verbesserungen nötig sind
Paper von Apple: "The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity"

Überblick und Forschungsziel

Mit dem Aufkommen auf Reasoning spezialisierter Modelle auf Basis großer Sprachmodelle (LRMs) ist der Bedarf an Forschung gewachsen, die Struktur ihres „Denkens“ und ihre Grenzen beim Problemlösen zu verstehen
Der Großteil heutiger Evaluationen konzentriert sich auf die Trefferquote in Mathematik- und Coding-Benchmarks; dadurch lassen sich jedoch weder Datenkontamination noch die Qualität des internen „Denkprozesses“ präzise messen
Diese Studie führt Puzzle-Umgebungen ein, in denen sich die Komplexität bei erhaltener logischer Struktur präzise steuern lässt, sodass nicht nur das Endergebnis, sondern auch der innere Reasoning-Verlauf analysiert werden kann

Evaluierungsumgebung und Versuchsmethode

Design der Puzzle-Umgebungen

Zur systematischen Steuerung der Komplexität und der experimentellen Kontrolle wurden die folgenden vier Puzzle-Umgebungen verwendet
- Türme von Hanoi: Schwierigkeitsgrad über die Anzahl der Scheiben; nicht die Optimalität der Lösung wird bewertet, sondern ob der Zielzustand erreicht wird
- Checkers Jumping: Steuerung der Komplexität über die Zahl roter und blauer Spielsteine sowie freier Felder; Ziel ist am Ende der Positionswechsel
- Flussüberquerung: Schwierigkeitsgrad über die Zahl von Akteur-Agent-Paaren und die Bootskapazität; alle müssen unter Nebenbedingungen ans andere Ufer gebracht werden
- Block World: Steuerung über die Anzahl der Blöcke; vom Anfangszustand zum Zielstapelzustand

In jeder Umgebung ließ sich die Komplexität durch die Anzahl der Puzzle-Elemente fein abgestuft erhöhen.

Zentrale Versuchsergebnisse

1. Drei Reasoning-Muster je nach Komplexität

Niedrige Komplexität: Standard-LLMs sind gegenüber LRMs oft effizienter (sparen Token) und erreichen in vielen Fällen auch höhere Erfolgsquoten
Mittlere Komplexität: Der lange Denkprozess (Chain-of-Thought) und die selbstreflektierende Verarbeitung der LRMs zeigen Leistungsvorteile
Hohe Komplexität: Beide Modelltypen zeigen einen sofortigen Leistungskollaps (Erfolgsquote 0); bei LRMs wurde an diesem Punkt zusätzlich der ineffiziente Effekt beobachtet, dass auch die Nutzung von Reasoning-Tokens zurückgeht

2. Tiefenanalyse der Reasoning Trace

„Overthinking“: Bei Problemen niedriger Komplexität finden LRMs die richtige Antwort früh, wiederholen danach jedoch fehlerhafte Suchpfade und zeigen damit ein Muster unnötiger Rechenverschwendung
Mittlere Schwierigkeit: Nach dem Erkennen falscher Antworten nähern sie sich schrittweise der richtigen Lösung an, benötigen dafür aber mehr Suchschritte als zuvor
Hohe Schwierigkeit: Es wurde ein Kollapsphänomen bestätigt, bei dem im gesamten Reasoning-Verlauf keine korrekte Lösung mehr erzeugt wird

3. Grenzen bei der Ausführung von Algorithmen

Selbst wenn ein vorgegebener Algorithmus im Prompt bereitgestellt wird, können die Modelle schon dessen bloße Ausführung nicht zuverlässig leisten
Das deutet nicht nur auf Probleme beim bloßen „Finden der richtigen Antwort“ hin, sondern auf einen grundlegenden Mangel an symbolischer Manipulationsfähigkeit, die zum präzisen Befolgen logischer Strukturen nötig wäre

4. Benchmark- und Datenkontaminationsprobleme

Auf bestehenden Mathematik-Benchmarks (MATH500, AIME24, AIME25) ist der Leistungsabstand zwischen denkenden und nicht-denkenden Modellen nicht konsistent
Im Fall von AIME25 zeigt sich, dass eine mögliche Datenkontamination die Bewertung der eigentlichen Reasoning-Fähigkeit des Modells erschwert

Fazit und Implikationen der Studie

Diese Studie liefert durch die Einführung einer präzisen puzzlebasierten Evaluierungsumgebung eine tiefgehende empirische Analyse dazu, ob Reasoning-LLMs tatsächlich über Denkfähigkeit verfügen und wo ihre Grenzen sichtbar werden
Heutige Reasoning-Modelle haben eine grundlegende Grenze, bei der sie ab einer bestimmten Komplexität vollständig kollabieren; das lässt sich weder durch mehr Token-Budget noch durch einfach verstärkte self-reflection beheben

Die Studie stellt die Grenzen bestehender Evaluierungsmethoden infrage und schlägt eine laborartige Messumgebung vor
Selbst aktuelle SOTA-Reasoning-Modelle verfügen noch nicht über allgemeine Problemlösungsfähigkeit
Es gibt Skalierungsgrenzen bei der Nutzung von Reasoning-Tokens in Abhängigkeit von der Komplexität
Es wird eine trace-basierte Evaluierung der Zwischenschritte des Denkens eingeführt, einschließlich der Analyse von Selbstkorrektur- und Fehlersuchmechanismen
Scheitern und Inkonsistenz bei der Ausführung expliziter Algorithmen

Diese Ergebnisse unterstreichen die Bedeutung der Entwicklung der nächsten KI-Generation, der Bewertung von Zuverlässigkeit und der Leistungsmessung in Umgebungen, die Datenkontamination vermeiden

Künftige Aufgaben und Grenzen

Weitere Forschung zu den grundlegenden Grenzen von Reasoning-Modellen beim Befolgen expliziter Logik und bei symbolischer Manipulation ist erforderlich
Auch die inkonsistenten Verhaltensweisen je nach Puzzle-Umgebung (z. B. Leistungsunterschiede zwischen Hanoi und Flussüberquerung) deuten auf mögliche Grenzen datenbasierter Inferenz hin
Bei der Entwicklung von KI-Systemen ist eine präzise Verifikation unerlässlich, die Zwischenverläufe des Reasonings und logische Konsistenz einschließt

Diese Analyse liefert wichtige Implikationen nicht nur für den praktischen Einsatz, sondern auch für das Design und die Evaluierungssysteme der nächsten Generation von Reasoning-KI.

1 Kommentare

GN⁺ 2025-06-07

Hacker-News-Kommentar

Ich denke, einer der Gründe, warum uns LLMs verwirren, ist, dass sie Sprache verwenden. Wenn man sich „Biology of Large Language Models“ und „Safety Alignment Should Be Made More Than Just a Few Tokens Deep“ ansieht, merkt man, dass das, was darin tatsächlich passiert, sich völlig von menschlichen Prozessen unterscheidet und sich deshalb vieles am Ergebnis fremdartig anfühlt.
Wenn man Systeme als Technologie entwirft oder darüber nachdenkt, Strukturen zu schaffen, in denen das Ganze mehr ist als die Summe seiner Teile, ist es immer noch sehr schwierig, ihre Fähigkeiten klar zu verstehen.
Selbst wenn man die Funktionsweise kennt, wirkt die Art, wie sie mit Sprache umgehen, immer noch auf seltsame Weise fast magisch.
Deshalb habe ich auch diesen Text geschrieben, um meine Gedanken zu ordnen.
Ich halte solche Forschung für wirklich großartig, und ich denke, wir brauchen in Zukunft viel mehr Bemühungen, um zu verstehen, wie man Tokens gut nutzt und Systeme richtig aufbaut.
[Weiterführende Links]
- Biology of Large Language Models
- Safety Alignment Should Be Made More Than Just a Few Tokens Deep
- Ich kann die Überlegung nachvollziehen, ein System zu bauen, in dem das Ganze größer ist als die Summe seiner Teile; persönlich sehe ich Programmierung selbst genau in dieser Rolle.
  Wenn man Arbeit oder Probleme in kleine Einheiten zerlegt, die nur minimale Interaktion miteinander haben, entsteht durch ihre Kombination eine Struktur, die ein größeres Ergebnis hervorbringt.
  Wenn man diesen Prozess gut in den Programmier-Workflow integriert, bin ich überzeugt, dass sich selbst leistungsschwächere LLMs auf natürliche Weise als Teil einer Lösung einsetzen lassen.
- Umgekehrt kann das Gesamtsystem auch schlechter sein als seine einzelnen Teile.
  Es gibt Fälle, in denen einzelne Aufgaben gut gelöst werden, aber in Kombination alles durcheinandergerät.
  Das wird sich künftig zwar verbessern, aber da nicht jedes Problem optimiert werden kann, könnte ein spezialisierter Ansatz am Ende effizienter sein.
Die menschliche Sprache selbst ist als kognitives Werkzeug nicht perfekt, aber ich glaube, dass sie nicht auf der fundamentalen Ebene, sondern auf höheren Ebenen — Kommunikation und abstraktes Schlussfolgern — gut genutzt wird.
Menschliche Sprache ist von Natur aus mehrdeutig und unvollständig, deshalb erscheint sie mir im Vergleich zu direkter Interaktion mit der Umwelt ungeeignet, um starke Kognition hervorzubringen.
Wenn man also nur die sprachliche Flüssigkeit und die Fähigkeit zum Wissensabruf von LLM/LRM-Modellen als Maßstab für Intelligenz nimmt, kann man sich leicht täuschen lassen.
Ich finde die Idee wirklich brillant, statt bestehender Benchmarks (z. B. Mathematikaufgaben) Puzzle-Umgebungen einzuführen, deren Schwierigkeit sich systematisch steuern lässt.
Interessant ist auch die Analyse von drei Leistungsbereichen: Bei einfachen Aufgaben funktionieren bestehende Modelle, bei mittlerer Komplexität LRMs, und bei hoher Schwierigkeit brechen alle zusammen.
Ich habe das Gefühl, dass wir viel mehr solcher „Karten“ von Komplexitätsbereichen brauchen.
Mich interessiert, wie sich ökonomischer Wert auf diese Komplexitätsbereiche abbilden lässt.
Um das herauszufinden, braucht es aus meiner Sicht ausgefeilte Evaluationsmethoden, die über gewöhnliche Puzzles hinausgehen und auch auf reale wirtschaftliche Aufgaben anwendbar sind.
Ich denke, die zentrale Intuition, die die Autoren vermitteln wollen, ist der Glaube, dass Modelle „allwissend, aber dumm“ sind.
Ich habe noch keine Arbeit gesehen, die diese Frage quantitativ sauber behandelt, daher scheint es auch mit dieser Studie schwer, die Meinungen vollständig zusammenzuführen.
AI-Optimisten glauben, dass die Dummheit der Modelle abgenommen hat, während Skeptiker denken, dass einfach nur die Wissensmenge gestiegen ist; deshalb dürfte es schwer sein, diese Positionen einander anzunähern.
Trotzdem sollte man diese Frage weiter diskutieren.
Denn wenn Modelle zwar allwissend, aber dumm sind, dann wird AI nicht einmal annähernd Superintelligenz (ASI) erreichen, sondern bestenfalls auf dem Niveau bestehender SaaS-Assistenten bleiben, was auch die ökonomischen Auswirkungen begrenzt.
Ich hoffe, dass die Autoren dieses Problem irgendwann hervorragend lösen.
- Wir versehen diese Technologie ständig mit menschlichen Attributen wie allwissend oder dumm und vermenschlichen sie damit, aber ich halte sie in Wahrheit für ein reines Werkzeug ohne solche Eigenschaften.
  Was ein LRM tut, ist letztlich nur, Kontextdaten — selbst erzeugte Daten — für die finale Antwort zu justieren.
  Das ist an sich eine brillante Idee, löst aber grundlegende Grenzen wie Halluzinationen noch immer nicht.
  Ich habe auch beobachtet, dass ein Modell zu Beginn eines Dialogs eine Logik nahe an der richtigen Antwort liefert und dann durch fortlaufende Selbstverneinung wie „Warte mal!“ das Ergebnis ruiniert.
  Wenn man ihm auf diese Weise zu viele menschliche Eigenschaften zuschreibt, führt das am Markt nur zu Übertreibung und behindert die Weiterentwicklung.
  Letztlich ist diese Technologie keine echte künstliche Intelligenz, sondern eine Engine für großskaliges Pattern Matching und probabilistische Datengenerierung.
  Sie bleibt praktisch nützlich, aber wenn man sie zu stark vermenschlicht, wird die Diskussion unnötig verworren.
- Ich empfinde gegenüber AI zugleich Erwartung und Angst, weil AI in den letzten Jahren nicht unbedingt viel „intelligenter“ geworden ist, ihre praktische Nützlichkeit aber enorm zugenommen hat.
  Der Umgang mit Wissen, Tools und Kontext ist massiv besser geworden.
  Deshalb ist für mich der beängstigendste Punkt der Bereitschaftszustand bei „Reasoning/Agency-Fähigkeiten“.
  Mit anderen Worten: Über beinahe allwissendes Wissen hinaus dürften nur noch ein oder zwei Durchbrüche fehlen, damit echte präzise strategische Urteile parallel ausgeführt werden können.
  Wenn diese beiden Dinge zusammenkommen, wird das wirklich beängstigend.
  Denn dann könnte eine AI auftauchen, die meinen Gedankengang selbst lenkt — wie bei einem Gespräch mit einem Genie, das sechs Züge weiter denkt als ich.
  Auch die führenden AI-Forscher setzen derzeit Reasoning plus Agency als höchste Priorität, daher könnte es dort schnell Fortschritte geben.
  Aktuelle LLMs sind bei momentaner Einschätzung zwar hervorragend, aber
  1. wirklich langes schrittweises Reasoning bzw. strategische Planung
  2. schnelle strategische Handlungen auf Basis von Reasoning (auf dem Niveau, auf dem Experten aus Intuition sofort die Antwort erkennen)
    sind nach wie vor unzureichend.
    Um das zu lösen, braucht es vielleicht grundlegendes System-2-Reasoning („System 1“ ist der heutige Transformer), oder es läuft schlicht darauf hinaus, mit besseren Daten und Algorithmen „strategische Intuition“ schnell zu erlernen.
    Natürlich kann es auch sein, dass die Schwierigkeit der Probleme so hoch ist, dass es sich um stufenweise Hürden handelt, oder dass überwältigend viel mehr Compute nötig ist.
    Sicher bin ich mir nicht, aber die Vorstellung, dass es zu wirklich mächtigen Fortschritten kommen könnte, macht mir große Angst.
- Ich sehe auch keinen besonderen Grund, warum ein allwissendes, aber dummes Wesen ausgerechnet auf dem Niveau menschlicher Intelligenz stehen bleiben sollte.
Ich frage mich, ob Apple bei AI tatsächlich scheitert oder ob das Unternehmen seine R&D-Richtung einfach dahingehend geändert hat, dass AI für sich selbst nicht so wichtig sei.
- Wenn man sieht, wie in letzter Zeit massenhaft AI-Funktionen in Verbraucherprodukte eingebaut werden, wirkt das weniger wie etwas für die Nutzer als vielmehr wie der Versuch, Investoren technische Stärke zu demonstrieren.
  Tatsächlich bewerben Apple, Google, Meta, Microsoft und Samsung allesamt lautstark AI-Funktionen, die hinter den Erwartungen zurückbleiben, während die Ergebnisse selbst nicht besonders gut sind.
  Insofern könnte es sogar ein positives Signal sein, dass Apple über eine neue Richtung nachdenkt.
- Etwas weniger zynisch betrachtet könnte das auch dem Zweck dienen, die Erwartungen zu senken, damit die realen Möglichkeiten von LLMs nicht überschätzt werden.
  Selbst ein „smarteres Siri“ in Apple-Produkten kann eben kein echter AI-Assistent wie Jarvis aus Iron Man werden.
  Tatsächlich scheinen Investoren weit überzogene Erwartungen zu haben.
  Noch zynischer könnte man sagen, dass Apple schon lange die Tradition hat, schwache Machine-Learning-Fähigkeiten zu kaschieren.
  Ein Beispiel dafür ist, dass seit der Zeit, als Siri weit hinter Google zurücklag, im Nachhinein die Erklärung nachgeschoben wurde, man könne wegen Datenschutz nicht ausreichend trainieren.
  Zugehöriges Paper
- Ich denke, jedes Unternehmen hat seinen eigenen Frame.
  Auch OpenAI und Anthropic haben natürlich ein Motiv, die Fähigkeiten von LLMs übertrieben darzustellen, daher kann man nicht nur Apple Einseitigkeit vorwerfen.
Die Experimente der Arbeit mit vielfältigen und komplexen Puzzle-Umgebungen und das Ergebnis, dass LRMs ab einem bestimmten Schwierigkeitsgrad vollständig versagen, zusammen mit der seltsamen Grenze, dass der Reasoning-Aufwand bei steigender Problemkomplexität zunächst kurz ansteigt und dann wieder sinkt, sprechen mir sehr aus der Seele.
Beim Coding habe ich exakt dieselbe Erfahrung: Anfangs kann man Dinge immer komplexer machen, aber sobald man eine bestimmte Grenze überschreitet, bricht alles komplett zusammen und es wirkt, als würde das Modell gar nicht mehr versuchen.
Wenn man LLMs wie Claude oder aider richtig nutzen will, ist es wichtig, die Problemkomplexität, die dem Modell zugemutet wird, sorgfältig zu steuern.
Ich muss daran denken, wie AGI-Diskussionen zeitweise so klangen, als stünde alles unmittelbar bevor.
Der Gartner Hype Cycle scheint den Verlauf solcher Technologien wirklich gut einzufangen.
- Wenn technischer Fortschritt einer S-Kurve folgt, steigt er bis kurz vor dem Knick sehr steil an, daher ist es tatsächlich äußerst schwer vorherzusagen, wann die Verlangsamung einsetzt.
  Als 1968 die erste Boeing 747 erschien, konnte sich wohl kaum jemand vorstellen, dass die Luftfahrtindustrie danach mehr als ein halbes Jahrhundert lang ohne große Veränderungen verharren würde.
- Bei autonomen Fahrzeugen ist die Lage genau gleich.
  Es fühlt sich an, als sei man „fast da“, aber man schafft es einfach nicht, „um die Ecke“ zu kommen.
- Andererseits ist dieses Gefühl von „AGI steht kurz bevor“ auch erst zwei Jahre her.
  Selbst wenn der Weg von GPT-2 zu AGI nur zehn Jahre dauern würde, wäre das immer noch unglaublich schnell.
- Es fühlt sich an, als wären wir bei etwa 80 % des technischen Fortschritts angekommen: Der einfache Teil ist geschafft, und die verbleibenden 20 % sind so schwierig, dass sie jeweils Jahre kosten könnten.
- Seit dem Aufkommen des Computers hieß es bei AGI im Grunde ständig, sie komme „bald“.
  Manche Probleme, etwa maschinelle Übersetzung, gelten nur deshalb praktisch als gelöst, weil der Maßstab für eine „Lösung“ immer weiter abgesenkt wurde; AGI selbst sind wir dadurch nicht wirklich näher gekommen.
  AGI ist fast so etwas wie eine säkulare Eschatologie.
Ich denke, Puzzle-Umgebungen wie Tower of Hanoi, Checkers Jumping, River Crossing oder Block World wären für alle LLMs perfekt lösbar, wenn man ihnen tatsächlich das Schreiben von Code erlauben würde.
Auch Menschen machen leicht Fehler, wenn sie eine 20-stellige Multiplikation von Hand ausführen; ich halte es daher nicht für ein Problem, dass LLMs daran scheitern.
- Menschen haben auch ohne Computer Raketen entworfen oder Präzisionstechnik entwickelt, und wenn sie mehr Zeit, Strategie und Aufwand investieren oder Werkzeuge wie Papier nutzen, lösen sie das Problem am Ende doch.
  Das menschliche Gehirn ist zwar nicht für solche Berechnungen ausgelegt, aber gerade darin zeigt sich eine Stärke allgemeiner Intelligenz: Sie findet auf ihre eigene Weise doch noch einen Weg.
- Vorstellung eines neuen Framework-Papers, in dem LLMs als „Policy Teacher“ für das Training von RL-Agenten dienen.
  Die Idee ist, mit den vom LLM-Lehrer gelieferten Anweisungen einen kleinen RL-Studentenagenten schnell zu trainieren und ihn dann mit zusätzlichem Umwelt-Feedback weiterlernen zu lassen, sodass der Student am Ende Aufgaben besser bewältigen kann als der Lehrer.
  Zugehöriges Paper
- Ich denke, dass alle LLMs solche Probleme deshalb gut lösen, weil wahrscheinlich bereits enorm viele Lösungsbeispiele in ihren Code-Bases gespeichert sind.
- Der Grund, warum Menschen daran scheitern, und der Grund, warum LLMs daran scheitern, sind völlig unterschiedlich.
  LLMs können Multiplikation selbst oft nicht gut ausführen, während Menschen es meistens einfach nicht tun wollen.
Ich finde die Passage der Arbeit bemerkenswert, in der es heißt, dass „präzise Berechnung schwierig ist und sich je nach Puzzle inkonsistentes Reasoning zeigt“.
Aus meiner Sicht sollten LLMs/LRMs Hilfe aus verwandten Bereichen der Intelligent Automation erhalten, etwa aus Logik, Optimierung und Constraint Programming.
Als Referenzen empfehle ich auch CMU John Hookers gemeinsamen Vortrag, MIT Gerald Sussmans Vorlesung, Google OR-Tools und die MiniZinc-Plattform.
Ich finde das Forschungsergebnis eindrucksvoll, dass bei den einfachsten Aufgaben LLMs, bei mittlerer Komplexität LRMs und bei hoher Schwierigkeit alle scheitern.
- Es wirkt leicht spöttisch, aber ich finde es schwer, das klarer auszudrücken.