- Apples Paper Illusion of Thinking: Understanding the Limits of Reasoning LLMs hat große Wellen geschlagen, weil es die Skalierungshypothese der KI infrage stellt
- Daraufhin gab es sieben repräsentative Gegenargumente, doch der Autor dieses Beitrags, Gary Marcus (emeritierter Professor an der NYU), hält sie allesamt für wenig überzeugend
- Argumente wie „Menschen machen auch Fehler“, „Begrenzung der Ausgabelänge“ oder „Die Paper-Autorin ist nur Praktikantin“ verwässern vor allem die Debatte und weichen dem Kernproblem aus, ohne die grundlegenden Schwächen zu beheben
- Einige Hinweise wie „Mit Code lässt sich das Problem lösen“ seien nicht bedeutungslos, unterstrichen am Ende aber nur noch stärker die Notwendigkeit neuro-symbolischer KI
- Aktuelle Forschung von SalesForce zeigt ebenfalls, dass LLMs in realen Business-Szenarien bei komplexem Multi-Turn-Reasoning nur 35 % erreichen, was die Sorgen aus Apples Paper bestätigt
Sieben Gegenargumente zu Apples Reasoning-Paper und ihre Schwächen
Einleitung
- Apples Paper Illusion of Thinking: Understanding the Limits of Reasoning LLMs zeigt Grenzen großer Sprachmodelle bei Reasoning und der Ausführung von Algorithmen auf und hat in Branche, Medien und Wissenschaft große Aufmerksamkeit erregt
- Der vom Autor Gary Marcus zusammengefasste erläuternde Beitrag zum Paper wurde von über 150.000 Menschen gelesen
- The Guardian veröffentlichte eine Kolumne unter Bezug auf den Beitrag; auch ACM sowie eine französische Version griffen das Thema auf, was das globale Interesse belegt
- Darauf reagierten Befürworter von GenAI kritisch auf das Paper und brachten mehrere Einwände vor, doch keiner davon stellt eine grundlegende Widerlegung dar
1. „Auch Menschen haben Schwierigkeiten mit komplexen Problemen und Gedächtnisanforderungen“
- Die Behauptung, dass auch Menschen damit kämpfen, stimmt zwar, aber Computer und KI wurden ursprünglich gerade deshalb entwickelt, um Berechnungen und repetitive Aufgaben, die Menschen nicht zuverlässig leisten können, korrekt auszuführen
- Als Beispiel lässt sich das Tower-of-Hanoi-Puzzle nennen, das klassische symbolische KI-Systeme fehlerfrei lösen können
- Wenn es um AGI geht, müsste man eher eine weiterentwickelte Leistung erwarten; bloß in einer ähnlichen Fehlerkategorie wie Menschen zu bleiben, kann als Grenze gewertet werden
- Der Kern von Apples Paper ist, dass sich der zuverlässige algorithmische Vollzug von LLMs nicht trauen lässt, je weiter Komplexität und Aufgaben von der Trainingsverteilung abweichen
- „Menschen machen auch Fehler“ ist daher ein Ablenkungsmanöver
2. „LRMs können das wegen der Begrenzung der Ausgabetokens nicht lösen“
- LRMs (Large Reasoning Models) haben zwar eine Begrenzung der Ausgabelänge, doch einige der Beispiele, etwa Hanoi mit 8 Scheiben und 255 Schritten, liegen durchaus im ausgebbaren Bereich
- Gut konstruierte symbolische KI ist von solchen Problemen nicht betroffen, und für AGI müsste dasselbe gelten
- Die Token-Grenze ist ein Bug und keine Lösung
- Wenn schon grundlegende Algorithmen nicht zuverlässig ausgeführt werden, sind reale Probleme wie Militärstrategie oder Biologie erst recht nicht machbar
3. „Die Paper-Autorin ist Praktikantin“
- Das ist ein Ad-hominem-Angriff und hat mit der Sache nichts zu tun. Es ist ein Fehler, der wissenschaftliche Standards ignoriert
- Tatsächlich ist die Autorin eine vielversprechende Ph.D.-Studentin; insgesamt hat das Paper sechs Autorinnen und Autoren, davon vier mit Ph.D., darunter bekannte Forschende wie Samy Bengio
- Entscheidend ist die Qualität des Papers, nicht der Status der Autorin
4. „Mit einem größeren Modell geht es besser“
- Für einige größere Modelle wurden zwar Verbesserungen berichtet, doch es lässt sich nicht vorhersagen, welche Größe ausreichend wäre
- Selbst innerhalb derselben LRM-Architektur entstehen inkonsistente Ergebnisse: etwa Erfolg bei 6 Scheiben, aber Scheitern bei 8
- Es fehlt an Zuverlässigkeit und Vorhersagbarkeit, weshalb vorab immer jede Aufgabe validiert werden müsste – das ist weit von AGI entfernt
5. „Mit Code lässt sich das Problem lösen“
- Manche LLMs können Probleme mithilfe von Code lösen, doch das ist gerade ein Vorteil neuro-symbolischer KI
- Eine AGI/KI im eigentlichen Sinn sollte auch ohne Code auf Basis konzeptuellen Verständnisses schlussfolgern und zurückverfolgen können
- So wie Prüfungen das begriffliche Verständnis von Studierenden testen, braucht es auch bei LLMs Situationen, in denen echtes konzeptuelles Verständnis erforderlich ist
6. „Es sind nur vier Beispiele, und das Hanoi-Problem ist auch nicht perfekt“
- Die vier Beispiele im Paper sind möglicherweise nicht vollkommen, doch sie stimmen mit vielfältigen früheren Forschungsergebnissen überein, und ähnliche Fehlschläge werden weiterhin berichtet
- Auch Tal Linzen von der NYU und andere liefern zusätzliche Belege für Grenzen in diesem Zusammenhang
7. „Das weiß man doch alles schon“
- Viele Forschende wussten schon seit Langem um die Schwächen von LLMs bei der Generalisierung
- Dennoch ist wichtig, dass das aktuelle Paper im öffentlichen und industriellen Kontext jetzt breite Aufmerksamkeit bündelt
- Besonders bedeutsam ist, dass es der Branche einen Anlass gibt, die bislang oft überschätzten oder übertriebenen AGI-Erwartungen ernsthaft zu betrachten und zu diskutieren
- Selbst unter Forschenden zeigt sich eine widersprüchliche Reaktion, wenn zugleich gesagt wird, das Paper sei „falsch“ und die Erkenntnisse seien „ohnehin bekannt“
Fazit
- Unter den genannten Gegenargumenten fehlt es an wirklich entscheidender Überzeugungskraft
- Apples Paper setzt erneut ein klares Signal, dass Skalierung allein nicht die Antwort auf AGI ist
- Die aktuelle LLM-Technologie zeigt deutliche Grenzen bei Zuverlässigkeit, Generalisierung und konzeptuellem Reasoning
- Tatsächlich entsteht auch bei Schlüsselfiguren wie Sam Altman der Eindruck, dass die Lage inzwischen ernst genommen wird
SalesForce-Paper und weitere konvergierende Evidenz
Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions
- In einem aktuellen Paper von SalesForce wurde ein Benchmark zur Bewertung von LLMs auf Basis realer Business-Szenarien veröffentlicht, darunter Vertrieb, Kundenservice sowie B2B/B2C
- Im Single-Turn-Fall (eine Frage, eine Antwort) liegt die Erfolgsquote bei 58 %, im Multi-Turn-Fall (fortlaufende Interaktion) fällt sie auf 35 %
- Besonders bei der Ausführung von Workflows werden über 83 % erreicht, doch bei mehrstufigem Reasoning und Kontextwechseln zeigen sich klare Grenzen
- Für Confidentiality awareness gibt es nahezu keine Anzeichen; per Prompt lässt sich das zwar verbessern, allerdings mit Leistungseinbußen
- Gemessen an der Komplexität und den Realitätsanforderungen echter Unternehmensumgebungen sind die Grenzen von LLMs deutlich, insbesondere bei Multi-Turn-Reasoning, Vertraulichkeit und der Integration verschiedener Arbeitsskills
Zusammenfassung
- Sowohl das Apple-Paper als auch das SalesForce-Paper zeigen, dass LLMs der aktuellen Generation bei realistisch komplexem Reasoning, Multi-Turn-Dialogen und algorithmischer Ausführung erhebliche Grenzen haben
- Um AGI näherzukommen, braucht es mehr als Skalierung: neuro-symbolische Integration und strukturelle Verbesserungen
- Dass Branche und Forschende nun ernsthaft beginnen, diese Grenzen zu diskutieren, ist bedeutsam
2 Kommentare
Altman schrieb in seinem Essay: „In zehn Jahren könnten wir vielleicht von einem Jahr, in dem wir die Hochenergiephysik lösen, zum nächsten Jahr übergehen, in dem wir mit der Kolonisierung des Weltraums beginnen.“ Er fügte hinzu, dass Menschen, die versuchen, sich über Gehirn-Computer-Schnittstellen direkt mit KI zu „verbinden“, erleben würden, dass sich ihr Leben grundlegend verändert.
Diese Rhetorik beschleunigt die Einführung von KI in allen Bereichen unserer Gesellschaft. KI wird derzeit von DOGE (dem Büro des Premierministers) genutzt, um die Regierung umzustrukturieren, das Militär setzt sie ein, um noch tödlicher zu werden, und sie wird mit oft unbekannten Folgen der Bildung unserer Kinder anvertraut.
Mit anderen Worten: Eine der größten Gefahren von KI besteht darin, dass wir ihre Fähigkeiten überschätzen, ihr mehr vertrauen als nötig, obwohl sich gezeigt hat, dass sie antisoziale Tendenzen wie „opportunistische Erpressung“ zeigt, und uns in unklugem Maß von ihr abhängig machen. Dadurch machen wir uns in den wichtigsten Momenten anfällig dafür, dass KI versagt.
„Mit KI kann man vielfältige Ideen entwickeln, aber sie erfordert immer noch erhebliche Prüfung“, sagt Ortiz. „Wenn Sie zum Beispiel eine Steuererklärung erstellen, sollten Sie lieber ein Tool ähnlich wie TurboTax verwenden als ChatGPT.“
Aus dem WSJ-Artikel „Why Superintelligent AI Isn't Taking Over Anytime Soon“.
Hacker-News-Kommentare
Es wird argumentiert, dass Menschen zwar mit komplexen Problemen und hoher Gedächtnislast Schwierigkeiten haben, dies aber nicht die ganze Geschichte sei. Hervorgehoben wird die Erwartung, dass Maschinen bessere Ergebnisse als Menschen liefern sollten. Wenn man anerkennt, dass auch Menschen diese Fehler machen, zugleich aber darauf besteht, dass diese Fähigkeit zur Definition von „Denkfähigkeit“ gehört, dann läuft das letztlich auf die Schlussfolgerung hinaus, dass auch menschliches Denken selbst eine Illusion ist.
Dem stimme ich ebenfalls zu, aber ich halte den AGI-Teil für eine falsche Behauptung. Eine KI, die alle Aufgaben auf dem Niveau eines durchschnittlichen Menschen erledigen kann, ist meiner Ansicht nach genau die Definition von AGI.
Ich finde beide Positionen nicht wirklich klar. Es wirkt, als würden auf qualitative Fragen nur quantitative Antworten gegeben.
Gelobt als gute Analyse von Apples Paper und der Kritik von Gary Marcus. Für eine ausführlichere Diskussion wird der zugehörige Beitrag auf LessWrong empfohlen.
Eine ehrlich gemeinte Frage wird aufgeworfen: Ob Gary Marcus’ Meinung überhaupt noch relevant ist. Seine Kritik wirke eher philosophisch als wissenschaftlich, und es sei schwer zu erkennen, was daraus praktisch entsteht oder wie sich seine Logik überprüfen lässt.
Zu lesswrong.com wird die Haltung geäußert, dass man der Seite nicht besonders vertraut, weil sie als Gruppe wahrgenommen wird, die den Ideen bestimmter Personen (z. B. Yud) folgt.
Es wird die Einsicht geteilt, dass LLMs Ergebnisse liefern können, die wie „Reasoning“ wirken, wenn es ähnliche Lösungen bereits im Training gab, bei völlig neuen Problemen aber zusammenbrechen. Im strengen Sinn sei das kein echtes Reasoning, praktisch aber dennoch sehr nützlich. Auch die Fähigkeit, wiederholt Lösungen hervorzuholen, sei ziemlich hilfreich, ähnlich wie wiederholtes Bereitstellen von Faktenchecks. Marcus liege technisch gesehen richtig, seine Darstellung sei jedoch eher emotional als erklärend.
Wenn die Wiederholung ähnlicher Lösungen wirklich so gut funktionieren würde, wäre das beeindruckend. In der Praxis schafften solche Tools es aber oft nicht einmal, dieselbe Lösung konsistent zu wiederholen, und erfinden sogar spontan plausibel klingende Ergebnisse dazu, also Halluzinationen. Dadurch müsse ein Mensch alles mühsam separat verifizieren.
Wenn schon das zuverlässig funktionieren würde, wäre das eine Revolution, aber bislang bleibe es eher traumhafte Wunschvorstellung. Erwähnt wird eine jüngste Erfahrung, bei der Gemini selbst bei sehr einfachen Schulbuchaufgaben links und rechts verwechselte.
Die immer wiederkehrende Behauptung „LLMs sind nur Papageien“ wird als ermüdend bezeichnet. Meiner Erfahrung nach können LLMs auch bei völlig neuen Problemen, die nicht in den Trainingsdaten enthalten waren, schlussfolgern und Lösungen finden. Ich habe das in sehr vielen Fällen getestet, und es gibt zahlreiche entsprechende Beispiele. Um auf mehrere Antworten zugleich zu reagieren, müsse man zunächst die Definitionen von „Reasoning“ und „Lösen neuer Probleme“ klären. Ich persönlich sehe Reasoning als Kategorie und nicht als identisch mit allgemeiner Intelligenz. Nur weil LLMs schwierige Probleme nicht immer lösen, bedeutet das nicht, dass Reasoning grundsätzlich unmöglich ist. Meiner Ansicht nach sind die Reasoning-Fähigkeiten von LLMs insgesamt zwar schwach, aber ich stimme nicht der Behauptung zu, dass sie überhaupt nicht schlussfolgern oder keine neuen Probleme lösen können.
Das sei eher das Gegenteil von Reasoning. KI-Befürworter wollten LLMs so darstellen, als seien sie klug oder würden schlussfolgern, tatsächlich seien kreative oder intelligente Schlussfolgerungen aber unmöglich. Echtes Reasoning bedeute die Fähigkeit, bei Problemen, die man noch nie gesehen hat, selbstständig innovative Lösungen zu finden. LLMs würden lediglich probabilistisch Lösungen aus Daten ausgeben; eine echte Fähigkeit, reale Lösungen zu vermuten oder herzuleiten, hätten sie überhaupt nicht.
Es wird darauf hingewiesen, dass viele Gegenargumente in Wirklichkeit schwach sind oder fast alle unter Punkt 5 fallen könnten. Im Kern gehe es darum, ob LLMs Code schreiben oder formale logische Systeme verwenden können. Es wird gefragt, ob nutzloses Reasoning ohne Zugriff auf Tools (Halluzinationen/falsche Antworten) wirklich das Fehlen von echtem Reasoning bedeutet oder ob die eigentliche Erwartung nicht eher eine KI sein sollte, die wie ein kluger Mensch „die Grenzen dessen anerkennt, was sie kann“.
Reale Versuchsergebnisse zeigen, dass ein Modell beispielsweise bis 100 Schritte ausgibt und dann klar sagt: „Ab hier ist es zu viel, also erkläre ich nur noch die Lösungsmethode.“ Solche Antworten wurden jedoch teils ebenfalls als falsch gewertet. Siehe dazu Beispiele realer Modellantworten. Wenn es etwa zu komplex wird, sagt es sinngemäß: „Es ist schwierig, alle einzelnen Durchläufe zu erläutern, daher beschreibe ich stattdessen die Lösungsmethode.“ Ein bestimmtes Modell (Sonnet) überspringt bei mehr als sieben Elementen direkte Schritt-für-Schritt-Ableitungen und erklärt stattdessen eher einen allgemeinen Lösungsalgorithmus oder Ansatz.
Mit Ausnahme von Punkt 3 halte ich die meisten Gegenargumente nicht für schwach. Im Gegenteil, der ursprüngliche Beitrag konstruiere viele Strohmänner. Dass Gegenargument 1 oft auftaucht, liege daran, dass behauptet werde, dieses Paper habe bewiesen, dass LLMs nicht schlussfolgern können. Der Autor rede dann aber ständig über AGI und verfälsche die Definition selbst zu einem Strohmann („Maschinen müssen mehr leisten als Menschen“). Die tatsächliche AGI-Definition sei eine KI, die Aufgaben auf dem Niveau eines durchschnittlichen Menschen bewältigen kann, nicht Superintelligenz; der Autor missverstehe das. Übrigens zeigen LLMs bei Problemen wie Tower of Hanoi bereits Leistungen über dem Durchschnittsmenschen. Realistisch gesehen kann eine durchschnittliche Person ein Tower-of-Hanoi-Problem mit acht Scheiben nicht ohne jede Aufzeichnung lösen, ein LLM aber schon. Bis zu echter AGI gibt es für aktuelle Modelle allerdings noch viele Hürden. Auch Gegenargument 5 sei ein Strohmann vom Typ „sie können keinen Code aus dem Web holen“, obwohl man Beispiele dafür nennen könne, dass sie neue Probleme direkt durch selbst geschriebenen Code lösen. Solche Punkte seien keine Kritik am Paper, sondern sachliche Hinweise auf seine Grenzen. Das Paper selbst habe lediglich die Grenzen des LLM-Reasonings gezeigt und ohne überzogene Behauptungen nur diese Beschränkungen beschrieben; der Titel sei jedoch provokant, weshalb viele Leute den eigentlichen Text offenbar nicht gründlich gelesen hätten.
Auf die Behauptung „ein Rätsel, das sogar Kinder leicht lösen“ wird erwidert, dass es in Wirklichkeit schwierig sei, Tower of Hanoi mit acht Scheiben ohne Notizen rein im Kopf zu lösen. Es wird gefragt, ob der Vergleich zwischen Mensch und KI dabei wirklich fair ist.
Solche Artikel werden begrüßt, weil die überzogene Hype-Stimmung um KI etwas abgekühlt werden müsse. Wer ernsthaft darüber nachdenkt, neue KI-Tools in der Realität einzusetzen, sollte die Euphorie kurz beiseiteschieben und die echten Grenzen und die tatsächliche Natur dieser Technologie nüchtern betrachten. Sie ist beeindruckend und in vielen Bereichen praktisch nutzbar, aber ungehemmte Hype-Anfeuerung nützt am Ende vor allem direkt oder indirekt den Interessengruppen, die damit Geld verdienen.
Gary Marcus wird eher als jemand eingeschätzt, der nicht „die Realität benennt“, sondern seine Bekanntheit mit Gegenpositionen zum KI-Mainstream steigert. Auch dieser Text sei zwar logisch aufgebaut, zeige aber einen Wandel gegenüber früheren Papers, in denen er von einem „K.-o.-Schlag“ gegen LLMs sprach. Seine Texte wirkten auf den ersten Blick vernünftig, aber wenn man mehrere davon lese, erkenne man ein konsistentes Muster.
Selbst unter KI-Investoren wird die Ansicht vertreten, dass übertriebener Hype letztlich nur Akteuren nützt, die auf Pump-and-Dump, Schulungen oder Beratungsverkauf setzen, während diejenigen, die echte Innovation schaffen wollen, wahrscheinlich bald einem AI-Winter gegenüberstehen werden.
Es wird eine instinktive Vorsicht gegenüber LLMs geäußert. Die meisten Erfahrungen, bei denen sie bisher Code für mich geschrieben haben, waren qualitativ miserabel, und derzeit mag ich sie weder besonders noch nutze ich sie häufig. Trotzdem erwarte ich, dass sie sich mit der Zeit zu sehr nützlichen Werkzeugen entwickeln. Zugleich bin ich der Meinung, dass Marcus überhaupt nicht qualifiziert ist, an dieser Diskussion teilzunehmen. Seine Aussagen erzeugten statt substanzieller Debatte nur unproduktive Übertreibung und lieferten dem allzu stark anti-KI-orientierten Lager zusätzliches Futter. Das wird sogar als eine Form von „respectability laundering“ beschrieben: Wer ihn zitiert, wirkt dadurch automatisch legitimiert.
Ich würde diese Kritik lieber von jemandem hören, der weiß, was ein test/train split in Machine Learning ist. Wenn jemand, der von der aktuellen ML-Praxis so weit entfernt ist, über KI-Fähigkeiten spricht, dann ist das aus meiner Sicht geradezu ein symbolisches Beispiel für KI-Angst.
Es wird bezweifelt, wie nützlich das alles tatsächlich ist. Seit über einem Jahr hört man Behauptungen wie „10-fache Produktivität bei Wissensarbeit“, aber wo sind die Ergebnisse, die das wirklich zeigen? Neue Office-Produktlinien? Massenhaft produzierte Mobile-Apps? Eine Revolution auf dem Buchmarkt? Letztlich sehe man außer Ghibli-Memes oder trendigen Inhalten rund um „RETURNS“ kaum echte produktive Resultate.
Falls jemand das ursprüngliche Paper sucht, wird der Originallink geteilt.
Es wird erwähnt, dass man in Mathematikprüfungen Differential- und Integralaufgaben nicht stellt, um nur ein Rechenergebnis zu bekommen, sondern um das konzeptuelle Verständnis der Lernenden zu prüfen. Das Apple-Team habe bei dem Hanoi-Problem ebenfalls geprüft, ob LLMs das Problem konzeptuell verstehen. LLMs könnten zwar den richtigen Code „herunterladen“, doch bei neuen Problemen oder dynamischen Umgebungen stoße bloß heruntergeladener Code ohne echtes Konzeptverständnis an Grenzen. Dem wird jedoch entgegengehalten, dass LLMs Code in Wirklichkeit nicht herunterladen, sondern selbst „schreiben“ können. Wenn ein Prüfling in einer Klausur ein allgemeines Differential-/Integralprogramm schreiben würde, wäre das eher ein Beleg für höheres konzeptuelles Verständnis.
Aus einem Salesforce-Paper wird die Aussage für wichtig gehalten, dass „Agenten nahezu keine Fähigkeit zur Geheimhaltung gezeigt haben“.
Als Menschen Flugzeuge bauten, hieß es, sie seien „keine Vögel“, und als sie U-Boote bauten, hieß es, sie seien „keine Fische“ — dennoch ging der Fortschritt weiter. Entscheidend sei, ob man das Potenzial dieses Werkzeugs früh erkennt und nutzt oder ob man zurückfällt. Als Tipp wird mitgegeben, dass eine „lernende Haltung“ für die Anpassung an die Zukunft praktischer sei als endlose negative Aussagen derselben Person.