Jüngste Forschungsergebnisse deuten darauf hin, dass LLMs Schwierigkeiten mit kombinatorischen Aufgaben haben

(quantamagazine.org)

11 Punkte von GN⁺ 2025-02-03 | 5 Kommentare | Auf WhatsApp teilen

LLMs haben Schwierigkeiten mit kombinatorischen Aufgaben (Compositional Tasks), was auf Grenzen ihrer Fähigkeiten hindeutet
- Dieses Problem zeigt, dass LLMs nicht über das hinaus schlussfolgern können, was sie in den Trainingsdaten gesehen haben
Am 17. Dezember 1962 erschien in Life International ein Logikrätsel, das aus 15 Sätzen bestand
Jeder Satz lieferte einen Hinweis, etwa „Der Brite lebt im roten Haus“ oder „Im mittleren Haus wird Milch getrunken“
Die Eigenschaften der fünf Häuser – Farben, Nationalitäten der Bewohner, Haustiere, Getränke usw. – unterschieden sich alle, und die zentrale Frage lautete: „Wem gehört das Zebra?“
Dieses Problem wird als Einstein’s puzzle (oder riddle) bezeichnet und wird inzwischen als Maßstab genutzt, um die mehrstufigen Schlussfolgerungsfähigkeiten von Machine-Learning-Modellen, insbesondere Large Language Models (LLMs), zu messen
Nouha Dziri, Research Scientist am Allen Institute for AI, und Kollegen wandten dieses Rätsel auf LLMs wie ChatGPT an und bestätigten deren Grenzen
Dabei zeigte sich, dass LLMs Schwierigkeiten haben, komplexe Probleme zu lösen, die über das hinausgehen, was sie in den Trainingsdaten gesehen haben
Das verdeutlicht die Schwierigkeit von compositional reasoning, also der Verknüpfung von Zwischenergebnissen zu einer endgültigen Lösung
Dziri und ihr Team argumentieren, dass LLMs eine strukturelle Grenze haben, weil sie allein durch Wortvorhersage trainiert werden
Andere Forschende haben ebenfalls gezeigt, dass die derzeit weit verbreitete Transformer-Architektur bei der Lösung solcher komplexen Probleme mathematische Grenzen hat
Zwar werden die Modelle immer leistungsfähiger, doch es wird die Aussicht geäußert, dass sie möglicherweise grundsätzlich nicht alle Probleme des compositional reasoning lösen können
Andrew Wilson (NYU) merkte an, dass diese Forschung die AI-Community dazu bringen könnte, noch einmal zu überdenken, ob sie den transformerzentrierten Ansatz weiterverfolgen will

Fragen, ausgelöst durch überraschende Erfolge

Laut Dziri nahm mit den überraschenden sprachlichen Fähigkeiten der LLMs auch die Neugier zu, ob sie „echtes Schlussfolgern“ beherrschen
Obwohl LLMs mit einer einfachen Methode – der Vorhersage der Satzvervollständigung – aus den riesigen Textmengen des Internets lernen, bewältigen sie komplexe Aufgaben wie Natural Language Processing, Dokumentenzusammenfassung und Code-Generierung
Zu den repräsentativen Großmodellen zählen OpenAIs o1, GPT-4, Googles Gemini und Anthropics Claude
Allerdings machen solche Modelle bisweilen unerwartete Fehler bei Problemen, die für Menschen einfach erscheinen
So wurden beispielsweise Fälle berichtet, in denen sie selbst bei einfacher Multiplikation häufig falsch lagen
Laut Dziris Forschung erreichte GPT-4 bei dreistelligen Multiplikationen nur 59 % Genauigkeit, die bei vierstelligen Multiplikationen auf 4 % drastisch abfiel
Auch bei abgewandelten Versionen von Einstein’s puzzle war die Genauigkeit hoch, wenn die Häuser klein waren (2–3 Eigenschaften), fiel aber dramatisch, sobald es 4–5 Eigenschaften gab
Als GPT-3 mit 1,8 Millionen Multiplikationsdaten feinabgestimmt wurde, löste es Aufgaben im Bereich der Trainingsdaten gut, doch sobald nach einem anderen Format als in den Trainingsbeispielen gefragt wurde, brach die Trefferquote stark ein
Daraus ergibt sich die Schlussfolgerung, dass das Modell eher von Trainingsbeispielen abhängige Nachahmung betreibt, statt den Algorithmus selbst zu verstehen

Offensichtliche Grenzen

Das Problem, auf das Dziri und andere Forschende übereinstimmend hinweisen, ist der Mangel an compositional reasoning
Binghui Peng (Stanford University) bemerkte schon während seiner Promotion an der Columbia University, dass LLMs bei Fragen zur Kombination von Fakten wie „Wer ist der Vater des Vaters?“ häufig falsch liegen
Er berechnete, wie viele Parameter eine einfache Transformer-Schicht benötigt, um solche Probleme zu lösen, und kam zu dem Schluss, dass eine Lösung unmöglich ist, wenn die Größe der Domäne größer ist als die Anzahl der Modellparameter
Auch nach der Erweiterung auf mehrschichtige Transformer bewies er, dass komplexe compositional-reasoning-Probleme mathematisch nicht lösbar sind, wenn man auf diese Grenzen stößt
Das heißt: Mit größerem Modellmaßstab lassen sich schwierigere Probleme lösen, doch wenn gleichzeitig auch die Problemkomplexität wächst, treten die Grenzen wieder zutage
Einige Forschende haben andere neuronale Netzwerkarchitekturen jenseits von Transformern ausprobiert, etwa state-space models, doch auch dort wurden ähnliche Grenzen festgestellt

Versuche, die Grenzen zu überwinden

Um die Grenzen von LLMs zu überwinden, werden verschiedene ergänzende Ansätze vorgeschlagen
So hat etwa das Team von Tom Goldstein (University of Maryland) Zahlen beim Einspeisen in Transformer mit zusätzlicher Positionsinformation versehen, damit auch Operationen mit größeren Stellenzahlen möglich werden
Dadurch zeigte ein auf 20-stelligen Zahlen trainiertes Modell selbst bei Additionen mit 100-stelligen Zahlen noch 98 % Genauigkeit
Ein weiterer Ansatz ist die chain-of-thought-Technik, bei der der Lösungsprozess im Prompt schrittweise vorgegeben wird
Es wurde beobachtet, dass Modelle wie GPT-4 mit dieser Methode das Potenzial zeigen, auch komplexere Probleme zu lösen
Sie basiert auf dem Prinzip, „ein großes Problem in eine Kette kleinerer Probleme zu zerlegen“, und es wurde eine theoretische Interpretation vorgeschlagen, wonach dieser Ansatz den Bereich der von Transformern verarbeitbaren Operationen erweitert
Allerdings zeigen reale Modelle diese Fähigkeit nicht bei allen Problemen, und die Ergebnisse unterscheiden sich je nach Trainingsmethode und Modellarchitektur
Letztlich beruhen LLMs auf Pattern Matching, weshalb es bei großen oder komplexen compositional-reasoning-Problemen immer Grenzen gibt
Dennoch müssen diese Grenzen aus Sicht allgemeiner Nutzer nicht besonders wichtig sein
Für Forschende, die solche Modelle entwickeln, ist das Verständnis und die Korrektur der strukturellen Grenzen dagegen eine zentrale Aufgabe
Dziri betont: „Wenn wir die inneren Funktionsweisen von LLMs genau verstehen, steigen die Chancen, die grundlegenden Probleme zu lösen“

5 Kommentare

ned0909 2025-02-05

Das ist noch die Zeit vor dem Zeitalter des Schlussfolgerns.

bakyeono0 2025-02-04

Es gibt ein Problem damit, dass das Zeichen ~ als Markdown-Durchstreichungsformatierung erkannt wird. Es wäre gut, wenn Sie das korrigieren könnten.

rabolution 2025-02-04

Beim Programmieren mit LLMs habe ich deshalb festgestellt, dass sie umso besser arbeiten, je geringer die Kopplung ist und je besser man Zuständigkeiten trennt. Eigentlich könnte das doch auch für Menschen gelten, oder? ;)

hided62 2025-02-03

Der Artikel selbst ist zwar aktuell, aber die Grundlage des Textes scheint wohl noch vor o1 zu liegen.

Es wurde wohl so etwas gefragt wie: „Die Tochter der Schwester der Mutter des jüngeren Bruders des Vaters – in welchem Verwandtschaftsgrad steht sie zu mir?“
4o hat dabei eindeutig seine Grenzen, während o1 sogar alle Fallstricke vermieden hat.

GN⁺ 2025-02-03

Hacker-News-Kommentare

LLMs haben wie andere Machine-Learning-Modelle die Eigenschaft, Eingabedaten per Pattern Matching zu verarbeiten und statistisch wahrscheinliche Ergebnisse abzuleiten
- "Chain of thought" kann in Kombination mit Reinforcement Learning dabei helfen, schwierige Probleme zu lösen
- Dafür sind eine klare Definition von Erfolg und ein Reward-Modell erforderlich
- Auch die menschliche Problemlösungsfähigkeit beruht auf Pattern Matching, und Menschen können große Mengen an Informationen effizient integrieren
LLMs sind ein Wunderwerk der AI und entwickeln alle zwei Monate weiter, was früher als unmöglich galt
- Einige Wissenschaftler unterschätzen die Leistungen von LLMs
- LeCun bezeichnete LLMs als Sackgasse und wies Forschern andere Richtungen
- Dass Metas LLM-Ergebnisse hinter denen anderer Unternehmen zurückliegen, könnte mit dieser Skepsis zusammenhängen
Es gibt viele Fehlinformationen über die LLM-Forschung
- 6 bis 12 Monate alte Modelle sind nur zu einfachem Denken fähig
- Für komplexe logische und algorithmische Aufgaben ist System-2-Denken nötig
- LLMs können durch Programmierung denken
o3-mini-high konnte schnell Prolog-Code erzeugen
- Der als Beispiel gegebene Prolog-Code war beim Lösen des Problems erfolgreich
Die aktuelle Studie behandelt GPT-3, 3.5 und die erste Generation von 4
ChatGPT fühlt sich wie eine schnelle Suchmaschine an und hat viele Halluzinationen sowie begrenzten Kontext
- Es gibt viele Versprechen über künftige Fortschritte, aber wenig tatsächlichen Fortschritt
Man muss unterscheiden, ob die Forschung reine LLMs oder zusammengesetzte LLM-Engines analysiert
- o3s Leistung bei ARC-AGI-1 zeigt die Fähigkeiten einer zusammengesetzten Engine
LLMs können an einfachen Fragen scheitern, die 2D- oder 3D-Denken erfordern
- AI kann darauf trainiert werden, die 2D-/3D-Welt gut darzustellen
Wenn in Artikeln Einschränkungen von LLMs erwähnt werden, erscheint ein paar Monate später oft schon ein Chatbot ohne diese Einschränkung
- Diese Einschränkungen sind nicht grundlegend
Wenn akademische Forschung veröffentlicht wird, ist sie oft bereits einige Monate alt
- Wer die Grenzen der neuesten Technik kennen will, sollte eher Social Media als Forschungsarbeiten konsultieren