- LLMs haben Schwierigkeiten mit kombinatorischen Aufgaben (Compositional Tasks), was auf Grenzen ihrer Fähigkeiten hindeutet
- Dieses Problem zeigt, dass LLMs nicht über das hinaus schlussfolgern können, was sie in den Trainingsdaten gesehen haben
- Am 17. Dezember 1962 erschien in Life International ein Logikrätsel, das aus 15 Sätzen bestand
- Jeder Satz lieferte einen Hinweis, etwa „Der Brite lebt im roten Haus“ oder „Im mittleren Haus wird Milch getrunken“
- Die Eigenschaften der fünf Häuser – Farben, Nationalitäten der Bewohner, Haustiere, Getränke usw. – unterschieden sich alle, und die zentrale Frage lautete: „Wem gehört das Zebra?“
- Dieses Problem wird als Einstein’s puzzle (oder riddle) bezeichnet und wird inzwischen als Maßstab genutzt, um die mehrstufigen Schlussfolgerungsfähigkeiten von Machine-Learning-Modellen, insbesondere Large Language Models (LLMs), zu messen
- Nouha Dziri, Research Scientist am Allen Institute for AI, und Kollegen wandten dieses Rätsel auf LLMs wie ChatGPT an und bestätigten deren Grenzen
- Dabei zeigte sich, dass LLMs Schwierigkeiten haben, komplexe Probleme zu lösen, die über das hinausgehen, was sie in den Trainingsdaten gesehen haben
- Das verdeutlicht die Schwierigkeit von compositional reasoning, also der Verknüpfung von Zwischenergebnissen zu einer endgültigen Lösung
- Dziri und ihr Team argumentieren, dass LLMs eine strukturelle Grenze haben, weil sie allein durch Wortvorhersage trainiert werden
- Andere Forschende haben ebenfalls gezeigt, dass die derzeit weit verbreitete Transformer-Architektur bei der Lösung solcher komplexen Probleme mathematische Grenzen hat
- Zwar werden die Modelle immer leistungsfähiger, doch es wird die Aussicht geäußert, dass sie möglicherweise grundsätzlich nicht alle Probleme des compositional reasoning lösen können
- Andrew Wilson (NYU) merkte an, dass diese Forschung die AI-Community dazu bringen könnte, noch einmal zu überdenken, ob sie den transformerzentrierten Ansatz weiterverfolgen will
Fragen, ausgelöst durch überraschende Erfolge
- Laut Dziri nahm mit den überraschenden sprachlichen Fähigkeiten der LLMs auch die Neugier zu, ob sie „echtes Schlussfolgern“ beherrschen
- Obwohl LLMs mit einer einfachen Methode – der Vorhersage der Satzvervollständigung – aus den riesigen Textmengen des Internets lernen, bewältigen sie komplexe Aufgaben wie Natural Language Processing, Dokumentenzusammenfassung und Code-Generierung
- Zu den repräsentativen Großmodellen zählen OpenAIs o1, GPT-4, Googles Gemini und Anthropics Claude
- Allerdings machen solche Modelle bisweilen unerwartete Fehler bei Problemen, die für Menschen einfach erscheinen
- So wurden beispielsweise Fälle berichtet, in denen sie selbst bei einfacher Multiplikation häufig falsch lagen
- Laut Dziris Forschung erreichte GPT-4 bei dreistelligen Multiplikationen nur 59 % Genauigkeit, die bei vierstelligen Multiplikationen auf 4 % drastisch abfiel
- Auch bei abgewandelten Versionen von Einstein’s puzzle war die Genauigkeit hoch, wenn die Häuser klein waren (2–3 Eigenschaften), fiel aber dramatisch, sobald es 4–5 Eigenschaften gab
- Als GPT-3 mit 1,8 Millionen Multiplikationsdaten feinabgestimmt wurde, löste es Aufgaben im Bereich der Trainingsdaten gut, doch sobald nach einem anderen Format als in den Trainingsbeispielen gefragt wurde, brach die Trefferquote stark ein
- Daraus ergibt sich die Schlussfolgerung, dass das Modell eher von Trainingsbeispielen abhängige Nachahmung betreibt, statt den Algorithmus selbst zu verstehen
Offensichtliche Grenzen
- Das Problem, auf das Dziri und andere Forschende übereinstimmend hinweisen, ist der Mangel an compositional reasoning
- Binghui Peng (Stanford University) bemerkte schon während seiner Promotion an der Columbia University, dass LLMs bei Fragen zur Kombination von Fakten wie „Wer ist der Vater des Vaters?“ häufig falsch liegen
- Er berechnete, wie viele Parameter eine einfache Transformer-Schicht benötigt, um solche Probleme zu lösen, und kam zu dem Schluss, dass eine Lösung unmöglich ist, wenn die Größe der Domäne größer ist als die Anzahl der Modellparameter
- Auch nach der Erweiterung auf mehrschichtige Transformer bewies er, dass komplexe compositional-reasoning-Probleme mathematisch nicht lösbar sind, wenn man auf diese Grenzen stößt
- Das heißt: Mit größerem Modellmaßstab lassen sich schwierigere Probleme lösen, doch wenn gleichzeitig auch die Problemkomplexität wächst, treten die Grenzen wieder zutage
- Einige Forschende haben andere neuronale Netzwerkarchitekturen jenseits von Transformern ausprobiert, etwa state-space models, doch auch dort wurden ähnliche Grenzen festgestellt
Versuche, die Grenzen zu überwinden
- Um die Grenzen von LLMs zu überwinden, werden verschiedene ergänzende Ansätze vorgeschlagen
- So hat etwa das Team von Tom Goldstein (University of Maryland) Zahlen beim Einspeisen in Transformer mit zusätzlicher Positionsinformation versehen, damit auch Operationen mit größeren Stellenzahlen möglich werden
- Dadurch zeigte ein auf 20-stelligen Zahlen trainiertes Modell selbst bei Additionen mit 100-stelligen Zahlen noch 98 % Genauigkeit
- Ein weiterer Ansatz ist die chain-of-thought-Technik, bei der der Lösungsprozess im Prompt schrittweise vorgegeben wird
- Es wurde beobachtet, dass Modelle wie GPT-4 mit dieser Methode das Potenzial zeigen, auch komplexere Probleme zu lösen
- Sie basiert auf dem Prinzip, „ein großes Problem in eine Kette kleinerer Probleme zu zerlegen“, und es wurde eine theoretische Interpretation vorgeschlagen, wonach dieser Ansatz den Bereich der von Transformern verarbeitbaren Operationen erweitert
- Allerdings zeigen reale Modelle diese Fähigkeit nicht bei allen Problemen, und die Ergebnisse unterscheiden sich je nach Trainingsmethode und Modellarchitektur
- Letztlich beruhen LLMs auf Pattern Matching, weshalb es bei großen oder komplexen compositional-reasoning-Problemen immer Grenzen gibt
- Dennoch müssen diese Grenzen aus Sicht allgemeiner Nutzer nicht besonders wichtig sein
- Für Forschende, die solche Modelle entwickeln, ist das Verständnis und die Korrektur der strukturellen Grenzen dagegen eine zentrale Aufgabe
- Dziri betont: „Wenn wir die inneren Funktionsweisen von LLMs genau verstehen, steigen die Chancen, die grundlegenden Probleme zu lösen“
5 Kommentare
Das ist noch die Zeit vor dem Zeitalter des Schlussfolgerns.
Es gibt ein Problem damit, dass das Zeichen
~als Markdown-Durchstreichungsformatierung erkannt wird. Es wäre gut, wenn Sie das korrigieren könnten.Beim Programmieren mit LLMs habe ich deshalb festgestellt, dass sie umso besser arbeiten, je geringer die Kopplung ist und je besser man Zuständigkeiten trennt. Eigentlich könnte das doch auch für Menschen gelten, oder? ;)
Der Artikel selbst ist zwar aktuell, aber die Grundlage des Textes scheint wohl noch vor
o1zu liegen.Es wurde wohl so etwas gefragt wie: „Die Tochter der Schwester der Mutter des jüngeren Bruders des Vaters – in welchem Verwandtschaftsgrad steht sie zu mir?“
4ohat dabei eindeutig seine Grenzen, währendo1sogar alle Fallstricke vermieden hat.Hacker-News-Kommentare
LLMs haben wie andere Machine-Learning-Modelle die Eigenschaft, Eingabedaten per Pattern Matching zu verarbeiten und statistisch wahrscheinliche Ergebnisse abzuleiten
LLMs sind ein Wunderwerk der AI und entwickeln alle zwei Monate weiter, was früher als unmöglich galt
Es gibt viele Fehlinformationen über die LLM-Forschung
o3-mini-highkonnte schnell Prolog-Code erzeugenDie aktuelle Studie behandelt GPT-3, 3.5 und die erste Generation von 4
ChatGPT fühlt sich wie eine schnelle Suchmaschine an und hat viele Halluzinationen sowie begrenzten Kontext
Man muss unterscheiden, ob die Forschung reine LLMs oder zusammengesetzte LLM-Engines analysiert
LLMs können an einfachen Fragen scheitern, die 2D- oder 3D-Denken erfordern
Wenn in Artikeln Einschränkungen von LLMs erwähnt werden, erscheint ein paar Monate später oft schon ein Chatbot ohne diese Einschränkung
Wenn akademische Forschung veröffentlicht wird, ist sie oft bereits einige Monate alt