11 Punkte von GN⁺ 2025-02-03 | 5 Kommentare | Auf WhatsApp teilen
  • LLMs haben Schwierigkeiten mit kombinatorischen Aufgaben (Compositional Tasks), was auf Grenzen ihrer Fähigkeiten hindeutet
    • Dieses Problem zeigt, dass LLMs nicht über das hinaus schlussfolgern können, was sie in den Trainingsdaten gesehen haben
  • Am 17. Dezember 1962 erschien in Life International ein Logikrätsel, das aus 15 Sätzen bestand
  • Jeder Satz lieferte einen Hinweis, etwa „Der Brite lebt im roten Haus“ oder „Im mittleren Haus wird Milch getrunken“
  • Die Eigenschaften der fünf Häuser – Farben, Nationalitäten der Bewohner, Haustiere, Getränke usw. – unterschieden sich alle, und die zentrale Frage lautete: „Wem gehört das Zebra?“
  • Dieses Problem wird als Einstein’s puzzle (oder riddle) bezeichnet und wird inzwischen als Maßstab genutzt, um die mehrstufigen Schlussfolgerungsfähigkeiten von Machine-Learning-Modellen, insbesondere Large Language Models (LLMs), zu messen
  • Nouha Dziri, Research Scientist am Allen Institute for AI, und Kollegen wandten dieses Rätsel auf LLMs wie ChatGPT an und bestätigten deren Grenzen
  • Dabei zeigte sich, dass LLMs Schwierigkeiten haben, komplexe Probleme zu lösen, die über das hinausgehen, was sie in den Trainingsdaten gesehen haben
  • Das verdeutlicht die Schwierigkeit von compositional reasoning, also der Verknüpfung von Zwischenergebnissen zu einer endgültigen Lösung
  • Dziri und ihr Team argumentieren, dass LLMs eine strukturelle Grenze haben, weil sie allein durch Wortvorhersage trainiert werden
  • Andere Forschende haben ebenfalls gezeigt, dass die derzeit weit verbreitete Transformer-Architektur bei der Lösung solcher komplexen Probleme mathematische Grenzen hat
  • Zwar werden die Modelle immer leistungsfähiger, doch es wird die Aussicht geäußert, dass sie möglicherweise grundsätzlich nicht alle Probleme des compositional reasoning lösen können
  • Andrew Wilson (NYU) merkte an, dass diese Forschung die AI-Community dazu bringen könnte, noch einmal zu überdenken, ob sie den transformerzentrierten Ansatz weiterverfolgen will

Fragen, ausgelöst durch überraschende Erfolge

  • Laut Dziri nahm mit den überraschenden sprachlichen Fähigkeiten der LLMs auch die Neugier zu, ob sie „echtes Schlussfolgern“ beherrschen
  • Obwohl LLMs mit einer einfachen Methode – der Vorhersage der Satzvervollständigung – aus den riesigen Textmengen des Internets lernen, bewältigen sie komplexe Aufgaben wie Natural Language Processing, Dokumentenzusammenfassung und Code-Generierung
  • Zu den repräsentativen Großmodellen zählen OpenAIs o1, GPT-4, Googles Gemini und Anthropics Claude
  • Allerdings machen solche Modelle bisweilen unerwartete Fehler bei Problemen, die für Menschen einfach erscheinen
  • So wurden beispielsweise Fälle berichtet, in denen sie selbst bei einfacher Multiplikation häufig falsch lagen
  • Laut Dziris Forschung erreichte GPT-4 bei dreistelligen Multiplikationen nur 59 % Genauigkeit, die bei vierstelligen Multiplikationen auf 4 % drastisch abfiel
  • Auch bei abgewandelten Versionen von Einstein’s puzzle war die Genauigkeit hoch, wenn die Häuser klein waren (2–3 Eigenschaften), fiel aber dramatisch, sobald es 4–5 Eigenschaften gab
  • Als GPT-3 mit 1,8 Millionen Multiplikationsdaten feinabgestimmt wurde, löste es Aufgaben im Bereich der Trainingsdaten gut, doch sobald nach einem anderen Format als in den Trainingsbeispielen gefragt wurde, brach die Trefferquote stark ein
  • Daraus ergibt sich die Schlussfolgerung, dass das Modell eher von Trainingsbeispielen abhängige Nachahmung betreibt, statt den Algorithmus selbst zu verstehen

Offensichtliche Grenzen

  • Das Problem, auf das Dziri und andere Forschende übereinstimmend hinweisen, ist der Mangel an compositional reasoning
  • Binghui Peng (Stanford University) bemerkte schon während seiner Promotion an der Columbia University, dass LLMs bei Fragen zur Kombination von Fakten wie „Wer ist der Vater des Vaters?“ häufig falsch liegen
  • Er berechnete, wie viele Parameter eine einfache Transformer-Schicht benötigt, um solche Probleme zu lösen, und kam zu dem Schluss, dass eine Lösung unmöglich ist, wenn die Größe der Domäne größer ist als die Anzahl der Modellparameter
  • Auch nach der Erweiterung auf mehrschichtige Transformer bewies er, dass komplexe compositional-reasoning-Probleme mathematisch nicht lösbar sind, wenn man auf diese Grenzen stößt
  • Das heißt: Mit größerem Modellmaßstab lassen sich schwierigere Probleme lösen, doch wenn gleichzeitig auch die Problemkomplexität wächst, treten die Grenzen wieder zutage
  • Einige Forschende haben andere neuronale Netzwerkarchitekturen jenseits von Transformern ausprobiert, etwa state-space models, doch auch dort wurden ähnliche Grenzen festgestellt

Versuche, die Grenzen zu überwinden

  • Um die Grenzen von LLMs zu überwinden, werden verschiedene ergänzende Ansätze vorgeschlagen
  • So hat etwa das Team von Tom Goldstein (University of Maryland) Zahlen beim Einspeisen in Transformer mit zusätzlicher Positionsinformation versehen, damit auch Operationen mit größeren Stellenzahlen möglich werden
  • Dadurch zeigte ein auf 20-stelligen Zahlen trainiertes Modell selbst bei Additionen mit 100-stelligen Zahlen noch 98 % Genauigkeit
  • Ein weiterer Ansatz ist die chain-of-thought-Technik, bei der der Lösungsprozess im Prompt schrittweise vorgegeben wird
  • Es wurde beobachtet, dass Modelle wie GPT-4 mit dieser Methode das Potenzial zeigen, auch komplexere Probleme zu lösen
  • Sie basiert auf dem Prinzip, „ein großes Problem in eine Kette kleinerer Probleme zu zerlegen“, und es wurde eine theoretische Interpretation vorgeschlagen, wonach dieser Ansatz den Bereich der von Transformern verarbeitbaren Operationen erweitert
  • Allerdings zeigen reale Modelle diese Fähigkeit nicht bei allen Problemen, und die Ergebnisse unterscheiden sich je nach Trainingsmethode und Modellarchitektur
  • Letztlich beruhen LLMs auf Pattern Matching, weshalb es bei großen oder komplexen compositional-reasoning-Problemen immer Grenzen gibt
  • Dennoch müssen diese Grenzen aus Sicht allgemeiner Nutzer nicht besonders wichtig sein
  • Für Forschende, die solche Modelle entwickeln, ist das Verständnis und die Korrektur der strukturellen Grenzen dagegen eine zentrale Aufgabe
  • Dziri betont: „Wenn wir die inneren Funktionsweisen von LLMs genau verstehen, steigen die Chancen, die grundlegenden Probleme zu lösen“

5 Kommentare

 
ned0909 2025-02-05

Das ist noch die Zeit vor dem Zeitalter des Schlussfolgerns.

 
bakyeono0 2025-02-04

Es gibt ein Problem damit, dass das Zeichen ~ als Markdown-Durchstreichungsformatierung erkannt wird. Es wäre gut, wenn Sie das korrigieren könnten.

 
rabolution 2025-02-04

Beim Programmieren mit LLMs habe ich deshalb festgestellt, dass sie umso besser arbeiten, je geringer die Kopplung ist und je besser man Zuständigkeiten trennt. Eigentlich könnte das doch auch für Menschen gelten, oder? ;)

 
hided62 2025-02-03

Der Artikel selbst ist zwar aktuell, aber die Grundlage des Textes scheint wohl noch vor o1 zu liegen.

Es wurde wohl so etwas gefragt wie: „Die Tochter der Schwester der Mutter des jüngeren Bruders des Vaters – in welchem Verwandtschaftsgrad steht sie zu mir?“
4o hat dabei eindeutig seine Grenzen, während o1 sogar alle Fallstricke vermieden hat.

 
GN⁺ 2025-02-03
Hacker-News-Kommentare
  • LLMs haben wie andere Machine-Learning-Modelle die Eigenschaft, Eingabedaten per Pattern Matching zu verarbeiten und statistisch wahrscheinliche Ergebnisse abzuleiten

    • "Chain of thought" kann in Kombination mit Reinforcement Learning dabei helfen, schwierige Probleme zu lösen
    • Dafür sind eine klare Definition von Erfolg und ein Reward-Modell erforderlich
    • Auch die menschliche Problemlösungsfähigkeit beruht auf Pattern Matching, und Menschen können große Mengen an Informationen effizient integrieren
  • LLMs sind ein Wunderwerk der AI und entwickeln alle zwei Monate weiter, was früher als unmöglich galt

    • Einige Wissenschaftler unterschätzen die Leistungen von LLMs
    • LeCun bezeichnete LLMs als Sackgasse und wies Forschern andere Richtungen
    • Dass Metas LLM-Ergebnisse hinter denen anderer Unternehmen zurückliegen, könnte mit dieser Skepsis zusammenhängen
  • Es gibt viele Fehlinformationen über die LLM-Forschung

    • 6 bis 12 Monate alte Modelle sind nur zu einfachem Denken fähig
    • Für komplexe logische und algorithmische Aufgaben ist System-2-Denken nötig
    • LLMs können durch Programmierung denken
  • o3-mini-high konnte schnell Prolog-Code erzeugen

    • Der als Beispiel gegebene Prolog-Code war beim Lösen des Problems erfolgreich
  • Die aktuelle Studie behandelt GPT-3, 3.5 und die erste Generation von 4

  • ChatGPT fühlt sich wie eine schnelle Suchmaschine an und hat viele Halluzinationen sowie begrenzten Kontext

    • Es gibt viele Versprechen über künftige Fortschritte, aber wenig tatsächlichen Fortschritt
  • Man muss unterscheiden, ob die Forschung reine LLMs oder zusammengesetzte LLM-Engines analysiert

    • o3s Leistung bei ARC-AGI-1 zeigt die Fähigkeiten einer zusammengesetzten Engine
  • LLMs können an einfachen Fragen scheitern, die 2D- oder 3D-Denken erfordern

    • AI kann darauf trainiert werden, die 2D-/3D-Welt gut darzustellen
  • Wenn in Artikeln Einschränkungen von LLMs erwähnt werden, erscheint ein paar Monate später oft schon ein Chatbot ohne diese Einschränkung

    • Diese Einschränkungen sind nicht grundlegend
  • Wenn akademische Forschung veröffentlicht wird, ist sie oft bereits einige Monate alt

    • Wer die Grenzen der neuesten Technik kennen will, sollte eher Social Media als Forschungsarbeiten konsultieren