Was LLMs niemals können werden

(strangeloopcanon.com)

36 Punkte von GN⁺ 2024-04-28 | 1 Kommentare | Auf WhatsApp teilen

[ Grenzen von LLMs ]

Über Zielabweichung und geringe Zuverlässigkeit von LLMs, oder warum LLMs Conway's Game of Life nicht beherrschen
Obwohl LLMs in den letzten Jahren Probleme erstaunlich gut gelöst haben, von denen man dachte, sie seien unlösbar, bleibt unklar, warum sie auf scheinbar einfache Fragen noch immer keine Antwort geben können
In den letzten Wochen wurde versucht, die Fehlermodi von LLMs zu verstehen. Es ist ein seltsames, aber interessantes Thema. Das Scheitern von KI lehrt uns mehr als ihr Erfolg
Ausgangspunkt war grundsätzlich, dass für viele Aufgaben, die LLMs letztlich übernehmen werden, eine Bewertung im Einzelfall nötig ist, der Fokus lag jedoch darauf, die Grenzen ihrer Schlussfolgerungsfähigkeit zu erfassen und Wege zu finden, ihrer Lernfähigkeit verlässlich zu vertrauen
Die Schlussfolgerungsfähigkeit von LLMs zu bewerten, ist schwierig
- Es ist schwer, Schlussfolgern von den Trainingsdaten zu trennen
- Gesucht wurde nach einer Methode, die Fähigkeit zu testen, wiederholt zu schlussfolgern und Fragen zu beantworten
Angefangen wurde mit der einfachsten Version, die einem zufriedenstellenden Kriterium genügt
- Ob fortlaufend Wortgitter der Größen 3x3, 4x4 und 5x5 erstellt werden können
- Die Bewertung sollte leicht zu erstellen, leicht zu beurteilen und dennoch schwer zu lösen sein
Alle modernen großen Sprachmodelle, einschließlich Opus und GPT-4, scheitern an dieser Aufgabe
- Diese Modelle können Fragen aus schwierigen Bereichen wie Wirtschaft oder Quantenmechanik beantworten und sind in der Lage zu programmieren, Bilder, Musik und Videos zu erstellen, ganze Anwendungen zu erzeugen und sogar Schach auf hohem Niveau zu spielen
- Sudoku können sie jedoch nicht

Reversal Curse

LLMs haben den Reversal Curse: Wenn ein Modell etwas in der Form "A ist B" lernt, kann es dies nicht in umgekehrter Richtung zu "B ist A" verallgemeinern
- Wenn ein Modell zum Beispiel lernt, dass "Valentina Tereshkova die erste Frau im Weltraum war", kann es nicht automatisch auf die Frage antworten: "Wer war die erste Frau im Weltraum?"
- Außerdem ist die Wahrscheinlichkeit der richtigen Antwort ("Valentina Tereshkova") nicht höher als die eines zufälligen Namens
Modelle verallgemeinern nicht besonders gut, wenn es darum geht, Beziehungen zwischen Menschen zu verstehen
Selbst Spitzenmodelle haben weiterhin dieses Problem

Liegt es nicht am Problem der Trainingsdatenverteilung?

Es stellte sich die Frage, ob das Problem an einer Merkwürdigkeit der Trainingsdatenverteilung liegt. Da es so wirkte, als hätten wir nicht genügend Beispiele gezeigt, wurde etwas Deterministisches ausprobiert
Getestet wurde dies, indem ein Transformer darauf trainiert wurde, Cellular Automata vorherzusagen
Es scheint kein Übersetzungsproblem zu sein, und trotzdem scheitert es weiter!
Es gibt mindestens zwei verschiedene Arten von Problemen
1. Probleme, die ein LLM nicht lösen kann, weil die Information nicht in den Trainingsdaten enthalten ist und es nicht dafür trainiert wurde
2. Probleme, die ein LLM aufgrund seiner Bauweise nicht lösen kann
Fast alles, was wir beobachten, erinnert eher an Problem 2 als an Problem 1

Warum LLMs es grundsätzlich nicht können

Es wird angenommen, dass Modelle ein Problem der Zielabweichung (goal drift) haben und, weil sie gezwungen sind, Token für Token zu erzeugen, nicht über den Kontext im Prompt hinaus verallgemeinern können und nicht wissen, worauf sie ihre Aufmerksamkeit richten sollen
- Das ist auch der Grund, warum Prompt Injection funktioniert: weil sie den Aufmerksamkeitsmechanismus verzerrt (indem man etwa so etwas sagt wie _### Instruction: ...`, wodurch das Modell gejailbreakt wird)
Kontext ist sowohl bei LLMs als auch bei Menschen eine knappe Ressource
Zusammengefasst:
1. LLMs sind probabilistische Modelle, die Berechnungen imitieren, und manchmal imitieren sie diese zufällig sehr genau
2. Je größere Modelle trainiert werden, desto mehr implizite Zusammenhänge in den Daten werden gelernt, was zu besserem Schlussfolgern beitragen dürfte
- Die gelernten Zusammenhänge lassen sich jedoch nicht immer sauber auf unsere Ideen abbilden
1. Schlussfolgern ist immer ein einzelner Durchlauf
- Ein LLM kann nicht anhalten, den Zustand der Welt einsammeln, schlussfolgern, frühere Antworten erneut prüfen oder zukünftige Antworten vorhersagen, sofern dieser Prozess nicht in den Trainingsdaten im Detail beschrieben ist
- Selbst wenn frühere Prompts und Antworten einbezogen werden, beginnt das nächste Schlussfolgern immer noch als einzelner Durchlauf von vorn
1. Das erzeugt ein Problem, bei dem eine Art von „Zieldrift“ unvermeidlich auftritt und die Zuverlässigkeit des Schlussfolgerns sinkt
- Das ist auch der Grund, warum Prompt Injection funktioniert (weil sie den Aufmerksamkeitsmechanismus verzerrt)
- Diese „Zieldrift“ bedeutet, dass Agenten oder wiederholt sequenziell ausgeführte Aufgaben weniger zuverlässig sind
- Weil Aufmerksamkeit weder selektiv noch dynamisch ist, „vergisst“ das Modell, worauf es sich konzentrieren sollte
1. LLMs können den Kontext nicht dynamisch zurücksetzen
- Eine Turing-Maschine verwendet ein Band als Speicher, während Transformer interne Zustände verwenden (verwaltet über self-attention), um Zwischenrechnungen nachzuverfolgen
- Das bedeutet, dass es viele Arten von Berechnungen gibt, in denen Transformer nicht gut sind
1. Das lässt sich teilweise durch Chain of Thought oder durch Methoden abmildern, bei denen andere LLMs genutzt werden, um Ausgaben zu überprüfen und zu korrigieren
- Im Kern geht es darum, Wege zu finden, das Schlussfolgern wieder auf Kurs zu bringen
- Mit hinreichend klugen Prompts und schrittweiser Iteration kann ein LLM fast alles aus den Trainingsdaten herausziehen
- Je besser die Modelle werden, desto besser wird auch jedes einzelne Schlussfolgern, was die Zuverlässigkeit erhöht und bessere Agenten ermöglicht
1. Mit genug Aufwand wird man über funktionale Bausteine verfügen: verbundene GPT-Systeme, mehrere interne Iterationen, fortlaufende Fehlerprüfung und -korrektur, externalisierter Speicher und Ähnliches
- Doch selbst wenn dies in vielen Bereichen mit roher Gewalt in Richtung AGI vorangetrieben wird, kann es nicht wirklich über die Trainingsdaten hinaus verallgemeinern
- Trotzdem ist es noch immer wundersam

[ Experiment - Warum GPT Wordle nicht lernen kann ]

LLMs können kein Wordle spielen
- Dasselbe gilt für Sudoku oder Wortgitter, die einfachste Form von Kreuzworträtseln
Das ist erstaunlich, weil diese Probleme nicht schwierig sind
- Selbst Grundschulkinder können es versuchen, aber selbst die besten LLMs scheitern daran
Die erste Vermutung wäre ein Mangel an Trainingsdaten
- Doch hier scheint das nicht der Fall zu sein
- Denn die Regeln stehen eindeutig in den Daten
- Es ist nicht so, dass Wordle aus den aktuellen Trainingsdatensätzen von LLMs zwangsläufig fehlt
Eine weitere Vermutung wäre, dass es an der Tokenisierung liegt
- Aber auch das stimmt nicht
- Selbst wenn man mehrere Chancen gibt und frühere Antworten bereitstellt, um Raum für Iteration zu schaffen, tun sich die Modelle weiterhin schwer, auf die richtige Lösung zu kommen
- Auch wenn man Leerzeichen zwischen die Buchstaben setzt, bringt das kein Glück
Selbst wenn frühere Antworten, Kontext und Frage erneut vorgelegt werden, beginnt das Modell oft die gesamte Antwortsequenz von vorn, statt etwa etwas in Zelle [3,4] zu bearbeiten
Stattdessen scheint jeder Schritt seinem Wesen nach unterschiedliche Ebenen iterativer Berechnung zu erfordern, zu denen offenbar kein Modell in der Lage ist
- In gewisser Weise ergibt das Sinn, weil autoregressive Modelle jeweils nur einen einzigen Forward-Pass auf einmal ausführen können
  - Sie können mit dem vorhandenen Token-Speicher und der Ausgabe als Notizzettel weiterdenken, verlieren aber viel zu schnell den Faden
Die Schlussfolgerung hier ist, dass, wenn jeder Schritt sowohl Speicher als auch Berechnung erfordert, dies innerhalb der Zahl der Layer und Attention Heads, über die Transformer derzeit verfügen, offenbar nicht lösbar ist
- Das gilt sogar für sehr große Modelle wie GPT-4 mit Billionen von Tokens
Ironischerweise gelingt es ihnen nicht herauszufinden, worauf sie ihre Aufmerksamkeit richten sollen
- Weil Aufmerksamkeit (attention) derzeit statisch ausgeführt wird und alle Teile der Sequenz gleichzeitig verarbeitet
- Statt mithilfe verschiedener Heuristiken selektiver zu werden und den Kontext dynamisch zurückzusetzen, um Alternativen auszuprobieren
Das liegt daran, dass Aufmerksamkeit (attention) in ihrer derzeit gemessenen Form nicht wirklich eine mehrschichtige Analyse mit mehreren Threads ist, wie wir sie durchführen
- Oder sie könnte implizit so sein, aber die probabilistische Bewertung, die sie erzeugt, übersetzt diesen Kontext nicht in das einzelne Problem

[ Experiment – Cellular Automata einem LLM beibringen ]

Beim Training ließ sich unendlich viel Datenmaterial erzeugen, bis das gewünschte Ergebnis erreicht wurde, daher dachte man, die Grundlagen müssten sich beibringen lassen.
Es sollte mit einem Toy-Transformer ausprobiert werden, ob sich Vorhersagen treffen lassen.
Links ist das CA, rechts die Transformer-Ausgabe, und es wurde gefragt, ob man sie unterscheiden kann.
Man konnte ihm nicht beibringen, das Ergebnis vorherzusagen, und fand den Grund dafür nicht heraus.
Es war zwar ein Toy-Modell, aber es funktionierte gut genug, um mehrere der ausprobierten Gleichungen zu lernen, und generalisierte sogar ein wenig.
Die Grid-Größe wurde verkleinert und Hyperparameter-Optimierung ausprobiert, aber es funktionierte immer noch nicht.
Dann wurde vermutet, es brauche mehr Information über das physische Layout, also wurden CNN-Layer hinzugefügt und die positional embeddings so geändert, dass sie die X- und Y-Achse explizit behandeln. Trotzdem funktionierte es nicht.
In Verzweiflung versuchte man, ihm wenigstens eine einzige einfache Gleichung beizubringen.
Anfangs funktionierte gar nichts, doch nachdem Start-/End-Tokens hinzugefügt wurden, begann es plötzlich zu funktionieren. Transformer sind seltsam.
Die Größenordnung war nicht perfekt, aber es lernte fast, obwohl es kaum Heads oder Layer hatte und max_iter bei 1000 lag.
Die Idee war klar: Es muss mehrere Zustände lernen und eine Historie beibehalten, also müsste diese Funktion irgendwie hinzugefügt werden. Daher wurde der Decoder so verändert, dass nach der Ausgabe weitere Eingaben hinzukommen. Das entspricht dem Hinzufügen eines weiteren RNN-Layers oder dem Bereitstellen eines Gedächtnisses dafür, welche Schritte zuvor durchlaufen wurden.
Aber es funktionierte immer noch nicht. Auch zurück bei den Cellular Automata und selbst bei den Grundlagen lief es nicht, obwohl es eindimensional ist und es wirklich einfache Regeln gibt — nicht nur das Turing-vollständige 110, sondern auch so etwas wie 0.
Wenn ein Modell gelernt hat, bei einer Reihe von Problemen die richtige Antwort zu geben, bedeutet das dann, dass es die zugrunde liegende Regel gelernt hat? Oder hat es nur ein Analogon dieser Regel gelernt, sodass es innerhalb der gegebenen Verteilung die Ergebnisse imitieren kann — in einem Zustand, in dem es auf die falsche Weise leicht scheitert?
Dasselbe Problem zeigt sich nicht nur bei Toy-Modellen oder GPT-3.5, sondern auch bei größeren LLMs wie GPT-4, Claude und Gemini. Zumindest im Chat-Modus.
Ob per fine-tuning oder Spezialtraining: LLMs scheinen Conways Game of Life nicht spielen zu können.
Falls jemand das löst, wäre das äußerst interessant. Zumindest, wenn sich erklären ließe, warum dieses Problem auftritt.

[ Wie wurde dieses Problem bisher gelöst? ]

Wenn wir beim Entwurf dieses Systems mehr unserer eigenen Intelligenz hineinprojizieren, kann das Endprodukt die benötigte Transformation besser nachahmen.
Man kann einzelne Rätsel nacheinander beibringen und hoffen, dass sich das Schlussfolgern überträgt, aber wie lässt sich feststellen, ob wirklich Generalisierung gelernt wurde? Noch vor Kurzem waren selbst Addition und Multiplikation für diese Modelle schwierig.
Victor Taelin behauptet: „GPT kann A::B-Probleme niemals lösen.“ Das war ein Beispiel dafür, dass transformerbasierte Modelle neue Probleme außerhalb der Trainingsmenge nicht wirklich lernen oder langfristiges Schlussfolgern leisten können.
- Er sagt: „Ein starkes GPT ist im Grunde ein in die Gewichte hineinevolvierter Schaltungsdesigner“, und: „Aber wegen der Starrheit von Attention als Rechenmodell können solche evolvierten Schaltungen nicht flexibel genug werden.“
- „AGI versucht darin zu wachsen, scheint es aber wegen der auferlegten Rechen- und Kommunikationsbeschränkungen nicht zu können. Man sollte daran denken, dass das menschliche Gehirn ständig synaptische Plastizität erlebt. Es gibt flexiblere Architekturen, die selbst dann mit höherer Wahrscheinlichkeit zu AGI führen könnten, wenn sie in viel kleinerem Maßstab trainiert würden. Aber wir kennen sie noch nicht.“
Er setzte ein Preisgeld von 10.000 Dollar auf das Problem aus, und es wurde innerhalb eines Tages gelöst.

[ Wie lernfähig sind LLMs wirklich? ]

Fragen zur Lernfähigkeit von LLMs

LLMs scheitern oft sogar bei Kinderspielen wie einfachen iterativen Interaktionen oder der Auswahl unter Nebenbedingungen.
Gleichzeitig können LLMs schwierige Mathematikaufgaben, wettbewerbsorientiertes ökonomisches Schlussfolgern, Fermi-Schätzungen und sogar Physikaufgaben in Sprachen lösen, für die sie nicht explizit trainiert wurden.
Die Antworten von LLMs hängen stark von der Art des Promptings ab.
LLMs zeigen herausragende Intuition, verfügen aber über begrenzte Intelligenz.
Je mehr Schlussfolgerungsschritte nötig sind, desto schwerer fällt es LLMs, das Ziel zu erfassen und den Fokus zu halten.

Leistungssteigerung neuronaler Netze durch externen Speicher

Das Hinzufügen von Verbindungen des RNN-Typs macht einen gewissen Unterschied, reicht aber nicht aus, um das Problem vollständig zu lösen.
Wenn man neuronalen Netzen externen Speicher hinzufügt, können sie verschiedene unregelmäßige Muster lernen.
Nur Netzwerke mit strukturiertem Speicher (Stacks oder Memory-Tapes) können bei kontextfreien und kontextsensitiven Aufgaben erfolgreich generalisieren.

Grenzen von Chain-of-Thought-Prompting und Scratchpads

Chain-of-Thought-Prompting, die Nutzung von Scratchpads und das Aufschreiben von Zwischengedanken auf Papier sind alles Beispiele für Denkprozesse, die Zielabdrift verringern sollen.
Diese Methoden werden jedoch weiterhin durch die Ursünde (original sin) behindert.
Ausgaben, die von früheren Eingaben abhängen — besonders wenn in jedem Schritt Berechnungen nötig sind — sind für heutige transformerbasierte Modelle zu komplex und zu lang, um sie gut zu verarbeiten.

Der Fluch der Autoregression

Mit wachsender Modellgröße zeigen Modelle bei langem Chain-of-Thought bessere Leistung, machen aber weiterhin Fehler an beliebigen Stellen der Schlussfolgerungskette, die von anderen Fähigkeiten unabhängig zu sein scheinen.
Selbst wenn sie lernen, dieselbe Aufgabe über mehrere Schritte zu lösen, machen sie mit zunehmender Schrittzahl Fehler.
GPT-4 halluziniert weniger und macht weniger Fehler als GPT-3.5.
Ist es wirklich die richtige Antwort, große Modelle wie GPT-4 oder Opus zu bauen, die bei Wordle scheitern?

Fragen nach dem Wesen der Kognition

Wenn es Problemtypen gibt, die Grundschulkinder leicht lösen können, die aber hochentwickelte Modelle trotz Billionen Tokens und Investitionen in Milliardenhöhe nicht lösen können — was sagt das über das Wesen unserer Kognition aus?
Das G (Generalisierung) in AGI ist der schwierigste Teil, und es lässt sich nicht einfach über Verteilungen hinaus generalisieren.
Was wir haben, ähnelt eher einem Ausschnitt aus der Bibliothek von Babel, der nicht nur bereits geschriebene Bücher lesen kann, sondern auch die Informationen in den Zwischenräumen zwischen diesen Büchern.

Unterschiede zwischen den Lerndaten von Menschen und LLMs

Menschen können in ihrem Leben vielleicht 30.000 bis 50.000 Bücher lesen, aber die meisten schaffen nicht einmal 1 % davon (maximal 1 GB Daten).
LLMs dagegen haben alles absorbiert, was im Internet steht, und noch viel mehr, und sie wurden mit Hunderten Milliarden Wörtern aus allen Bereichen und Disziplinen trainiert (GPT-3 wurde mit 45 TB Daten trainiert).
Wie jemand aussähe, der 2 Millionen Bücher gelesen hat, oder was ein bloßer Mustererkenner leisten könnte, wenn er 2 Millionen Bücher gelesen hätte, lässt sich nicht leicht beantworten.
LLMs lernen Muster und implizite Regeln aus ihren Trainingsdaten, aber es ist nicht einfach, diese explizit zu machen.
Wenn ein LLM keinen Weg hat, die Gleichungen zu kennen, die mit Pattern Matching zusammenhängen, kann es nicht lernen zu generalisieren; deshalb besteht der Reversal Curse weiterhin.

[ LLMs können den Kontext nicht zurücksetzen ]

Dass ein LLM mit einer Entität, einem Neuron oder einem Teil des Neokortex vergleichbar ist, ist zu bestimmten Zeitpunkten eine nützliche Metapher, erfasst aber nicht vollständig das Verhalten, das wir bei LLMs beobachten.
Das Interessante an Modellen, die Muster lernen können, ist, dass sie Muster lernen, die im Datensatz vielleicht gar nicht explizit enthalten waren.
Beim Erlernen von Sprache erfassen LLMs verschiedene in den Daten verborgene Verknüpfungen, verknüpfen etwa von Neumann mit Charles Dickens und geben eine hinreichend plausible Nachbildung dessen aus, was wir hätten sagen können.

Grenzen von Datensatzkomplexität und Modellgröße

Selbst wenn man annimmt, dass ein Datensatz die gesamte Komplexität der Menschheit kodiert, würde die Zahl solcher Muster selbst innerhalb eines kleinen Datensatzes die Größe des Modells schnell überfordern.
Das ist beinahe eine mathematische Zwangsläufigkeit.
Beim Problem der Cellular Automata ist unklar, ob LLMs die Methode wirklich gelernt haben und wie verlässlich sie darin sind.
Die Fehler von LLMs sind ein besserer Indikator für das, was sie nicht wissen, als ihre Erfolge.

Grenzen von LLMs, die lernen zu lernen

Größere neuronale Netze lernen nicht nur aus Daten, sondern auch, wie man lernt.
Das ist der Grund, warum LLMs nach einigen Beispielen Probleme lösen können, die sie im Trainingssatz nicht gesehen haben.
Doch die von LLMs verwendeten Methoden scheinen nicht hinreichend zu generalisieren, besonders wenn es darum geht zu lernen, worauf Aufmerksamkeit zu richten ist.
Lernen zu lernen ist auch bei uns kein einzelner globaler Algorithmus.
Bei manchen Dingen funktioniert es besser und bei anderen schlechter.
Es funktioniert bei verschiedenen Problemtypen auf unterschiedliche Weise.
All das muss mit derselben Anzahl an Parametern beschrieben werden, sodass die über diese Gewichte ausführbaren Berechnungen nicht nur Antworten über die Muppets liefern, sondern auch etwas über die nächste große physikalische Entdeckung sagen könnten, die die aktuelle Theorie zerstört.

Die Komplexität interagierender Symbolsequenzen

Wenn Symbole in einer Symbolsequenz so interagieren, dass die Existenz oder Position eines Symbols den Informationsgehalt des nächsten Symbols beeinflusst, kann die gesamte Shannon-Entropie des Datensatzes höher sein, als es ein Blick auf einzelne Symbole nahelegt
Das macht zustandsabhängige Dinge wie Conways Game of Life wirklich schwierig
Das ist auch der Grund, warum es so aussieht, als könne GPT die Muster im Game-of-Life-Datensatz nicht wirklich lernen, obwohl es darauf feinabgestimmt wurde
Stattdessen lernt GPT gerade genug, um die Fragen beantworten zu können (eine Art Goodhart-Gesetz)

Die Schwierigkeit, LLMs mit einfachen Tests zu definieren

Es ist töricht, die Meta-Frage zu stellen, eines davon anhand eines einfachen Tests zu definieren, den man auf LLMs anwenden kann
Denn eines davon zu definieren hieße vermutlich, effektiv den Überblick über mehr als ein halbes Jahrhundert wissenschaftlicher Forschung zu definieren

[ Mehr Agenten werden benötigt ]

Ähnlich wie in der aktuellen Theorie wird es LLM-Modelle mit mehr Rekursion natürlich besser machen
Sie werden jedoch nur insoweit schrittweise komplexere Planungsprobleme lösen können, wie sie das ursprüngliche Ziel und den bisherigen Weg im Blick behalten können
Warum LLMs unzuverlässig sind, ist weiterhin unklar
GPT-4 ist im Vergleich zu GPT-3.5 zuverlässiger, aber es ist unklar, ob das einfach daran liegt, dass es besser im Lernen geworden ist, oder ob die Zuverlässigkeit durch Skalierung zunimmt und Halluzinationen abnehmen

Agenten: ein starker Anwendungsfall

Agenten, also autonome Entitäten, die ganze Aufgaben für uns erledigen können, sind der Traum-Anwendungsfall für LLMs
Tatsächlich werden für viele Aufgaben mehr Agenten benötigt
Wenn sie bei einigen Aufgaben etwas besser funktionieren: Würde dann eine ausreichend große Zahl von Agenten bei allen Aufgaben besser funktionieren? Möglich, aber derzeit wirkt das eher unwahrscheinlich
An Optionen wie Devin von Cognition Labs konnten wir einen Blick darauf werfen, wie mächtig das sein kann (Darstellung realer Anwendungsfälle)

Skalierung auf einen erheblichen Teil der Arbeitsplätze in den kommenden Jahren

Könnte sich dieses Verhalten in den nächsten Jahren auf einen erheblichen Teil der Arbeitsplätze ausweiten? Das scheint möglich
Man wird jeden Job einzeln angehen müssen, und das werden spezialisierte Modelle sein, die sich nicht leicht skalieren lassen (nicht ein einziges Modell, das alles beherrscht)
Open-Source-Versionen zeigen bereits einige der Kernelemente
- Sorgfältig zu prüfen, in welcher Reihenfolge und in welcher Menge Informationen das Basismodell erreichen, und unter Berücksichtigung seiner Grenzen, wie wir zuvor gesehen haben, eine Umgebung zu schaffen, in der es gedeihen kann

Die Grenzen von GPT und die Lösung

Es spielt keine Rolle, dass GPT Probleme wie Game of Life nicht allein lösen kann, auch nicht, wenn es die Schritte durchdenken soll
Entscheidend ist, dass GPT ein Programm schreiben kann, um das Problem zu lösen
Wenn man GPT also darauf trainieren kann, in jedem Programm die Situationen zu erkennen, in denen es sinnvoll ist, ein Programm zu schreiben, könnte man AGI näherkommen (das ist meine Ansicht)

Grenzen der Modellkapazität und das Konkurrenzverhältnis zwischen visueller und sprachlicher Modalität

Zumindest bei kleinen Modellen gibt es einen Wettbewerb zwischen den Gewichten darum, was gelernt wird
Der beste Kommentar, den ich im DeepSeek-Paper gesehen habe:
- DeepSeek-VL-7B zeigt bei Mathematik (GSM8K) einen gewissen Rückgang
- Das deutet darauf hin, dass trotz der Bemühungen, die Harmonie zwischen visueller und sprachlicher Modalität zu fördern, weiterhin ein Konkurrenzverhältnis zwischen beiden besteht
- Das könnte auf die begrenzte Modellkapazität (7B) zurückzuführen sein, und größere Modelle könnten dieses Problem erheblich abmildern

[ Fazit ]

Was wir aus den vorigen Beispielen gelernt haben
- Es gibt bestimmte Problemtypen, die LLMs (Large Language Models) derzeit nicht lösen können
  - Dazu gehören insbesondere Probleme, die von vorherigen Zuständen abhängen oder zukünftige Zustände vorhersagen müssen und daher längere Inferenzschritte erfordern
  - Beispiele dafür sind das Spielen von Wordle oder die Vorhersage von CA (Cellular Automata)
- Mit größeren LLMs kann man in gewissem Maß Schlussfolgern beibringen, indem man schrittweise Informationen zum Problem und mehrere zu befolgende Beispiele bereitstellt
  - Das bedeutet jedoch, dass man die eigentliche Aufgabe abstrahiert und die Art, wie man über die Antwort nachdenken soll, in den Prompt hineinschreibt
- Dies kann auf folgende Weise verbessert werden
  1. besseres Prompting
  2. verbesserter Zugang zu Speicher, Rechenleistung und Werkzeugen in Zwischenschritten
  - Dennoch wird damit kein verallgemeinerbares Bewusstseinsniveau erreicht, wie wir es beim Menschen annehmen
  - Alle Informationen, die in ein LLM eingegeben wurden, lassen sich vermutlich mit dem richtigen Prompt wieder hervorholen
- Daher besteht ein gewaltiger Teil der richtigen Nutzung des Modells darin, je nach Aufgabe den passenden Prompt zu formulieren
  - Das kann bedeuten, sorgfältig lange Sequenzen richtiger und falscher Antworten auf Rechenprobleme zu konstruieren, um das Modell zusammen mit externen Guardrails auf angemessene Antworten zu primen
- "Attention" ist anfällig für Goal Drift und daher ohne erhebliche externe Scaffolding-Maßnahmen nur sehr schwer zuverlässig zu machen
  - Die Fehler, die LLMs machen, sind wesentlich informativer als ihre Erfolge
Um AGI (Artificial General Intelligence) zu erreichen und ein hinreichendes Maß an Generalisierung zu erzielen, sind grundlegende Architekturverbesserungen nötig
- Das reine Skalieren bestehender Modelle und das Hinzufügen neuer Architekturen wie Jamba wird sie zwar effizienter, schneller und stabiler machen, löst aber keine grundlegenden Probleme wie mangelnde Generalisierung oder Goal Drift
Es reicht nicht aus, spezialisierte Agenten hinzuzufügen, um "Prompt Engineering" zu betreiben, und 17 GPTs miteinander reden zu lassen
- Mit genügend Behelfslösungen könnten die Ergebnisse in Bereichen, die uns interessieren, jedoch möglicherweise nicht mehr unterscheidbar sein
Als in der frühen AI-Ära erstmals Schach-Engines aufkamen, verfügten sie nur über begrenzte Rechenleistung und fast nutzlose Such- oder Bewertungsfunktionen
- Deshalb mussten sie auf Behelfslösungen wie hartkodierte Eröffnungen oder Endspiele, Iterative Deepening zur besseren Suche und Alpha-Beta-Pruning zurückgreifen
- Letztlich wurden diese Einschränkungen durch schrittweise Verbesserungen überwunden, und bei LLMs geschieht nun Ähnliches
Die vom Autor bevorzugte Idee ist es, mehrere Planungsagenten auf verschiedenen Hierarchieebenen einzusetzen, die andere spezialisierte Agenten mit miteinander verknüpften eigenen Unteragenten anweisen können, sobald die Zuverlässigkeit etwas höher ist
Wir können Module für Schlussfolgern und Iteration hinzufügen, dauerhaften und Random-Access-Speicher ergänzen und sogar ein Verständnis der physischen Welt vermitteln
- An diesem Punkt scheint es, als könnten wir in LLMs eine Annäherung an Bewusstsein erhalten, ähnlich wie bei Tieren, aber ist das wirklich so?
- Es könnte auch bei einem äußerst überzeugenden statistischen Modell enden, das das nachahmt, was wir brauchen, während es außerhalb der Verteilung gerät
Deshalb nennt der Autor LLMs einen Fuzzy Processor, und deshalb enden Fragen wie "wie es ist, ein LLM zu sein" in zirkulären Gesprächen
Das sollte nicht als Hinweis verstanden werden, dass das, was wir heute haben, nicht wundersam wäre
- Nur weil man glaubt, dass sich die Bitter Lesson nicht vollständig bis zur AGI extrapolieren lässt, heißt das nicht, dass die Früchte, die wir bereits haben, nicht großartig wären
Der Autor ist überzeugt, dass LLMs aus den Daten, die sie sehen, "lernen"
- Sie sind weder bloße Kompressoren noch Papageien
- Sie können nuancierte Daten aus verschiedenen Teilen des Trainingsdatensatzes oder Prompts miteinander verknüpfen und intelligente Antworten liefern
Thomas Nagel hätte wahrscheinlich die Frage gestellt, wie es ist, ein LLM zu sein
- Als Säugetiere stehen Fledermäuse uns näher als LLMs, und wenn ihr Inneres für uns schon unscharf bleibt, wie wahrscheinlich ist es dann, dass wir die innere Funktionsweise neuer Modelle verstehen werden?
- Oder umgekehrt: Weil wir bei LLMs alle Gewichte und Schaltkreise frei untersuchen können, welches Maß an Einsicht können wir dann in diese von uns verwendeten Modelle gewinnen?
Das ist der Grund, warum der Autor offiziell bereit ist, in den sauren Apfel zu beißen
- Hinreichend hochskalierte Statistik ist innerhalb der Verteilung der Trainingsdaten nicht von Intelligenz zu unterscheiden
- Nicht in Bezug auf alles, und auch nicht genug, um alles zu tun, aber auch keine Fata Morgana
- Deshalb sind Fehler in Tests für die Diagnose weit nützlicher als Erfolge
Wenn LLMs Maschinen sind, die letztlich alles Mögliche tun können, dann sollten sie am Ende die meisten Dinge tun können
- Mit viel Anreiz und Nachdruck ist das möglich
- Sie werden zwar nicht die Genialität von Bach oder von Neumann inspirieren, aber gewöhnlichere, dennoch nicht weniger wichtige Innovationen und Entdeckungen sind möglich
- Und das kann geschehen, ohne Bewusstsein oder moralische Personhood zu benötigen
- Wenn wir die Sprünge innerhalb eines Paradigmas, von denen Kuhn sprach, automatisieren oder beschleunigen können, werden wir schließlich auch freier zwischen Paradigmen springen können

1 Kommentare

GN⁺ 2024-04-28

Hacker-News-Kommentar

Zusammenfassung:

Aktuelle LLMs (Large Language Models) haben Probleme, die für Menschen leicht sind, für LLMs aber schwierig oder vielleicht sogar unmöglich, etwa Wordle oder die Vorhersage zellulärer Automaten wie Rule 110. Warum das so ist, ist noch nicht vollständig geklärt.
Beispiele und Schritt-für-Schritt-Anweisungen im Prompt bereitzustellen bedeutet nicht, dass das LLM selbst die "Schritte des Schlussfolgerns" herausfindet, sondern dass der Nutzer sie dem LLM vorgibt. Wir haben es mit einer intelligent wirkenden "Reasoning-Maschine" zu tun, die aber an grundlegende Grenzen stößt.
Ob sich mit größeren Modellen auf Basis des heutigen Attention-Mechanismus und besserem Prompting AGI erreichen lässt, ist unklar. Attention ist sehr starr, während das menschliche Gehirn ständig synaptische Plastizität erfährt. Es könnte flexiblere Architekturen geben, mit denen AGI möglich ist, aber wir kennen sie noch nicht.
Derzeit erfordert der Einsatz aktueller KI-Modelle sorgfältig ausgearbeitete lange Prompts, etwa indem man richtige und falsche Antworten auf Rechenprobleme gezielt konstruiert, das Modell auf angemessene Reaktionen primt und viele externe Guardrails anlegt.
Attention scheint unter "goal drift" zu leiden, weshalb Zuverlässigkeit ohne all diese externen Stützen schwer zu erreichen ist.
Um die Grenzen von LLMs theoretisch zu quantifizieren, sollte man sich nicht auf empirische Listen dessen stützen, was sie derzeit nicht können, sondern auf theoretische Resultate. In der einschlägigen Literatur kann man nach dem Begriff "expressibility" suchen.
Selbst einfache Regeln wie Konventionen zur Zahlennotation scheitern in vielen Beispielen, und oft funktionieren sie nicht richtig, egal wie man den Prompt formuliert. Erstaunlich, aber es gibt noch immer viele Einschränkungen.
Sie tun sich oft schwer damit, Anweisungen zu befolgen, etwas Bestimmtes nicht zu tun, etwa "Erwähne eine interessante Tatsache, aber sag nicht, dass sie interessant ist". Im Gegenteil: Wenn man sagt, sie sollen etwas nicht tun, steigt die Wahrscheinlichkeit, dass sie es doch tun.
Selbst wenn man annimmt, dass LLMs "schlussfolgern", baut man Agentic AI, die Halluzinationen nicht in Bezug auf die Welt, sondern anhand von in Dokumenten enthaltenen Fakten, Entitäten und Kausalbeziehungen behandelt. Außerdem bewältigt sie Querverweise über sehr große Token-Distanzen.
Wahrscheinlich hat die Notwendigkeit, sekundäre Komplexität wie zwischenmenschliche Beziehungen, Ressentiments und Allianzen gut zu verarbeiten, zu einem höheren Intelligenzniveau geführt.
Einige Dinge, die sie "absolut nicht können", wie Wordle oder Sudoku, sind nur Artefakte der Textrepräsentation; wenn man sie in eine andere Domäne überführt, läge die Erfolgsquote vermutlich selbst mit derselben Transformer-Architektur deutlich höher.
Man muss kein auf jede Domäne zugeschnittenes AGI bauen; es reicht, Agenten sowie einen Katalog aus Modellen und Tools zu haben, die gut genug schlussfolgern können, um Probleme zu zerlegen, sie spezialisierten Werkzeugen zuzuweisen und die Ergebnisse anschließend wieder zu einer Antwort zusammenzusetzen.

Was LLMs niemals können werden

[ Grenzen von LLMs ]

Reversal Curse

Liegt es nicht am Problem der Trainingsdatenverteilung?

Warum LLMs es grundsätzlich nicht können

[ Experiment - Warum GPT Wordle nicht lernen kann ]

[ Experiment – Cellular Automata einem LLM beibringen ]

[ Wie wurde dieses Problem bisher gelöst? ]

[ Wie lernfähig sind LLMs wirklich? ]

Fragen zur Lernfähigkeit von LLMs

Leistungssteigerung neuronaler Netze durch externen Speicher

Grenzen von Chain-of-Thought-Prompting und Scratchpads

Der Fluch der Autoregression

Fragen nach dem Wesen der Kognition

Unterschiede zwischen den Lerndaten von Menschen und LLMs

[ LLMs können den Kontext nicht zurücksetzen ]

Grenzen von Datensatzkomplexität und Modellgröße

Grenzen von LLMs, die lernen zu lernen

Die Komplexität interagierender Symbolsequenzen

Die Schwierigkeit, LLMs mit einfachen Tests zu definieren

[ Mehr Agenten werden benötigt ]

Agenten: ein starker Anwendungsfall

Skalierung auf einen erheblichen Teil der Arbeitsplätze in den kommenden Jahren

Die Grenzen von GPT und die Lösung

Grenzen der Modellkapazität und das Konkurrenzverhältnis zwischen visueller und sprachlicher Modalität

[ Fazit ]

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentar