Die „Durchgehen“-Fähigkeiten von LLMs könnten schrittweise und vorhersagbar sein

(quantamagazine.org)

1 Punkte von GN⁺ 2024-03-26 | 1 Kommentare | Auf WhatsApp teilen

Stanford-Forschende argumentieren, dass einige emergente Fähigkeiten von LLMs nicht plötzlich entstanden sein müssen, sondern wegen der Messmethode wie ein sprunghafter Leistungssprung erschienen sein könnten
BIG-bench bewertet LLMs mit 204 Aufgaben und beobachtete bei einigen Aufgaben diskontinuierliche Verbesserungen, bei denen die Leistung lange nahe 0 blieb und dann ab einer bestimmten Größe stark anstieg
Genauigkeitsmetriken, die wie bei dreistelliger Addition nur richtig/falsch betrachten, behandeln auch teilweise richtige Antworten als Fehler und können so den tatsächlichen Verbesserungsverlauf verdecken
Werden stattdessen Teilpunkte pro Stelle vergeben, zeigt sich mit steigender Parameterzahl eine schrittweise Verbesserung, bei der mehr Ziffern korrekt vorhergesagt werden, was die Interpretation von Addition als emergente Fähigkeit abschwächt
Es bleibt offen, wie sich vorhersagen lässt, welche Metriken starke Leistungssprünge zeigen werden, und wie Aufgaben zu bewerten sind, bei denen die tatsächliche richtige Antwort entscheidend ist; deshalb braucht es eine Wissenschaft der Vorhersagbarkeit für die nächste Modellgeneration

Der plötzliche Leistungssprung laut BIG-bench

Beyond the Imitation Game benchmark, kurz BIG-bench, bewertet die Fähigkeiten großer Sprachmodelle mit 204 Aufgaben, die von 450 Forschenden erstellt wurden
Bei vielen Aufgaben verbesserte sich die Leistung mit wachsender Modellgröße vorhersehbar und gleichmäßig, bei einigen blieb sie jedoch lange fast bei 0 und stieg dann plötzlich an
Das Paper vom August 2022 wertete dieses Verhalten als überraschend und schwer vorhersagbar und argumentierte, dass es in Diskussionen über AI-Sicherheit, Potenziale und Risiken berücksichtigt werden sollte
Diese Fähigkeit wurde als Emergenz (emergence) bezeichnet, also als kollektives Verhalten, das erst auftritt, wenn ein System eine hohe Komplexität erreicht

Stanfords Gegenposition: Die Illusion könnte von der Metrik statt vom Modell kommen

Sanmi Koyejo, Rylan Schaeffer und Brando Miranda von der Stanford University widersprechen in einem neuen Paper und argumentieren, dass das plötzliche Auftreten von Fähigkeiten aus der Art entstehen könnte, wie die Leistung von LLMs gemessen wird
Der Kernpunkt ist, dass Fähigkeiten nicht unvorhersagbar entstehen müssen, sondern dass Messmetriken gleichmäßige und vorhersagbare Verbesserungen wie abrupte Sprünge erscheinen lassen können
Die Forschenden erkennen ausdrücklich an, dass LLMs mit wachsender Größe leistungsfähiger werden
Ob eine Verbesserungskurve glatt wirkt oder unregelmäßig und scharf, könne jedoch nicht nur von der inneren Funktionsweise des Modells abhängen, sondern auch von der Wahl der Metrik oder von zu wenigen Testbeispielen beeinflusst werden

Modellgröße und Bewertungsgegenstand

LLMs werden trainiert, indem sie riesige Textdatensätze aus Online-Quellen wie Büchern, Websuche und Wikipedia analysieren und Verbindungen zwischen Wörtern finden, die häufig gemeinsam auftreten
Die Modellgröße wird an der Zahl der Parameter gemessen; diese entsprechen grob den möglichen Verknüpfungen zwischen Wörtern
Wichtige Modellgrößen sind:
- GPT-2: 1,5 Milliarden Parameter
- GPT-3.5: 350 Milliarden Parameter
- GPT-4: im März 2023 veröffentlicht, Grundlage von Microsoft Copilot, Berichten zufolge mit 1,75 Billionen Parametern
Dass große LLMs Aufgaben lösen können, an denen kleinere Modelle scheitern, ist nicht der eigentliche Streitpunkt
Auch die Stanford-Forschenden erkennen an, dass die zusätzliche Komplexität größerer Modelle die Leistung bei schwierigeren und vielfältigeren Problemen steigern kann

Die Grenzen der Genauigkeitsmetrik am Beispiel dreistelliger Addition

In der BIG-bench-Studie von 2022 wurden GPT-3 und LaMDA so bewertet, dass sie Additionsaufgaben bei geringerer Parameterzahl nicht korrekt lösen konnten
Bei GPT-3 schien plötzlich ab 13 Milliarden Parametern die Fähigkeit zur Addition aufzutauchen, bei LaMDA zeigte sich ein ähnlicher Wandel bei 68 Milliarden Parametern
Dieses Ergebnis führte zu der Interpretation, dass die Fähigkeit zur Addition ab einem bestimmten Schwellenwert emergiert
Die Stanford-Forschenden weisen darauf hin, dass diese Bewertung nur Genauigkeit betrachtete und daher alles, was nicht vollständig korrekt war, als Fehler zählte
- Wenn etwa auf 100+278 die Antwort 376 gegeben wird, liegt das deutlich näher an der tatsächlichen Lösung als −9.34, doch in einer Richtig/Falsch-Metrik gelten beide als Fehler
Die Forschenden verwendeten stattdessen eine Teilpunktmetrik, die bewertet, wie gut die erste, zweite und dritte Ziffer jeweils vorhergesagt wurden
Unter dieser Metrik zeigte sich mit steigender Parameterzahl, dass LLMs die Ziffernfolge des Additionsergebnisses zunehmend genauer vorhersagen
Damit kann die Fähigkeit zur Addition eher als schrittweise und vorhersagbare Verbesserung denn als plötzlicher und unvorhersagbarer Sprung interpretiert werden

Die offene Debatte

Tianshi Li von der Northeastern University meint, das Stanford-Paper erkläre noch nicht, wie sich vorhersagen lässt, welche Metriken wann starke Verbesserungen bei LLMs zeigen werden
In diesem Punkt bleibt also Spielraum für die Sichtweise, dass einige Fähigkeiten weiterhin unvorhersagbar sein könnten
Jason Wei von OpenAI argumentiert, dass bei Fähigkeiten wie Arithmetik, bei denen die richtige Antwort selbst entscheidend ist, frühere Berichte über Emergenz weiterhin gültig seien
Alex Tamkin von Anthropic bewertet das neue Paper positiv, weil es mehrstufige Aufgaben in kleinere Teile zerlegt und dadurch die Beiträge einzelner Komponenten sichtbar macht
Gleichzeitig betont Tamkin, dass sich nicht jeder Sprung als Illusion abtun lasse; es gebe auch Literatur, in der Diskontinuitäten selbst bei einstufigen Vorhersagen oder kontinuierlichen Metriken sichtbar seien

Die Herausforderung, größere Modelle vorherzusagen

Xia „Ben“ Hu von der Rice University meint, dass sich Emergenz bei heutigen LLMs zwar mit anderen Messwerkzeugen erklären lasse, diese Erklärung aber für künftige, noch größere und komplexere LLMs möglicherweise nicht mehr gelte
Hu sagt, dass LLMs auf der nächsten Größenstufe Wissen aus anderen Aufgaben und anderen Modellen heranziehen werden
Für Tamkin ist die Debatte über Emergenz direkt mit dem Versuch verbunden, vorherzusagen, wie LLMs sich verhalten werden
Weil die Einsatzmöglichkeiten von LLM-Technologie so breit sind, wird es wichtig, eine Wissenschaft der Vorhersagbarkeit zu entwickeln, damit die nächste Modellgeneration nicht überrascht

1 Kommentare

GN⁺ 2024-03-26

Hacker-News-Kommentare

Diese Studie hat einige Probleme: 1) Eine Bestehen/Nichtbestehen-Genauigkeit durch eine weichere Metrik wie Token-Edit-Distanz zu ersetzen, kann je nach Aufgabe ein miserabler Proxy für Kompetenz sein.
2) Selbst nach den Metriken der Autoren finden sich weiterhin einige potenziell emergente Fähigkeiten.
3) Im Nachhinein sieht alles einfach aus. Man kann sich die Daten noch einmal ansehen und daran herumjustieren, bis man eine Transformation findet, bei der die Emergenz verschwindet; aber damals wurden gängige Test-Accuracy-Metriken verwendet, und dass die Ergebnisse unvorhersehbar und überraschend waren, ist das eigentlich bemerkenswerte Phänomen.
Das Paper hat seinen Wert, aber man sollte die Schlussfolgerungen nicht zu weit treiben.
- Wie weiter hinten im Artikel ebenfalls erwähnt wird, bedeutet „bei Addition fast richtig“ nicht viel. Entweder es stimmt, oder es stimmt nicht.
  Trotzdem blieben auch nach Änderung der Bewertungsmethode einige emergente Fähigkeiten übrig; insofern ist der Versuch positiv zu sehen.
„Wenn man einen anderen Maßstab anlegt, verschwindet die Emergenz“ gilt vermutlich auch für die meisten emergenten Verhaltensweisen, oder?
Wenn man die Skala ändert und einzelne Wassermoleküle betrachtet, sieht man nicht plötzlich einen Eisblock entstehen, sondern wie Moleküle eines nach dem anderen an die Kristallstruktur andocken.
- Nicht unbedingt. Das Problem ist, dass die Definition im Machine Learning besonders schwammig ist.
  Ich habe hier ausführlicher dazu geschrieben[0]. Was du beschreibst, ist eine Erklärung von Emergenz, aber es ist nicht dasselbe wie das, was behauptet wurde, als man sagte, LLMs hätten emergente Fähigkeiten. Diese Unterscheidung wird auch im Artikel erklärt.
  [0] https://news.ycombinator.com/item?id=39812315
- Aber selbst wenn man die Molekülstruktur bei 50 °C und 75 °C kennt, erfährt man fast nichts über den Gefrierpunkt.
  Ein anderes Beispiel: Wenn man die Zahl der Infektionsfälle eines Virus misst, breitet es sich entweder weltweit aus (R0 > 1, z. B. COVID-19) oder es schafft keine weite Verbreitung (R0 < 1, z. B. Ebola). Es ist zwar nicht völlig binär, wirkt äußerlich aber binär und ist daher emergentes Verhalten.
  Misst man dagegen R0 direkt, sieht man einen graduellen Anstieg und kann künftige Varianten, Impfstoffwirksamkeit usw. deutlich leichter vorhersagen.
  Ich würde sagen, „Emergenz“ bezeichnet zum Beispiel eine Sigmoidfunktion, während „graduell“ auf eine lineare oder logarithmische Funktion verweist.
- Niemand verwechselt Eis mit plötzlicher Emergenz. Schon mit bloßem Auge ist klar, dass es allmählich entsteht.
Paper: Are Emergent Abilities of Large Language Models a Mirage? https://arxiv.org/abs/2304.15004
Die Zukunft lässt sich immer leichter vorhersagen, nachdem sie eingetroffen ist.
Tatsächlich kann es emergente Eigenschaften wie Phasenübergänge geben, die selbst im Rückblick schwer vorherzusagen sind, aber ich vermute, dass sie nicht häufig sind. Ich frage mich auch, ob es überhaupt einen überzeugenden Fall bei LLMs gibt.
Häufiger dürfte sein, dass eine übergeordnete Fähigkeit von mehreren untergeordneten Fähigkeiten abhängt und dass diese Beziehung schwer vorherzusagen ist. Es mag glatte Verbesserungen der Komponenten gegeben haben, aber man muss wissen, worauf man schauen soll – also welche Komponenten entscheidend sind.
Um emergente Fähigkeiten vorherzusagen, müsste man die nötigen Komponenten im Voraus identifizieren und auch in gewissem Maß simulieren, welches Niveau jedes Element erreichen muss, um das erwartete Verhalten zu stützen.
Natürlich geht es nicht nur um Modellgröße oder Datenmenge, sondern auch um Art und Qualität der Daten; zwischen Modellversionen kann es abrupte Veränderungen geben. Vorab zu analysieren, welche neuen Muster oder Manipulationen – also Komponentenfähigkeiten – ein Modell aus einem aktualisierten Trainingsset lernen wird, ist sehr schwierig.
Ich frage mich, wie oft es auch in die andere Richtung passiert: dass Modelldesigner erfolgreich identifizieren: „Um X zu tun, braucht man die Fähigkeiten A, B und C, und um A, B und C zu bekommen, braucht man die neuen Datensätze P und Q.“ In so einem hypothetischen Fall hätte man den Fortschritt hin zur Fähigkeit X messen können.
- Soweit ich weiß, ist so etwas vor Transformer überhaupt nicht passiert, weil Modelle nicht so viele einzelne Skills ohne gegenseitige Interferenz aufnehmen konnten.
  Dass es Modelle mit vielen hochwertigen Fähigkeiten gibt, ist an sich noch ein ziemlich neues Phänomen.
  Trotzdem halte ich einen solchen Ansatz für nötig, und die besten LLMs von heute tun wahrscheinlich bereits etwas Ähnliches. Nur hat niemand öffentlich gemacht, was genau sie tun, daher ist das reine Spekulation.
„Bei anderen Aufgaben verlief die Verbesserung der Fähigkeiten jedoch nicht glatt. Die Leistung blieb eine Zeit lang fast bei 0 und sprang dann plötzlich nach oben. Auch andere Studien fanden ähnliche Fähigkeitssprünge.“
Wow, ist der eingereichte Titel nicht ziemlich ungenau?
- Dieser Absatz fasst frühere Forschungsergebnisse zusammen; dieses Paper stellt genau diese Ergebnisse infrage.
- In diesem Kontext scheint es zu bedeuten, dass solche Fähigkeiten gezielt erforscht und entwickelt wurden und nicht einfach aus dem Nichts plötzlich auftauchten.
  Ein großer Teil der Welt wurde vom plötzlichen Auftauchen von „AI“ kalt erwischt, aber es gab auch Menschen, die wussten, dass solche Dinge kommen würden.
Ein Ansatz mit Teilpunkten ist in Ordnung, aber wenn man ein Modell darauf trainieren will, die richtige Antwort zu liefern, ist es wichtig, ob die Antwort korrekt ist.
Beim Trainieren kleiner Modelle auf Arithmetik habe ich gesehen, dass die Loss-Kurve zwar einen stabilen Zustand erreicht, einige Ziffern stimmen, die Antwort aber weiterhin falsch ist. Man kann weitertrainieren, aber die nötige Anzahl an Trainingsepochen scheint exponentiell umgekehrt proportional zur Modellgröße zu sein.
Ein Modell mit x Parametern braucht also etwa n²-mal länger als eines mit 2x Parametern.
Ab einer bestimmten Parameterzahl wird es durch Training mit Gradientenabstieg praktisch fast unmöglich, die richtige Antwort zu bekommen.
Mit mehr Parametern lässt sich die Konvergenz leichter erzwingen, und das ist tatsächlich eine wichtige Kennzahl.
Ab einem gewissen Punkt wird die erwartete Zeit, bis diese Fähigkeit spontan auftritt, länger als ein Menschenleben, sogar länger als die Lebensdauer der gesamten Menschheit. In dem Sinne, dass eine größere Modellgröße das überhaupt erst machbar macht, kann man meiner Meinung nach durchaus sagen, dass diese Fähigkeit ausreichend plötzlich emergiert.
- Der Kernpunkt ist: Selbst wenn man ein Modell will, das die richtige Antwort liefert, sollte man Teilpunkte statt binärer Accuracy verwenden, um zu sehen, wie weit man vom Ziel entfernt ist.
  Wenn man eine Metrik nutzt, bei der Verbesserungen plötzlich und unvorhersagbar auftreten, kann die Fähigkeit vielleicht spontan erscheinen, sodass man nicht einmal abschätzen kann, wie lange man noch trainieren muss.
  Wenn sich eine Teilpunkte-Metrik dagegen glatt und vorhersagbar verbessert, entsteht die Möglichkeit, den Trainingsfortschritt zu extrapolieren und abzuschätzen, wann die Ziel-Accuracy erreicht wird, statt die Accuracy selbst direkt zu extrapolieren.
  Wenn die erwartete Zeit zu lang ist und man deshalb ein größeres Modell trainiert, kann man durch Extrapolation zwischen Modellgrößen auch ungefähr abschätzen, wie groß das Modell sein muss.
- Modelltraining scheint zu stark auf Kontinuität optimiert zu sein. Kontinuierliche Variablen lassen sich zum Beispiel unendlich fein unterteilen, aber Logik und Algorithmen sind keine derart unscharfen Dinge, sondern feste Strukturen.
  Damit ein lernender Agent Logik und Algorithmen richtig lernt, müsste er wohl von unscharfen Konzepten auf harte Konzepte generalisieren können. Ob das durch bloßes Skalieren automatisch entsteht oder einen grundlegenden Wechsel erfordert, ist unklar.
- Hast du diese Einreichung gesehen? https://news.ycombinator.com/item?id=39575264
  Klingt, als hingen die Themen zusammen.
Gutes Paper. Allerdings erfordert Emergenz nicht zwingend einen plötzlichen Sprung in der Metrik oder Unvorhersagbarkeit. Neue Fähigkeiten können auch schrittweise entstehen.
- Wenn man im Machine Learning von „Emergenz“ spricht, meint man, wie in dem Paper beschrieben, das den Begriff eingeführt hat, Metriken mit einem plötzlichen Sprung: https://arxiv.org/abs/2206.07682
Ein Modell kann intelligenter werden, ohne diskontinuierliche Sprünge zu machen. Vielleicht misst man nur auf eine Weise, die Teilantworten nicht bewertet, und übersieht deshalb die Signale dafür, dass es die ganze Zeit schärfer geworden ist.
Das scheint auch einigermaßen zu dem zu passen, was Sam Altmans Ansicht zu sein scheint. OpenAI hat offenbar das Gefühl, dass sich die Reasoning-Fähigkeit eines Modells allein aus Trainings-Compute und Datenmenge recht gut vorhersagen lässt.
- Sam Altman ist eher ein Vertriebsmensch; das ist weniger seine eigene Idee als vielmehr das, was er von den vielen Fachleuten bei OpenAI wiederholt.
Auch eine stehengebliebene Uhr geht zweimal am Tag richtig.
LLMs sind Plausibilitäts-Engines. Die grundlegende Hypothese, die hier geprüft wird, lautet: Wenn Plausibilität zunimmt, nimmt auch Korrektheit zu.
Diese Hypothese lässt sich schon anhand der von Menschen verfassten Inhalte, die zum Trainieren von LLMs verwendet werden, leicht verwerfen; damit gibt es für alle darauf beruhenden Phänomene eine Obergrenze. Deshalb entsteht AGI nicht einfach dadurch, dass man LLMs nur größer macht.
- „LLMs sind Plausibilitäts-Engines“ ist eine Sichtweise auf LLMs, aber daraus folgt nicht automatisch eine Obergrenze ihrer Fähigkeiten.
  Es stimmt auch, dass Menschen sich fortpflanzende Lebewesen sind. Auf den ersten Blick könnte es so aussehen, als würden Menschen nur auf Fortpflanzungsfähigkeit selektiert und könnten daher nicht zu Intelligenz evolvieren, aber in Wirklichkeit ist das nicht der Fall. Auch eine zutreffende Einordnung legt keine Obergrenze menschlicher Fähigkeiten fest.
  LLMs evolvieren dahin, Wissen möglichst effizient zu bewahren.
  Eine einfache Strategie zur Wissensbewahrung ist Auswendiglernen, und neuronale Netze können definitiv auswendig lernen.
  Eine andere Strategie ist die Verwendung von Algorithmen. Neuronale Netze können ebenfalls dahin evolvieren, Wissen durch Algorithmen zu bewahren. So wurde zum Beispiel beobachtet, dass ein kleines neuronales Netz eine FFT-ähnliche Struktur entwickelte, um Addition auszuführen. Anfangs begann es mit Auswendiglernen und war nicht perfekt, später im Training wechselte es aber zu einem Additionsalgorithmus mit FFT und lieferte perfekte Ergebnisse.
  Bessere LLMs bewahren Wissen meiner Ansicht nach durch ausgefeilte Kompression. Dazu gehört, ein Weltmodell zu bilden und Eingabetext mit diesem Modell zu verknüpfen.
  Ich sehe das als Bausteine einer Inferenzmaschine. Sie ist unvollständig, hat Bugs, und die aktuelle Architektur könnte bald an Grenzen stoßen, aber das ist etwas völlig anderes als reines Auswendiglernen.
- Du setzt voraus, dass Menschen zuverlässig Korrektheit statt Plausibilität anstreben.
  Die Tatsache, dass das gesamte Wissenschaftssystem darauf ausgelegt ist, plausibel wirkende, aber falsche Behauptungen zu unterdrücken, zeigt eher das Gegenteil.
- Im philosophischen Sinne stimmt das, aber praktisch gesehen ist KI auf dem Weg, Menschen bei vielen Aufgaben und Berufen zu übertreffen, für die früher Intelligenz als erforderlich galt.
- Die Schlussfolgerung „für alle darauf beruhenden Phänomene entsteht eine Obergrenze“ klingt plausibel, lässt sich aber leicht durch Gegenbeispiele brechen. Gute Schüler können ihre Lehrer übertreffen, und auch durchschnittliche Schüler können, wenn sie von mehreren Lehrern lernen, alle übertreffen.
  Nebenbei: Deshalb halte ich das mittelalterliche Master-Journeyman-System für sehr effizient.
  Abstrakter gesagt scheint diese Schlussfolgerung vorauszusetzen, dass es Transfer Learning nicht gibt.
Die von den Autoren verwendete Metrik verwirrt mich.
Edit Distance scheint eine seltsame Art zu sein, zu testen, ob ein Modell Arithmetik versteht ([1], Figure 3). 1+3=3 würde wohl als genauso richtig behandelt wie 1+1=9.
Ich frage mich, warum man nicht mit abs(actual-expected) betrachtet, wie weit die Modellausgabe vom tatsächlichen Wert abweicht. Mich würde interessieren, ob es auch bei dieser Metrik einen Wendepunkt gibt.
https://arxiv.org/abs/2206.07682
- Das hängt davon ab, wie man Arithmetik ausführt. Wenn ein Mensch schriftlich addiert, ist 12345+35791=58136 ein genauso großer Fehler wie 48146. Das tatsächliche Ergebnis ist 48136, und in beiden Fällen ist nur eine Ziffernspalte falsch. Ein binärer Half Adder funktioniert auf dieselbe Weise.
  Wie LLMs Arithmetik ausführen, wissen wir nicht. Token-Edit-Distance könnte interessant sein, aber so oder so ändert das die Aussage des Papers nicht wesentlich.
  Nebenbei: Der Link ist falsch. Das Paper, von dem die Rede ist, ist hier: https://arxiv.org/pdf/2304.15004.pdf

Die „Durchgehen“-Fähigkeiten von LLMs könnten schrittweise und vorhersagbar sein

Der plötzliche Leistungssprung laut BIG-bench

Stanfords Gegenposition: Die Illusion könnte von der Metrik statt vom Modell kommen

Modellgröße und Bewertungsgegenstand

Die Grenzen der Genauigkeitsmetrik am Beispiel dreistelliger Addition

Die offene Debatte

Die Herausforderung, größere Modelle vorherzusagen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare