1 Punkte von GN⁺ 2024-03-26 | 1 Kommentare | Auf WhatsApp teilen

Wie schnell lernen große Sprachmodelle unerwartete Fähigkeiten?

  • Neue Forschung zu den Fähigkeiten großer Sprachmodelle (Large Language Models, LLMs) legt nahe, dass sogenannte „plötzliche Sprungfähigkeiten“ sich in Wirklichkeit schrittweise und vorhersagbar entwickeln.
  • Forschende beschrieben diese Fähigkeiten als „emergentes“ Verhalten und verglichen sie mit einem Phasenübergang in der Physik, etwa wenn Flüssigkeit zu Eis wird.
  • Ein Forschungsteam der Stanford University argumentiert jedoch, dass das scheinbar plötzliche Auftreten dieser Fähigkeiten lediglich ein Ergebnis der Art ist, wie Forschende die Leistung von LLMs messen.

Messung der Leistung großer Sprachmodelle

  • Große Sprachmodelle analysieren riesige Textdatensätze, um Verbindungen zwischen Wörtern zu finden, die häufig gemeinsam auftreten.
  • Die Größe eines Modells wird an der Zahl seiner Parameter gemessen; je mehr Parameter, desto mehr Verbindungen kann ein LLM finden.
  • GPT-2 hatte 1,5 Milliarden Parameter, GPT-3.5 350 Milliarden und GPT-4 verwendet 1,75 Billionen Parameter.

Die schrittweise Entwicklung unerwarteter Fähigkeiten

  • Das Stanford-Team argumentiert, dass die Fähigkeiten von LLMs nicht plötzlich und unvorhersagbar auftreten, sondern sich schrittweise und vorhersagbar entwickeln.
  • Beim Addieren dreistelliger Zahlen etwa scheiterten GPT-3 und LaMDA mit wenigen Parametern an korrekten Berechnungen, konnten aber mit steigender Parameterzahl scheinbar plötzlich addieren.
  • Statt LLMs nur anhand der Genauigkeit zu bewerten, nutzte das Team ein Messverfahren mit Teilpunkten und stellte fest, dass LLMs schrittweise lernten, die richtige Reihenfolge der Ziffern vorherzusagen.

Ansichten anderer Wissenschaftler

  • Andere Wissenschaftler weisen darauf hin, dass diese Studie das Konzept der „plötzlichen Sprünge“ nicht vollständig ausräumt.
  • Es bleibt weiterhin unklar, welche Messgrößen geeignet sind oder wie sich vorhersagen lässt, wann sich die Leistung eines LLM sprunghaft verbessern wird.
  • Einige Wissenschaftler argumentieren, dass frühere Berichte über „plötzliche Sprünge“ korrekt waren, und betonen, dass bei Fähigkeiten wie Arithmetik letztlich nur die richtige Antwort zählt.

Meinung von GN⁺

  • Diese Studie könnte wichtige Auswirkungen auf die Diskussion über die Sicherheit und potenziellen Risiken von künstlicher Intelligenz haben. Wenn sich die Fähigkeiten von LLMs vorhersagbar entwickeln, könnte das ein wichtiger Indikator für die sichere Entwicklung und Steuerung von AI sein.
  • Wenn die Forschungsergebnisse in die praktische AI-Entwicklung einfließen, müssen Entwickler die Bedeutung der Leistungsmessung stärker berücksichtigen und ausgefeiltere Evaluierungsmethoden entwerfen.
  • Der Artikel kann helfen, die Veränderungen und Fortschritte an der Front der AI-Forschung zu verstehen, insbesondere indem er eine neue Perspektive auf die Bewertung der Leistung von AI-Modellen bietet.
  • Aus kritischer Sicht ist anzuerkennen, dass die Ergebnisse nicht jede Leistungssteigerung von LLMs erklären und dass bei größeren und komplexeren Modellen weiterhin Phänomene „plötzlicher Sprünge“ auftreten könnten.
  • In diesem Zusammenhang sind die GPT-Modelle von OpenAI bereits breit im Markt im Einsatz, und diese Forschung könnte die Entwicklung anderer GPT-ähnlicher LLMs inspirieren.

1 Kommentare

 
GN⁺ 2024-03-26
Hacker-News-Kommentare
  • Einige Probleme im Zusammenhang mit der Studie

    • Die in der Studie verwendete Bewertungsmethode bildet die tatsächlichen Fähigkeiten möglicherweise nicht angemessen ab.
    • Trotz der Messkriterien der Autoren zeigen sich einige potenzielle Fähigkeiten.
    • Ergebnisse auf Basis vergangener Daten vorherzusagen ist im Nachhinein einfach, aber das eigentliche wichtige Phänomen ist, dass in der Praxis unerwartete Resultate auftraten.
    • Diese Arbeit hat ihren Wert, aber ihre Schlussfolgerungen sollten nicht überdehnt werden.
  • Die Schwierigkeit von Zukunftsprognosen

    • Die Zukunft vorherzusagen wird erst einfach, nachdem sie bereits eingetreten ist.
    • Höherwertige Fähigkeiten hängen von mehreren Teilfähigkeiten ab und sind schwer vorherzusagen.
    • Für Vorhersagen muss man die nötigen Grundbausteine im Voraus identifizieren und simulieren, welches Niveau sie erreichen müssen.
    • Auch Art und Qualität der Daten sind wichtig, und zwischen Modellversionen kann es abrupte Veränderungen geben.
  • Veränderungen der Ergebnisse durch geänderte Messkriterien

    • Verwendet man andere Messkriterien, kann das beobachtete Phänomen verschwinden.
    • Wenn man Wassermoleküle einzeln betrachtet, sieht man statt eines plötzlich auftauchenden Eisblocks eher eine allmähliche Bildung kristalliner Strukturen.
  • Titel der Arbeit: "Are Emergent Abilities of Large Language Models a Mirage?"

  • Beobachtungen zu sprunghaften Veränderungen von Fähigkeiten

    • Auch andere Studien haben sprunghafte Fähigkeitssprünge festgestellt.
    • Modelle werden möglicherweise schrittweise intelligenter, und solche Fortschritte können durch Bewertungsmethoden übersehen werden, die keine Teilpunkte für teilweise richtige Antworten vergeben.
  • Der Ansatz mit Teilpunkten und das Training von Modellen

    • Teilpunkte zu vergeben ist sinnvoll, aber das Training auf die exakt richtige Antwort bleibt wichtig.
    • Mit größerer Modellgröße ist es leichter, Konvergenz zu erreichen.
    • Mit wachsender Modellgröße kann es so wirken, als würden Fähigkeiten plötzlich auftauchen.
  • Das allmähliche Entstehen von Fähigkeiten

    • Damit Fähigkeiten entstehen, braucht es keine abrupten Sprünge oder Unvorhersehbarkeit.
    • Neue Fähigkeiten können sich schrittweise herausbilden.
  • Grenzen von Large Language Models (LLMs)

    • LLMs sind Engines zur Bewertung von Wahrscheinlichkeiten.
    • Allein durch das Skalieren von LLMs lässt sich keine Artificial General Intelligence (AGI) erzeugen.
  • Verwirrung über Messkriterien

    • Eine Messmethode auf Basis der edit distance ist möglicherweise nicht angemessen.
    • Sie wirkt wie eine seltsame Methode, um zu testen, ob ein Modell Arithmetik versteht.
    • Es könnte besser sein, die Differenz zwischen tatsächlichem und erwartetem Wert zu berücksichtigen.
    • Link zur Arbeit: arXiv:2206.07682