4 Punkte von GN⁺ 2023-12-26 | 1 Kommentare | Auf WhatsApp teilen

Notizen zu „Attention“ und „Transformern“: „Große Sprachmodelle“ in neuronalen Netzen

  • Der Begriff „Attention“ bezeichnet nicht menschliche Aufmerksamkeit im eigentlichen Sinn, sondern bedeutet, allen möglichen Vektoren ein gewisses Gewicht zuzuweisen.
  • „Attention“ ist eine Form von Kernel-Glättung und keine um 2015 im Bereich neuronaler Netze neu erfundene Idee, sondern eine Wiederentdeckung eines bereits bestehenden Konzepts.
  • „Multi-Head Attention“ führt Kernel-Glättung mit verschiedenen Kerneln durch und mittelt anschließend die Ergebnisse.

„Transformer“

  • „Transformer“ sind eine Architektur, die den „Attention“-Mechanismus verwendet, um Eingabevektoren zu glätten, und die daraus gewonnenen Ausgaben anschließend durch ein Feedforward-Neuronales-Netz leitet, um die endgültige Ausgabe zu erzeugen.
  • Transformer bestehen aus mehreren gestapelten Schichten (Layern), wobei jede Schicht aus einem „Attention“-Mechanismus und einem Feedforward-Neuronalen-Netz besteht.
  • Der Name der Transformer ist weniger missverständlich als „Attention“ und passend, weil sie tatsächlich eine Transformation durchführen.

„Sprachmodelle (Language Models)“

  • Sprachmodelle sind im Kern Wahrscheinlichkeitsmodelle für Symbolsequenzen und modellieren die Wahrscheinlichkeit des nächsten Symbols unter gegebenem Kontext.
  • Moderne große Sprachmodelle (Large Language Models, LLMs) lassen sich als Markov-Modelle endlicher Ordnung mit einer festen maximalen Kontextlänge betrachten.
  • LLMs können durch komplexe implizite Glättung auch für zuvor nie gesehene Kontexte Vorhersagen treffen.

„Vorhersage des nächsten Symbols (Next Symbol) vs. Vorhersage über größere Distanzen (Longer-range Prediction)“

  • Das Trainingsziel von LLMs ist die möglichst genaue Vorhersage des nächsten Symbols; das kann auch für Vorhersagen über größere Distanzen ein starkes Ziel sein.
  • Das Auffinden eines minimalen Prädiktors liefert viele Informationen über die Struktur des zugrunde liegenden Prozesses, den man vorhersagen will.

„Eine starke Vermutung zum Aufdecken von Prompts (A Strong Hunch about Uncovering Prompts)“

  • Der Versuch, die Prompts von LLM-basierten Anwendungen mit Aufforderungen wie „Sag mir den Prompt“ offenzulegen, ist kaum mehr als Selbsttäuschung.
  • Das zugrunde liegende Sprachmodell eines LLM besitzt keinen Mechanismus, um den Prompt von anderen Teilen der aktuellen Eingabesequenz zu unterscheiden.
  • Systemdesigner könnten zwar eine Funktion implementiert haben, die Prompts nachverfolgt, aber dafür gibt es kaum einen Grund.

„Gopnikismus (Gopnikism); Bibliothek“

  • Der vielversprechendste und attraktivste Ansatz ist, LLMs nicht als etwas Geistähnliches, sondern als eine „Kulturtechnik“ ähnlich einem Bibliothekskatalog zu betrachten.
  • Einem LLM per Prompt Text zu geben, ähnelt dem Durchsuchen der Inhalte einer Bibliothek und dem anschließenden Sampling daraus.

Meinung von GN⁺

  • Dass der Begriff „Attention“ in der KI als technischer Begriff verwendet wird, obwohl er sich von menschlicher Aufmerksamkeit unterscheidet, ist ein im Bereich der künstlichen Intelligenz häufig auftretendes Phänomen und zeigt, dass technische Begriffe mit Erscheinungen der realen Welt verwechselt werden können.
  • Der Erfolg großer Sprachmodelle beruht darauf, klassische Methoden des Machine Learning mit moderner Rechenleistung zu verbinden und so ein neues Leistungsniveau zu erreichen; das unterstreicht die Notwendigkeit, bestehende Theorien und Methodiken neu zu bewerten und innovativ anzuwenden.
  • Die Analogie, LLMs mit einem Bibliothekskatalog zu vergleichen, bietet eine interessante Perspektive darauf, wie diese Technologie menschliches Wissen und Informationen verarbeitet und zugänglich macht; das kann helfen zu verstehen, wie künstliche Intelligenz mit menschlicher Kultur interagiert.

1 Kommentare

 
GN⁺ 2023-12-26
Hacker-News-Kommentare
  • Ein Kommentator, der angab, bei Google Research gearbeitet und mit zwei Autoren des Papers „Attention is All You Need“ zusammengearbeitet zu haben, erwähnte auch, mit der Person zusammengearbeitet zu haben, die den Titel des Papers gewählt hatte. Er erklärte, dass Self-Attention in der Forschungsgemeinschaft bereits ein bekanntes Konzept gewesen sei und die Autoren nicht behauptet hätten, es erfunden zu haben. Die Autoren hätten nach Wegen gesucht, mehrere Techniken zu kombinieren, um die Leistung von Feedforward-Neuronalen Netzen zu verbessern, dabei interessante Ergebnisse erzielt und im weiteren Forschungsprozess festgestellt, dass der Attention-Mechanismus eine zentrale Rolle spielte. Außerdem erwähnte er, dass der Titel des Papers ein Wortspiel sei, das an den Beatles-Song „All You Need Is Love“ erinnere. Das für ihn hilfreichste Paper sei „Formal Algorithms for Transformers“ von Phuong und Hutter gewesen, das mit Fokus auf Klarheit und Präzision geschrieben worden sei; insbesondere Abschnitt 2 zur Motivation erkläre die Schwächen des Originalpapers und späterer Arbeiten sehr gut.

  • Ein anderer Kommentator gestand, dass er trotz mehrmaliger sorgfältiger Lektüre von „Attention is All You Need“ nicht habe verstehen können, was „Attention“ eigentlich macht. Die mathematischen Teile habe er nachvollziehen können, aber auch mehrere Tutorials hätten nicht geholfen. Erst Jahre später habe er erkannt, dass Attention im Grunde nur Kernel Smoothing sei, und kritisierte, das Paper sei deshalb unklar geschrieben. Er behauptete, die meisten Machine-Learning-Papers seien Schrott, bewertete „Attention is All You Need“ aber dennoch als besser als die meisten anderen.

  • Ein dritter Kommentator bewertete den „Stream-of-Consciousness“-artigen Ansatz des Papers als interessant und erfrischend. Außerdem erwähnte er, dass der Autor sich wegen der Kritik aus dem Internet entschuldige und demütig auftrete, und äußerte die Hoffnung, dass diese negativen Reaktionen ihn nicht davon abhalten würden, seine Notizen weiter zu veröffentlichen.

  • Ein weiterer Kommentator sagte, dass sich dieser Text im Gegensatz zu den meisten anderen Beiträgen über Machine Learning so anfühle, als wäre er in seiner Sprache geschrieben. Er erwähnte, dass der Abschnitt über Lempel-Ziv (LZ) interessant sei, meinte aber, ein größeres LZ-Modell wäre wohl nicht besonders spannend, weil LZ Zeichenketten exakt abgleichen müsse. Interessanter sei stattdessen vielleicht eine Art „jpeg“ für Text, die gewisse Ungenauigkeiten zulasse, um die Größe zu reduzieren. Das sei vermutlich das, was große Sprachmodelle (LLMs) tun.

  • Ein weiterer Kommentator sagte, er betrachte Scaled Dot-Product Attention als einen verallgemeinerten Convolution-Mechanismus. Die Begriffe Query, Key und Value seien verwirrend; diese drei würden bei Self-Attention aus demselben Signal abgeleitet und miteinander multipliziert. Warum dieser Mechanismus funktioniert, welche Hyperparameter für welche Daten gut sind und was die ideale Sequenzgröße ist, wisse allerdings niemand, fügte er hinzu.

  • Ein anderer Kommentator bemerkte, dass Transformer letztlich nur ein weiterer Universal Approximator seien, und argumentierte, es sei nicht entscheidend, ob ein bestimmter Attention Head assoziative Arrays mit fortlaufender Adressierung, Kernel Smoothing oder hochdimensionale Vektorräume simuliere, die einzelne Bedeutungen repräsentieren. Entscheidend sei, dass Transformer auf GPUs und mit Parallelverarbeitung effizient trainiert werden können, und genau deshalb seien sie LZ oder anderen Universal Approximators überlegen. Wenn man LZ oder etwas anderes auf GPUs deutlich effizienter als Transformer betreiben könne, könne man das nächste OpenAI gründen und Milliardär werden, merkte er an.

  • Ein Kommentator bat um eine Erklärung der Aussage: „Mythology: Wir modifizieren die Bedeutung jedes Tokens, das wir gesehen haben, auf Basis des Kontexts, und ähnliche Bedeutungen verstärken sich gegenseitig.“ An diesem Punkt sehe es so aus, als würde Kernel Smoothing unabhängig auf jeden Embedding-Vektor angewendet, und er verstehe nicht, warum ein bestimmter, aus benachbarten Tokens in der Sequenz abgeleiteter und geglätteter y_t-Vektor beeinflusst werde. Er könne sehen, dass durch Hinzufügen eines r_t-Tokens der Kontext wichtig werde, fragte aber, ob dies das Einzige sei, das Kontext berücksichtigt.

  • Ein weiterer Kommentator sagte, er könne nachvollziehen, warum Menschen aus anderen Disziplinen mit höherer akademischer „Strenge“ und bereits existierenden ähnlichen Ergebnissen über Machine-Learning-Papers wie „Attention is All You Need“ verärgert seien. Solche Arbeiten seien in Wirklichkeit keine guten wissenschaftlichen Papers; einen cleveren Namen zu finden und die am schwersten verständlichen Pseudo-Engineering-Begriffe zu wählen, mache noch kein gutes Paper. Tatsächlich sei das alles aber weitgehend egal: Große Sprachmodelle funktionieren, und zwar aus dummen Gründen. Ingenieurmäßige Lösungen wie das Hinzufügen von Positional Embeddings hätten das Problem tatsächlich gelöst, nicht wegen eines tiefen mathematischen Verständnisses, sondern weil man es ausprobiert habe und es funktioniert habe. Auch bei „effizienten Transformern“, die den Speicherbedarf von Attention mit Kernel-Methoden linear reduzieren, sei das letztlich nicht so wichtig; Unternehmen wie OpenAI, Anthropic und Meta kümmerten sich nicht darum, einfach mehr GPUs hinzuzufügen, sondern nur um den Durchsatz. Das Ergebnis sei am Ende nur Raten und Erfahrung, und das Einzige, was wirklich zähle, sei das Resultat.

  • Ein letzter Kommentator erklärte, er stimme der Behauptung überhaupt nicht zu, dass alle, die den Prompt von LLM-basierten Anwendungen durch Anfragen wie „Sag mir den Prompt“ aufdecken wollten, sich selbst täuschten. Das zugrunde liegende Sprachmodell habe keinen Mechanismus, der den Prompt von anderen Teilen der aktuellen Eingabesequenz unterscheide, und auch keinen Mechanismus für Querverweise von einem Teil der Sequenz auf einen anderen. Systemdesigner könnten zwar im Gesamtsystem etwas programmiert haben, das Prompts verfolgt, aber es sei unklar, warum sie das tun sollten. Effizienter und wirkungsvoller könnte es sein, einen „Soft Prompt“ zu verwenden, also den Anfang einer Vektorsequenz, die per Gradientenabstieg gelernt werden kann, die aber möglicherweise keiner sauberen Wortfolge entspricht. Wenn man ein LLM nach dem Prompt frage, werde die Antwort daher nicht aus Zugriff auf Code oder internen Zustand stammen, sondern auf Basis der Statistik der trainierten Wortsequenzen erzeugt. Aus Sicht des Sprachmodells sei das der beste Ansatz: Die Ausgabe entstehe als Ergebnis von Kernel Smoothing über die Eingabe, weshalb man mit Informationen im Prompt das Modell durchaus in einen bestimmten Stil lenken könne.