Reasoning großer Sprachmodelle: eine geometrische Perspektive

(arxiv.org)

1 Punkte von GN⁺ 2024-07-09 | 1 Kommentare | Auf WhatsApp teilen

Interpretiert die Reasoning-Leistung von LLMs nicht einfach als Frage der Modellgröße, sondern als Geometrie der Transformer-Schichten, und behandelt den Zusammenhang, dass die Dichte des Self-Attention-Graphen die intrinsische Dimension der MLP-Eingabe verändert
MLPs unterteilen den Eingaberaum in mehrere stückweise affine Regionen; je größer die intrinsische Dimension der Eingabe ist, desto mehr Regionen können sie erzeugen und desto feiner können sie nichtlineare Funktionen approximieren
Wenn im Attention-Graphen, der Tokens als Knoten betrachtet, die Zahl der Heads oder die Kontextlänge zunimmt, steigt die Graphdichte, und dadurch kann auch der Repräsentationsraum wachsen, den das MLP verarbeitet
In Experimenten mit GSM8K-Zero und Llama 3 8B/70B Instruct war beim Anhängen von 1 bis 10 Few-Shot-Beispielen die Zunahme der intrinsischen Dimension in der letzten Schicht stark mit einer höheren Trefferquote verknüpft
Eine Zunahme der intrinsischen Dimension in der ersten Schicht kann auch schon durch das Anhängen zufälliger Tokens auftreten und hat daher nur geringe Erklärungskraft; tatsächliche Verbesserungen beim Reasoning zeigen sich deutlicher, wenn relevanter Kontext die Repräsentationen der finalen Schicht anreichert

Warum Reasoning-Fähigkeit geometrisch betrachtet wird

In der praktischen Nutzung von LLMs ist die Verbesserung der Reasoning-Fähigkeit eine zentrale Aufgabe; Modelle wie GPT-4 und Llama 3 zeigen bei vielen Aufgaben starke Leistung
Bisherige Verbesserungsansätze lassen sich grob in zwei Richtungen einteilen
- Vergrößerung des Modells: Es gibt Beispiele, in denen größere Modelle bessere Reasoning-Fähigkeiten zeigen
- Verlängerung der Kontextlänge: Genutzt werden Verfahren, die die Eingabetokens erhöhen, etwa Chain of Thought, Retrieval Augmented Generation oder beispielbasiertes Prompting
Längere Eingaben und größere Modelle können in der Praxis Rechenkosten und Inferenzlatenz erhöhen
Diese Studie untersucht über die Geometrie von Transformer-Layern die Beziehung zwischen Ausdrucksstärke und Reasoning-Fähigkeit von LLMs
Die Kernfrage ist, wie sich Eingabesequenzlänge und Zahl der Attention-Heads auf die Geometrie von LLMs auswirken, insbesondere auf die intrinsische Dimension des Self-Attention-Blocks

Raumaufteilung und Ausdrucksstärke von MLPs

MLPs, die Nichtlinearitäten wie ReLU, Leaky ReLU, Absolutwert oder Max-Pooling verwenden, lassen sich als stetige stückweise affine Funktionen betrachten, die den Eingaberaum in mehrere Regionen unterteilen
Jeder Region ist eine affine Abbildung zugeordnet, die die Eingabe in diesem Abschnitt verarbeitet
- Ist die Zielfunktion in einem Abschnitt linear, reicht eine Region aus
- Ist die Zielfunktion nichtlinear, werden mehrere Regionen benötigt, um die Krümmung zu approximieren
In einem Toy-Experiment zur Approximation einer Sinusfunktion entstehen mehr Regionen und eine feinere Approximation, wenn die Zahl der Hidden Neurons von 50 auf 500 steigt
Wo die Regionen im Eingaberaum platziert werden, hängt von den Daten ab; Größe und Gleichmäßigkeit der Trainingsdaten sowie strukturelle Veränderungen können die Dichte der Aufteilung beeinflussen
Selbst bei gleicher Neuronenzahl wächst die Zahl der Regionen, die ein MLP erzeugen kann, exponentiell, wenn die intrinsische Dimension der Eingabe steigt

Wie intrinsische Dimension in Transformern entsteht

Ein Transformer-Layer eines kausalen LLM besteht aus Self-Attention, Multi-Head Attention, MLP, Residual Connection und Layer Normalization
Eine Attention Map lässt sich als Graph interpretieren, dessen Knoten Tokens sind und dessen Kanten-Gewichte Attention-Werte sind
Die Dichte des Self-Attention-Graphen bezeichnet den Grad der Verbindungen zwischen Tokens und steht mit der intrinsischen Dimension der MLP-Eingabe in Zusammenhang
Nach Theorem 2.1 liegt jede Zeile der Multi-Head-Attention-Ausgabe in der Minkowski-Summe der Single-Head Convex Hulls; die effektive Dimension ist durch die Summe der Tokenzahlen begrenzt, deren Attention-Wert in den jeweiligen Heads größer als 0 ist
Die in der Studie verwendete weiche intrinsische Dimension ist definiert als die Zahl der Tokens mit Attention-Werten über einem Schwellwert ε
- In den Experimenten wird ε anhand der Statistik und Verteilung der Attention-Werte festgelegt
- In allen Experimenten wird der Schwellwert auf 0,1 gesetzt

Wie Attention-Heads und Kontextlänge die Ausdrucksstärke erhöhen

Da die intrinsische Dimension der MLP-Eingabe durch die Attention Map bestimmt wird, kann ein dichterer Attention-Graph dazu führen, dass das MLP mehr Regionen erzeugt
Zwei Wege zur Erhöhung der intrinsischen Dimension werden genannt
- Erhöhung der Zahl der Attention-Heads: Die Effekte mehrerer Heads werden aufsummiert, wodurch die effektive Dimension steigen kann
- Prompt-Anpassung oder Kontexterweiterung: Durch Änderungen an der Eingabe kann die Dichte des Attention-Graphen erhöht werden
Ein One-Layer-LLM-Toy-Experiment approximiert eine Sinusfunktion mit der Struktur Embedding → Attention-Block → 1-Hidden-Layer-MLP
Beim Vergleich von Kontextlängen 10/100 und Head-Zahlen 1/10 nimmt die Zahl der Regionen, die das MLP im Eingaberaum erzeugt, mit wachsender Kontextlänge und Head-Zahl zu
Eine Änderung der Head-Zahl kann Pre-Training oder Fine-Tuning erfordern, während die Kontextlänge angepasst werden kann, ohne die Modellgewichte zu verändern

Experimente mit GSM8K-Zero und Llama 3

Die Experimente bewerten die Antwortleistung von LLMs auf Reasoning-Fragen mit dem Datensatz GSM8K-Zero
Die Bedingungen bestehen aus einer 0-Shot-Baseline und Prompt-Varianten mit 1 bis 10 Shots
- Die Few-Shot-Beispiele sind zufällig ausgewählte Frage-Antwort-Paare aus dem Training Set von GSM8K-Zero
- In Vergleichsexperimenten werden zufällige Tokens oder durchmischter Few-Shot-Beispieltext vorangestellt
Die untersuchten Modelle sind Llama3 8B Instruct und Llama3 70B Instruct
Der Base Prompt besteht aus rund 300 Samples aus GSM8K-Zero, bei denen falsche Antworten entstanden waren
Ob eine Antwort korrekt ist, wird durch Prompting des Modells Mixtral 8×22B Instruct bewertet

Die ID der letzten Schicht passt besser zur Leistung

Wenn Few-Shot-Beispiele vorangestellt werden, steigt die Wahrscheinlichkeit einer richtigen Antwort, sofern die intrinsische Dimension in der letzten Schicht zunimmt
Sowohl bei Llama3 8B als auch bei 70B Instruct zeigt sich die Tendenz, dass bei größerer Änderung der Final-Layer-ID der Anteil korrekter Antworten steigt
In der ersten Schicht kann die intrinsische Dimension unabhängig davon steigen, welche Art von Tokens angehängt wird
- Der Attention-Graph der ersten Schicht verhält sich über alle Tokens hinweg ähnlich wie eine uniforme Verteilung
- Das Random-Token-Experiment zeigt, dass eine ID-Zunahme in der ersten Schicht nicht zwangsläufig mit Reasoning-Leistung zusammenhängt
Unter der Random-Token-Bedingung war die ID-Zunahme begrenzt oder negativ, und der Anteil korrekter Antworten sättigte bei etwa 40%
In Figure 8, die mehrere Layer vergleicht, erweist sich die ID der letzten Schicht unabhängig von der Modellgröße als nützlicheres Signal dafür, ob die Antwort korrekt ist
In LLMs wird jedes Token, das von Self-Attention-Heads ausgegeben wird, im MLP unabhängig transformiert; ein MLP mit feinerer Partition kann auf jedes Token eine stärker adaptive affine Abbildung anwenden
Da Vorhersagen durch lineare Kombinationen eingebetteter Tokens erzeugt werden, können sich tokenweise Approximationsfehler akkumulieren; eine feinere Aufteilung in der Umgebung von Tokens kann den Approximationsfehler der finalen Vorhersage verringern
Wie intrinsische Dimension und Partitionen affiner Abbildungen mit der Generalisierungsfähigkeit von LLMs zusammenhängen, ist in dieser Studie und in den meisten verwandten Arbeiten bislang noch nicht ausreichend untersucht

1 Kommentare

GN⁺ 2024-07-09

Meinungen auf Hacker News

Der Wert von AI scheint einer Badewannenkurve zu ähneln. Auf niedriger Ebene ist sie eine extrem leistungsfähige Autovervollständigung, die 1 bis 3 Codezeilen ganz ordentlich schreibt; auf hoher Ebene ist sie gut darin, übergeordnete Konzepte zu erklären, die mit der aktuellen Aufgabe zusammenhängen.
Im mittleren Bereich funktioniert sie nicht gut. Wenn man sie einen mehrstufigen Plan erstellen lässt, sind die einzelnen Teile für sich genommen zwar in Ordnung, greifen aber nicht ineinander. AI hat kein Gespür dafür, dass „diese vier Teile eng zusammenhängen und ein Ganzes bilden müssen“; es fühlt sich eher so an, als würde sie beim Erstellen von vier Schritten von A nach B grob verschiedene Wege aneinanderkleben.
- Das ist keine Badewannenkurve. Aufgaben auf niedriger Ebene und „hoher“ Ebene sind letztlich dieselbe probabilistische Textgenerierung.
  Sie schlussfolgert weder über Code noch über die Erklärungen, die sie liefert. AI denkt nicht, erstellt kein internes Modell des gegebenen Problems und rät einfach. Der Grund, warum diese „mittleren“ Aufgaben scheitern, ist, dass für die richtige Antwort abstraktes Schlussfolgern nötig ist.
- Wenn man an die Trainingsdaten denkt, gibt es nicht besonders viele Beispiele für mehrstufige Pläne. Wenn die Struktur darin besteht zu lernen, wie Konzepte, also hochdimensionale Vektoren, ineinandergreifen, kann sie ohne genügend Beispiele für die nötigen Schlussfolgerungen nicht gut sein.
  Am Ende wird es besser werden, wenn sich synthetische Daten sowie Materialien wie gute Beschreibungen von Zielen und Code, der diese Ziele umsetzt, ansammeln.
- Die Achse „niedrige Ebene“ versus „hohe Ebene“ ist möglicherweise kein guter Maßstab, um AI zu bewerten. Man sollte auf diesen Maßstab den Kernel Trick anwenden und die Höhe der Ebene vom Problem mehrstufiger Planung trennen.
  Anders gesagt: Man sollte eine andere Dimension verwenden, um diese drei Probleme zu unterscheiden.
Ich weiß nicht, ob ihr euch an das Spiel „Mad Libs“ erinnert. Man füllt Lücken wie „Verb“, „Nomen“ oder „Adjektiv“ aus, und auf der nächsten Seite wird aus diesen Wörtern eine alberne Geschichte gemacht. Beim Einsetzen der ersten Wörter hat man keinen Kontext, sodass sie grammatikalisch zwar passen, im Kontext aber keinen Sinn ergeben; deshalb ist es lustig.
Ein LLM ist wie Mad Libs mit angehängtem Kontextprädiktor. Es erzeugt grammatikalisch korrekte Ausgaben, und weil statistische Korrelationen im Großen und Ganzen sinnvolle Ergebnisse hervorbringen, reduziert der Kontextprädiktor den Unsinn. Aber darin steckt kein „Schlussfolgern“, nur das Ausfüllen grammatikalischer Schablonen und statistische Autovervollständigung.
- Stimmt, aber es ist ein Autovervollständigungsmodell von nahezu unvorstellbarer Komplexität. Und ein erheblicher Teil menschlichen Schlussfolgerns ist in Text statistisch vorhersagbar, sodass man allein mit einem guten Autovervollständigungsmodell tatsächlich schlussfolgerungsähnliches Verhalten erhalten kann.
  Nur weil es nicht in allen Fällen funktioniert, sollte man nicht unterschätzen, wie erstaunlich gut es funktioniert und wie überraschend schon die Tatsache ist, dass es überhaupt funktioniert. Der Kern des Originaltexts liegt ebenfalls darin zu untersuchen, wie aus einem ausreichend großen Autovervollständigungsmodell so etwas wie Schlussfolgern entsteht.
- „Nur das Ausfüllen grammatikalischer Schablonen und statistische Autovervollständigung“ ist die Hypothese vom stochastischen Papagei, und sie wird jedes Mal wiederholt, wenn ein LLM-Paper auf HN auftaucht.
  Diese Hypothese bleibt nicht bei einer philosophischen Behauptung stehen, sondern erzeugt falsifizierbare Vorhersagen, und Experimente haben sie ausreichend widerlegt. LLMs haben ein Weltmodell. Ein bekanntes Paper zu diesem Thema ist OthelloGPT; neuer ist Transformers Represent Belief State Geometry in their Residual Stream.
- Ich verstehe nicht, warum Menschen weiterhin so überzeugt sind, dass „Schlussfolgern“ keine Form von Ausfüllen grammatikalischer Schablonen und statistischer Autovervollständigung ist.
- Ich sehe Schlussfolgern als hinreichend weit entwickelte grammatikalische Schablonenfüllung und statistische Autovervollständigung.
  Erwähnenswert ist auch, dass grammatikalische Transformationen Turing-vollständig sind: https://wiki.c2.com/?RewriteRules
- Auf Basis dieser Idee, genauer gesagt von ad-libs, habe ich eine TypeScript-Bibliothek zum Ausfüllen von Lücken mit LLMs benannt: https://github.com/gsuuon/ad-llama/
Die Diskussion scheint zwei Seiten zu haben. Da ist die Sichtweise, dass das Modell durch das Aufnehmen enormer Textmengen irgendwie Schlussfolgerungsfähigkeit entwickelt hat – also dass nach der Sprache das Schließen entstand.
Umgekehrt gibt es die Sichtweise, dass die Schlussfolgerungen bereits von Menschen vollzogen und schriftlich festgehalten wurden, sodass das Modell bei einer Frage wie „Hätte Romeo nach Julia eine andere Liebe suchen müssen?“ einfach die Menge an Schlussfolgerungen widerspiegelt, die in Milliarden englischsprachiger Literaturaufsätze enthalten ist. Übersehe ich da etwas?
- Diese beiden Perspektiven wirken wie zwei Seiten derselben Medaille. Ein LLM wird im Kern darauf trainiert, Text zu vervollständigen, und Training ist der Prozess, innerhalb der gegebenen Modellstruktur und Parameterzahl die effektivste Methode dafür zu finden.
  Wenn man bei „Ein LLM nimmt enorme Textmengen auf“ ansetzt, kann ein einfaches Modell Text durch Auswendiglernen vervollständigen. Um 234 * 452 = korrekt zu vervollständigen, ist es jedoch viel einfacher, tatsächlich zu rechnen, als alle möglichen Multiplikationen auswendig zu lernen. Ebenso kann ein Modell von Menschen geschriebene Sätze besser vervollständigen, wenn es die Welt versteht und Schlussfolgerungen ziehen kann. Daher kann man erwarten, dass ein ausreichend gut trainiertes Modell, das genug Parameter dafür hat, aber nicht so viele, dass es bloß überangepasst ist, bis zu einem gewissen Grad Schlussfolgerungsfähigkeit entwickelt.
  Wenn man bei „Im Trainingssatz steckt viel Schlussfolgern“ ansetzt, kann man schon auf der Stufe des Auswendiglernens Ergebnisse erhalten, die wie Schlussfolgern aussehen. Doch das Argument, dass das Modell tatsächliches Schlussfolgern entwickeln wird, bleibt weiterhin gültig und wird sogar stärker. Wenn man die Argumentation einer Person vervollständigen muss, ist das deutlich einfacher, wenn man ihrem Gedankengang folgen kann.
- Es lohnt sich, sich breiter angelegte Reasoning-Tests anzusehen, die heute für LLMs verwendet werden, etwa MuSR. Da die Fragen neu erstellt werden, lässt sich das offensichtlich schwer allein mit der zweiten Erklärung erklären: https://arxiv.org/abs/2310.16049
- Warum ein solches Modell „schlussfolgern“ kann – oder genauer gesagt, komplexe Konzepte handhaben kann –, ist ziemlich intuitiv. Beim Verarbeiten riesiger Textmengen bildet es interne Repräsentationen, in denen Konzepte als einfache Knoten dargestellt werden, also als Neuronen oder Bündel von Neuronen.
  Dadurch destilliert es tatsächlich Wissen. Man kann es auch als eine sehr gute Hauptkomponentenanalyse betrachten, die mehrere wichtige Aspekte herauszieht, oder als automatisch erzeugten semantischen Graphen. Sobald Wissen destilliert ist, lässt sich darauf leicht aufbauen, indem man Konzepte kombiniert. Ein besonderes Geheimnis gibt es nicht.
- Beim Überfliegen des Papers wirkt es so, als würde es dieses Problem zwar erkennen, aber ein Stück weit darüber hinweggehen.
  Es heißt ausdrücklich, dass Approximationsfähigkeit und Generalisierung nicht dasselbe Konzept sind. Ob die Schlussfolgerungsfähigkeit von LLMs mit Generalisierung zusammenhängt, sei jedoch noch nicht entschieden; und weil diese Konzepte weiterhin schwer präzise zu fassen sind, konzentriert sich der experimentelle Teil auf die intrinsische Dimension, also auf die Beziehung zwischen Ausdrucksstärke und Schlussfolgerungsfähigkeit.
- In dem Wort widerspiegelt in „Das Modell spiegelt diese Antwort wider“ steckt eine Menge Arbeit. Ist es wirklich so einfach?
  Bedeutet das, dass das Modell die Sichtweise eines bestimmten literaturkritischen Essays übernimmt, den es „gelesen“ hat? Oder nimmt es eine Art „durchschnittliche“ Sichtweise des Ganzen ein? Wie ließe sich überhaupt eine „durchschnittliche“ Sichtweise zu einem Thema definieren?
  Das ist eine interessante Frage, die den Kern dessen trifft, was ein LLM ist; dieses Paper ist jedoch deutlich enger fokussiert und wird darauf vermutlich keine Antwort geben.
Was hat Reasoning mit Geometrie zu tun? Ist es ähnlich wie die Vorstellung, dass unterschiedlichen Konzepten eine intrinsische geometrische Form innewohnt? Eine platonische oder intellektualistische Sicht auf die Geometrie der Vernunft? Ich hatte Schwierigkeiten, den Paper gut zu verstehen.
- Nachdem ich den Paper noch etwas weiter gelesen habe, hier eine Ergänzung dazu, wo die Geometrie ins Spiel kommt.
  Einer der vom Paper zitierten Texte, dieser Paper[1], zeigt, dass nichtlineare Schichten moderner Deep Neural Networks die Eingabe in Regionen aufteilen und pro Region eine affine Abbildung[2] anwenden, um die Ausgabe zu erzeugen. Er behandelt auch, wie das mit Vektorquantisierung und k-Means-Clustering zusammenhängt.
  Die geometrische Perspektive meint hier also nicht Schulgeometrie, sondern abstraktere Konzepte wie Vektorräume[3] oder kombinatorische algorithmische Geometrie[4].
  Der eingereichte Paper zeigt, dass diese Partitionierung direkt mit der Approximationsfähigkeit neuronaler Netze zusammenhängt. Anschließend wird dargelegt, dass mit wachsender Approximationsfähigkeit die Antworten auf mathematische Textaufgaben besser werden und dass die Approximationsfähigkeit daher mit der Reasoning-Fähigkeit von LLMs korreliert.
  [1]: https://arxiv.org/abs/1805.06576v2
  [2]: https://en.wikipedia.org/wiki/Affine_transformation
  [3]: https://en.wikipedia.org/wiki/Vector_space
  [4]: https://en.wikipedia.org/wiki/Computational_geometry#Combina...
- Moderne neuronale Netze verwenden viel lineare Algebra, insbesondere die Transformer-[1]Architektur, die moderne LLMs antreibt.
  Da lineare Algebra eng mit Geometrie[2] verbunden ist, ist es ziemlich naheliegend, dass es geometrische Aspekte gibt, die Fähigkeiten und Leistung bestimmen.
  In diesem Paper betrachten sie konkret die intrinsische Dimension[3] der Attention-Schicht und untersuchen, wie sie mit der Leistung von LLMs korreliert.
  [1]: https://en.wikipedia.org/wiki/Transformer_(deep_learning_arc...
  [2]: https://en.wikipedia.org/wiki/Linear_algebra#Relationship_wi...
  [3]: https://en.wikipedia.org/wiki/Intrinsic_dimension
- Die Vorstellung, dass „unterschiedlichen Konzepten eine intrinsische geometrische Form innewohnt“, stimmt. Tatsächlich kann man auf diesem Konzept sogar Grundlagen der Mathematik aufbauen und auch „Reasoning“ und Beweise in einem bestimmten Sinn konstruieren.
  Abhängige Typsysteme funktionieren auf diese Weise. Suchen Sie nach HoTT und modaler Homotopietheorie. Lean4, Coq und Theorem Proving funktionieren ebenfalls auf diese Weise.
  Wenn man an die Grundlagen des Lambda-Kalküls oder der Booleschen Algebra denkt, behandelt man mathematische Objekte, die auf Gittern oder Halbverbänden partiell geordneter Mengen organisiert sind, als eine Reihe von Transformationen. In der Booleschen Algebra liefert zum Beispiel die Implikation eine partielle Ordnung.
  Es wäre interessant zu verstehen, ob die Dichte des Attention-Mechanismus einem ähnlichen Verlauf folgt wie ein abhängiges Typsystem, und ob es zwischen den an Beweisen beteiligten abhängigen Typen und den entsprechenden Räumen innerhalb eines LLM eine Verbindung gibt – über eine stetige Relaxierung ähnlich einem Proximaloperator sowie Transformationen von High-Level-Konzepten zu Output-Tokens.
  Wir haben bereits gesehen, dass Geometrie in Embeddings Bedeutung hat. Bestimmte einfache Konzepte entsprechen Vektorrichtungen. Es wäre überhaupt nicht überraschend, wenn Reasoning über abhängige Konzepte komplexen Unterräumen des Pfads entspricht, den ein LLM durchläuft, und wenn diese Verbindung bei ausreichendem Training der logischen Struktur des entsprechenden Beweises immer näher kommt.
- Das sagt dieser Paper zwar nicht aus, aber man könnte daraus einen synthetischen Benchmark im Stil von AlphaGeometry[1] bauen: Eine Geometrie-Engine erzeugt 100 Millionen Textaufgaben, die ein LLM lösen muss.
  Geometrieaufgaben lassen sich leicht maschinell erzeugen und lösen, aber es gibt keinen besonderen Grund, warum ein gewöhnliches Transformer-LLM darin besonders gut sein sollte; zugleich lässt sich der Umfang enorm skalieren. Anders als bei Benchmarks wie HumanEval mit nur 164 Aufgaben lässt sich so auch leichter die Kritik vermeiden, das LLM habe die Antworten auswendig gelernt.
  1: https://deepmind.google/discover/blog/alphageometry-an-olymp...
- Es scheint um Word Embeddings zu gehen. Hier wird Kontext in einen hochdimensionalen geometrischen Raum eingebettet, und bestimmte Dimensionen können etwa erfassen, wie „weiblich“ ein Wort ist oder wie „nah an Blau“ es ist.
Ich frage mich, was hier mit Region gemeint ist, ob mehr Regionen besser sind, wie Regionen unterschieden werden und ob eine einzelne Region dasselbe Konzept sein kann wie mehrere verwandte Regionen.
- Nach meinem Verständnis sind Regionen die Teile, die eine Partition des Eingaberaums bilden, also Teile des durch Gewichte gebildeten Vektorraums. Ab Abschnitt 3.1 des zitierten Papers[1] gibt es dazu mehr Details.
  Die These dieses Papers ist, dass die Schichten gewöhnlicher Deep Neural Networks den Eingaberaum in mehrere Regionen aufteilen und jede Region ihre eigene affine Abbildung auf die Eingabe besitzt.
  Bei einer beliebigen Aktivierungsfunktion müsste man sowohl die Partition selbst als auch die Parameter der affinen Abbildung je Region finden. Da gängige Aktivierungsfunktionen jedoch global konvex sind, zeigen die Autoren, dass man dies nutzen kann, sodass die Partition vollständig durch die Parameter der affinen Abbildungen pro Region bestimmt wird.
  Die Ausgabe der Schicht für eine Eingabe x wird damit zu einer „partitions- und regionsabhängigen, stückweise affinen Transformation“ von x. Die Parameter der affinen Abbildung sind im Grunde das, was sich während des Trainings verändert; entsprechend ändern sich während des Trainings auch Anzahl und Form der Regionen.
  Der eingereichte Paper zeigt, dass die Approximationsfähigkeit einer neuronalen Netzschicht mit der Anzahl der Regionen steigt. Wenn man das Obige bedenkt, ist das an sich nicht überraschend, wird hier aber als wichtiger Zwischenschritt genutzt.
  [1]: https://arxiv.org/abs/1805.06576v2
Wie bei vielen philosophischen Diskussionen bringt es wenig zu behaupten, dass LLMs „schlussfolgern“ können. Denn „schlussfolgern“ ist kein klar definierter Begriff, und nicht alle werden sich auf eine einzige Definition einigen
Fragt man einen Informatiker, einen Kontinentalphilosophen und einen Anthropologen, was „Schlussfolgern“ ist, bekommt man völlig unterschiedliche Antworten
Wenn man darunter deduktives Schließen wie in der Mathematik und induktives Schließen wie in der Wissenschaft versteht, gibt es keinen Beleg dafür, dass LLMs so etwas tun. Es gibt auch keinen Grund zu glauben, dass rein sprachliches Pattern Matching alles nachahmen kann, was wir menschliches Denken nennen. Um das zu behaupten, müsste man „Denken“ extrem eng definieren und ignorieren, dass wir verkörperte Intelligenzen sind und uns selbst auf transparente, vielleicht sogar vorsprachliche Weise kennen können. Solange KI nicht verkörpert ist und dasselbe leisten kann, glaube ich nicht, dass sie wie Menschen „denkt“ oder „schlussfolgert“. Es bleibt ein sehr beeindruckender statistischer Taschenspielertrick
- https://transformer-circuits.pub/2022/in-context-learning-an...
  Es gibt viele Belege dafür, dass sie Induktion betreiben
- Das mag stimmen, aber warum ist das wichtig, „wenn es gut genug ist“? Wenn ich nicht unterscheiden kann, ob ein Nutzer, der in Slack/Teams Tickets pünktlich bearbeitet und ordentliche Codequalität liefert, ein LLM oder ich bin, dann ist mir ziemlich egal, ob diese Entität sich selbst auf transparente, vorsprachliche Weise kennt
„Pack einfach mehr Dimensionen rein, Bro!“
Ich bin nicht aus dem KI-Bereich, schaue aber gern von der Seitenlinie zu. Nachdem ich das Paper überflogen habe, würde ich es aus Laiensicht so zusammenfassen; korrigiert mich gern, wenn etwas falsch ist
Moderne neuronale Netze, etwa die in LLMs verwendeten Multi-Layer-Perceptron[1]-Schichten, teilen Eingaben im Kern in mehrere Regionen auf. Die Anzahl der Regionen, die eine einzelne MLP-Schicht aufteilen kann, hängt exponentiell von der intrinsischen Dimension[2] der Eingabe ab; die Zahl der Regionen/Partitionen scheint die Approximationsfähigkeit der MLP-Schicht zu erhöhen
Daher kann man die Eingabe gewissermaßen „destillieren“ und die Approximationsfähigkeit einer MLP-Schicht stark erhöhen, ohne die Zahl der Neuronen zu steigern
In der Transformer-Architektur ist die Eingabe der MLP-Schicht eine Self-Attention[3]-Schicht. Die Autoren zeigen, dass die Graphdichte der Self-Attention-Schicht stark mit der intrinsischen Dimension der Self-Attention-Schicht korreliert. Anders gesagt: Je dichter die Self-Attention-Schicht ist, desto besser kann die MLP arbeiten
Eine Möglichkeit, die Dichte der Attention-Schicht zu erhöhen, besteht darin, mehr Kontext hinzuzufügen. Wenn man vor die Frage beliebige Tokens als Kontext setzt und dadurch die intrinsische Dimension der letzten Schicht erhöht, scheint sich die Leistung des LLMs zu verbessern
Außerdem schreiben sie, dass sich Approximationsfehler in Transformer-Architekturen leicht akkumulieren und dass feinere Partitionierungen durch MLP-Schichten mit Eingaben hoher intrinsischer Dimension dabei helfen können. Welche Auswirkungen das auf die Generalisierung hat, müsse jedoch weiter untersucht werden
Wenn die Ergebnisse Bestand haben, scheint dieses Paper gute Einsichten dafür zu liefern, LLM-ähnliche neuronale Netze besser zu optimieren
[1]: https://en.wikipedia.org/wiki/Multilayer_perceptron
[2]: https://en.wikipedia.org/wiki/Intrinsic_dimension
[3]: https://en.wikipedia.org/wiki/Transformer_(deep_learning_arc...
- Intuitiver wird es, wenn man Dichte als die Anzahl der Kanten versteht, die Tokens im Attention-Graphen verbinden. Einfacher gesagt: die Anzahl der Verbindungen, die Tokens zu anderen Tokens haben, geteilt durch die Zahl der Tokens
  Daher sind Tokens gut, die tatsächlich miteinander zusammenhängen und Informationen liefern; irrelevante Tokens helfen dagegen nicht
  Die Formulierung „Wenn man vor die Frage beliebige Tokens als Kontext setzt, verbessert sich die Leistung des LLMs“ scheint mir nicht ganz korrekt. Das Paper stellt fest, dass das Voranstellen beliebiger Arten von Tokens vor die aktuelle Frage zwar die intrinsische Dimension der ersten Schicht erhöht, dieser Anstieg aber nicht zwangsläufig mit der Schlussfolgerungsfähigkeit des Modells korreliert
  Nur wenn die vorangestellten Tokens die intrinsische Dimension der letzten Schicht des Modells erhöhen, verbessert sich die Schlussfolgerungsfähigkeit des LLMs deutlich
- Könnte die Zahl der verschiedenen Regionen, die von Interesse sind, nicht eine Teilmenge der Vapnik–Chervonenkis-Dimension[a] der Daten sein, im Extremfall sogar identisch?
  Im Originaltext wird die VC-Dimension nicht erwähnt
  [a] https://en.wikipedia.org/wiki/Vapnik%E2%80%93Chervonenkis_di...

Reasoning großer Sprachmodelle: eine geometrische Perspektive

Warum Reasoning-Fähigkeit geometrisch betrachtet wird

Raumaufteilung und Ausdrucksstärke von MLPs

Wie intrinsische Dimension in Transformern entsteht

Wie Attention-Heads und Kontextlänge die Ausdrucksstärke erhöhen

Experimente mit GSM8K-Zero und Llama 3

Die ID der letzten Schicht passt besser zur Leistung

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News