1 Punkte von GN⁺ 2024-10-04 | 1 Kommentare | Auf WhatsApp teilen
  • Transformer haben das Deep Learning seit 2017 neu geprägt, doch bei langen Sequenzen steigen die Kosten der Self-Attention stark an, sodass parallel trainierbare rekurrente Modelle wieder mehr Aufmerksamkeit erhalten
  • LSTM und GRU, die in den 20 Jahren vor dem Transformer breit für Sequence Modeling verwendet wurden, können parallel trainierbar werden, wenn die Abhängigkeit der Gates vom vorherigen Zustand reduziert wird
  • Die vereinfachten minLSTM und minGRU haben weniger Parameter als klassische LSTM- und GRU-Modelle, lassen sich während des Trainings vollständig parallelisieren und zeigen bei verschiedenen Aufgaben eine konkurrenzfähige Leistung gegenüber aktuellen Modellen einschließlich Transformern
  • Die Effizienzsteigerung von Transformern entwickelte sich über Sparsity, Low-Rank-Approximation und Tiling weiter; in jüngerer Zeit zeigen auch alternative rekurrente Modelle wie State-Space-Modelle, linearisierte Attention und lineare RNNs starke Leistung
  • Dank der wenigen Zeilen umfassenden plain-PyTorch-Implementierung im Anhang können minGRU und minLSTM als leichtgewichtige Modelle gelten, mit denen Anfänger, Praktiker und Forschende leicht experimentieren können

Rekurrente Modelle rücken nach dem Transformer wieder in den Fokus

  • RNNs werden seit den 1990er-Jahren breit für Sequence-Modeling-Aufgaben wie maschinelle Übersetzung und Textgenerierung eingesetzt
    • Repräsentative Modelle sind LSTM (1997) und GRU (2014)
    • Aufgrund ihrer grundsätzlich sequentiellen Struktur ist die Parallelisierung eingeschränkt, und beim Training auf langen Sequenzen sinkt die Recheneffizienz leicht
  • Der Transformer führte 2017 mit Self-Attention einen Mechanismus für paralleles Training ein und war damit im Sequence Modeling schnell erfolgreich
    • Danach wurde er nicht nur auf große Sprachmodelle, sondern auch auf Computer Vision, Reinforcement Learning und Bioinformatik ausgeweitet
    • Self-Attention modelliert Interaktionen zwischen Tokens, doch die Rechenkomplexität steigt quadratisch mit der Sequenzlänge
    • Bei langen Sequenzen oder in ressourcenbeschränkten Umgebungen können die Kosten stark ansteigen
  • Die Forschung zur Effizienzsteigerung von Transformern verlief in mehreren Richtungen
    • Sparsity
    • Low-Rank-Approximation
    • Tiling
  • In jüngerer Zeit erleben besser skalierende, parallelisierbare rekurrente Modelle ein Comeback
    • State-Space-Modelle
    • linearisierte Attention
    • lineare RNNs
    • Diese modernen rekurrenten Modelle nutzen inputabhängige Transitionen und zeigen ähnlich starke Leistung wie Transformer
    • Sie werden nicht nur für große Sprachmodelle, sondern auch auf bild- und graphbasierte Daten angewendet

Die Kernidee von minLSTM und minGRU

  • Diese Arbeit betrachtet LSTM und GRU, die lange vor dem Transformer verwendet wurden, erneut aus historischer Perspektive
  • Beide Modelle lassen sich als frühe Beispiele inputabhängiger rekurrenter Modelle verstehen
  • Entfernt man die Abhängigkeit der Gates vom vorherigen Zustand, werden auch LSTM und GRU parallel trainierbar
  • Durch zusätzliche Vereinfachung entstehen Minimalversionen namens minLSTM und minGRU
    • Sie haben weniger Parameter als klassische LSTM- und GRU-Modelle
    • Sie lassen sich während des Trainings vollständig parallelisieren
    • Trotz ihrer einfachen Struktur zeigen sie bei mehreren Aufgaben konkurrenzfähige Leistung
    • Zu den Vergleichsmodellen gehören auch aktuelle Modelle einschließlich Transformer
  • Dieses Ergebnis stellt die Tendenz infrage, Modellstruktur und algorithmische Komplexität immer weiter zu erhöhen
  • Im Anhang ist eine plain-PyTorch-Implementierung von minGRU und minLSTM in nur wenigen Zeilen Code enthalten
    • Die Modelle sind leichtgewichtig und einfach anzupassen
    • Sie sind für Anfänger, Praktiker und Forschende leicht nutzbar

1 Kommentare

 
GN⁺ 2024-10-04
Meinungen auf Hacker News
  • Wenn man rekurrente Strukturen als IIR-Filter und reine Feedforward-Strukturen als FIR-Filter betrachtet, scheint es viele Parallelen zur digitalen Signalverarbeitung zu geben.
    IIR-Filter benötigen für dieselbe Antwort oft deutlich weniger Elemente als FIR-Filter, während FIR-Filter tendenziell einfacher zu implementieren, zu steuern und zu messen sind.
    Es fühlt sich so an, als ähnelten Hardware für Festkommaarithmetik und ML-Strukturen, die gut auf GPUs laufen; und wenn KI wirklich in eine beängstigende exponentielle Phase gelangen soll, scheint grundsätzlich eine rekurrente Struktur nötig zu sein.
    LSTM wirkt in dieser Analogie eher wie ein Zwischen-Hack, ähnlich einem FIR mit dynamischen Koeffizienten; langfristig scheint ein neuromorpher Ansatz in puncto Effizienz am besten zu sein.

    • Aus Sicht der Signalverarbeitung hat die IIR-Ausgabe je nach Polstellenlage der z-transformierten Filterübertragungsfunktion nur einen engen Stabilitätsbereich und muss daher normalerweise sorgfältig entworfen werden.
      Andernfalls fällt ein IIR-Filter exponentiell gegen 0 ab oder wächst exponentiell gegen unendlich.
      RNN-Zellen wie LSTMs sind eher Dämpfungsfilter, denen nichtlineare Gates hinzugefügt wurden, um die Dämpfung zu verhindern und etwas zu „erinnern“.
      FIR-Filter sind viel einfacher zu entwerfen und können auch ohne solche Hacks Gedächtnis enthalten.
    • Es wäre schön, wenn jemand leicht verständlich erklären könnte, was ein neuromorpher Ansatz ist und wie er zu KI/AGI beiträgt.
      Als Laie ist mein erster Eindruck, dass es nicht einfach darum geht, Neuronen zu simulieren, sondern eher einer Idee im Stil von 《The Society of Mind》 ähnelt, bei der mehrere „Agenten“ oder Subsysteme auf unterschiedliche Weise interagieren.
    • Ich dachte eine Zeit lang, dass KI ohne eine grundsätzlich rekurrente Struktur nicht in eine beängstigende exponentielle Phase gelangen könne, aber inzwischen frage ich mich, ob nicht schon riesige Kontextfenster ausreichen könnten.
      Rekurrenz mag neuromorpher und langfristig wichtig sein, ist für Superintelligenz aber vielleicht nicht zwingend erforderlich.
      Allerdings bin ich ein Laie mit nur oberflächlichem Wissen dazu und könnte völlig falschliegen.
    • Ich frage mich, ob sich IIR-Filter in Strukturen wie heutigen GPUs in großem Maßstab mit guter Performance und Skalierbarkeit implementieren lassen.
  • Dem gesamten Feld scheint es am Long-Horizon-Problem zu mangeln.
    Der derzeit weit verbreitete Lösungsansatz ist Skalierung, aber er reicht nicht einmal annähernd an die Zeithorizonte heran, die das Gehirn eines kleinen Säugetiers verarbeitet.
    Modelle können Billionen von Parametern haben, aber bei langfristigen Aufgaben und Effizienz dürfte das Gehirn einer Maus immer noch gewinnen.
    Es gibt dort offenbar kleine, einfache und elegante Suchalgorithmen, die innerhalb eines kleinen Rechenbudgets nahezu optimale Pfade finden und kontinuierlich weiterlernen.
    Ich bin fast neidisch darauf, dass zukünftige Ingenieure solche Probleme eines Tages vielleicht in einem Jupyter-Notebook mit 100 Zeilen auf einem Laptop lösen werden.
    Wenn man Methoden oder Algorithmen findet, die für Long-Horizon-Probleme geeignet sind, könnte vielleicht schon ein Modell mit 2 Milliarden Parametern heutige Modelle in allen Bereichen schlagen, außer bei kurzen und extremen Inferenzproblemen.
    Als möglichen Lösungsweg habe ich darüber nachgedacht, eher die Dimensionalität des Modells über die Zeit zu erweitern, statt perfekte Gewichte anzustreben.
    Je höher die Dimensionalität, desto größer die theoretische Speicherkapazität; das könnte einem zweischichtigen Modell ähneln, bei dem eine Schicht wie eine Überlagerung vieler Ausreißer funktioniert und eine andere Schicht weiß, wie sie diese nutzt.
    Wenn man annimmt, dass die Verlustlandschaft mehrere Minima für bestimmte Aufgaben enthält, könnte man das Modell bei Bedarf rekonfigurieren und zwischen diesen Minima bewegen, um ein einzelnes Modell mit nahezu unendlich vielen lokalen Minima zu schaffen – also mit höherdimensionalem Gedächtnis.
    Wenn das menschliche Gehirn täglich Tausende Verbindungen bildet und kappt, könnten diese Verbindungen vielleicht die interne Verlustlandschaft zwischen den verschiedenen Minima steuern, die im Lauf eines Tages benötigt werden.

    • Genau, dem Feld fehlt der Heilige Gral, das Long-Horizon-Problem.
      Aber für die Klassifizierung von Spam-Mails braucht man kein Mausgehirn.
      Große Modelle mit mehr als 2 Milliarden Parametern sind weiterhin eher Spezialwerkzeuge, die zu schwer sind, um sie praktisch zu betreiben; es gibt viel Raum für clevere kleine Modelle, die auf begrenzter Hardware und mit begrenzten Datensätzen nur nützliche Probleme lösen.
      Modelle, deren Größe sich je nach Bedarf ändert, wurden ebenfalls bereits erprobt, waren bei begrenztem Energiebudget aber zu ineffizient oder zu schwer zu optimieren.
      Trotzdem wird man solche Modelle wahrscheinlich irgendwann brauchen, wenn man immer weiter in größere Größenordnungen skalieren will.
      Der eigentliche Flaschenhals könnte ein Durchbruch beim Training selbst sein.
      Der Backpropagation-Loss ist zu simpel, um selbst heutige Modelle perfekt zu optimieren, und für noch größere Modelle der Zukunft erst recht unzureichend.
      Da es keine Garantie gibt, dass eine bessere Alternative existiert, könnten die heutigen Machine-Learning-Ansätze eine feste Grenze haben.
  • Dass Diskussionen über mehrere Orte verstreut sind, ist Vor- und Nachteil zugleich
    Ein Beitrag von François Chollet, den ich auf Twitter/X gesehen habe, war interessant: https://x.com/fchollet/status/1841902521717293273
    „Interessante Arbeit zur Wiederbelebung von RNNs. https://arxiv.org/abs/2410.01201 — Die Tatsache, dass neuere Architekturen, die allgemein aus unterschiedlichen Richtungen kommen, ungefähr mit Transformern gleichziehen, ist ein Beleg dafür, dass im Curve-Fitting-Paradigma, also im Deep Learning, die Architektur grundsätzlich nicht entscheidend ist
    Curve Fitting bedeutet, einen Datensatz auf einer Kurve einzubetten. Der entscheidende Faktor ist der Datensatz, nicht bestimmter fest codierter Zierrat, der die Form der Kurve einschränkt. Wenn die Kurve ausdrucksstark genug ist, konvergieren in einer Umgebung mit großen Datenmengen alle Architekturen zur gleichen Leistung“

    • Der Aussage „Der entscheidende Faktor ist der Datensatz, nicht bestimmter fest codierter Zierrat, der die Form der Kurve einschränkt“ widerspreche ich weitgehend
      Datensätze gibt es schon lange in großen Mengen, und die Fortschritte der letzten zehn Jahre kamen daraus, wie man die Kurve entwirft und an die Daten anpasst und wie man mehr Rechenleistung einsetzt
      Vielleicht hat es theoretisch eine Bedeutung, dass ältere Modelle mit etwa millionenfach mehr Rechenaufwand neue Probleme genauso lösen könnten, aber das „bloß Optimierung“ zu nennen, ignoriert die Bedeutung der Komplexitätsanalyse im Algorithmendesign und ist ungefähr so, als würde man sagen, bogosort und quicksort seien gleich
      Wenn man Schicht um Schicht Regularisierungstechniken zur Verringerung von Overfitting einbaut und sogar stärker agentenartige Strukturen wie Deep Q Learning oder das Design des Suchraums von OpenAI o1 berücksichtigt, ist die Sichtweise einer bloßen Optimierung wenig überzeugend
      Allein durch mehr Rechenleistung hätten alte Architekturen solche Probleme nicht lösen können
    • Ich habe das Paper nicht vollständig gelesen, aber es scheint stärker auf Rechenoptimierung als auf die Größe des Datensatzes fokussiert zu sein
      Darin steht etwa: „während des Trainings vollständig parallelisierbar und bei Sequenzen der Länge 512 175-mal schneller“
      Selbst wenn verschiedene Architekturen mit der Zeit zum gleichen Loss konvergieren, ist es angesichts der Kosten großer GPU-Cluster ziemlich wertvoll, die Architektur zu finden, die am schnellsten konvergiert
    • Eine wichtige Rolle vieler solcher Zusätze besteht darin, den Trainingsraum zu beschränken
      CNNs haben Computer Vision nicht deshalb dominiert, weil sie etwas konnten, was dichte neuronale Netze nicht konnten, sondern weil sie viele wenig wichtige Verbindungen entfernten und so das Trainingsbudget für tiefere Netzwerke nutzbar machten
      Ebenso sind Transformer deshalb hervorragend, weil sie es ermöglichen, riesige Netzwerke einigermaßen effizient zu trainieren
      Auch dieses Paper zeigt, dass RNNs in der Praxis ziemlich gut sein können, wenn man ihr Training deutlich schneller macht
      Der große Engpass ist Trainingsgeschwindigkeit und -effizienz, nicht die tatsächliche Ausdrucksstärke der Architektur
    • Wenn man bedenkt, dass MLPs universelle Funktionsapproximatoren sind, wirkt das ziemlich naheliegend
      Auch ein riesiges MLP könnte dieselben Ergebnisse wie ein Transformer liefern
      Das Problem ist die Skalierung, nämlich dass man ein ausreichend großes MLP nicht trainieren kann
      Transformer sind nützlich, weil sie eine Performance-Optimierung darstellen
    • Am Ende dürfte der Kernpunkt Recheneffizienz sein
      Man will nicht einmal im Monat neu trainieren, sondern kontinuierlich nachtrainieren, und man will nicht, dass ein Agent mit fünf LLMs spricht, sondern dass Tausende von LLMs zusammenarbeiten
  • Die Antwort scheint eher „nein“ zu sein
    Solche RNNs sind in manchen Fällen vielleicht gut genug und können Transformer in einigen Fällen auch schlagen, aber sie werden Transformer bei LLMs wohl nicht allgemein ersetzen
    Wenn ein Nutzer zum Beispiel einen langen Text eingibt und sagt: „Übersetz das ins Deutsche“, kann ein Transformer die gesamte Historie noch einmal betrachten
    Bei einem RNN ist selbst bei unbegrenzter Kontextlänge die Informationsmenge, an die es sich zu einem beliebigen Zeitpunkt erinnert, auf das beschränkt, was im Hidden State enthalten ist
    Zugehöriges Paper: https://arxiv.org/abs/2402.01032

    • Dass „die Menge der erinnerten Informationen auf den Hidden State beschränkt ist“, ist bei Transformern nicht anders
      Auch Transformer sind letztlich an einen endlichen Zustand gebunden, nur ist dieser Zustand anders organisiert
    • Dieses Problem plagt RNNs seit den 90er-Jahren
      Es gibt ein Problem der Informationspräzision dazu, wie viele Bits ein alter Zustand weitergeben muss, ein Dämpfungsproblem, bei dem ältere Informationen schwächer werden, und ein Mischungsproblem, bei dem Repräsentationen vermischt oder addiert werden
    • Das Gegenargument lautet, dass man bei ausreichend großem Hidden State eine komprimierte Repräsentation von Sequenzen beliebiger gewünschter Länge speichern kann
      Interessant ist, ob RNNs bei festgelegter Anzahl von Gleitkommaoperationen mit Transformern konkurrieren können; das ursprüngliche Paper scheint diesen Punkt aber nicht richtig zu behandeln
    • Nach einem langen Text muss man nicht „Übersetz das ins Deutsche“ schreiben
      Stattdessen kann man „Übersetz Folgendes ins Deutsche“ schreiben; dann muss man sich nur an die aktuelle Aufgabe und eine deutlich kleinere Menge jüngerer Eingaben erinnern
      Natürlich braucht man auch die Fähigkeit, während der Verarbeitung der Eingabe parallel Ausgaben zu erzeugen
  • Soweit ich es verstanden habe, hat der Transformer den späteren Boom ermöglicht, weil er zwei große Probleme von RNNs gelöst hat.
    Vanishing Gradients beschränkten den Kontext und die Modellgröße, und die schwierige Parallelisierung begrenzte die Größe der Trainingsdaten.
    Ich frage mich, ob es heute Lösungen für diese beiden Probleme gibt.

    • Ein Transformer kann zu jedem Zeitpunkt frühere Informationen wieder heranziehen, die später nützlich werden.
      Ein RNN aktualisiert seinen Speicher ständig und überschreibt ihn, muss also im Voraus vorhersagen, welche Informationen später nützlich sein werden, und sie speichern.
      Bei interaktiven Anwendungsfällen wie ChatGPT ist das ein enormer Vorteil des Transformers.
      Wenn man Kontext gibt und über mehrere Turns hinweg Fragen stellt, erkennt man oft erst weiter hinten in der Token-Sequenz, welcher Kontext für eine bestimmte Frage wichtig war.
      Genauer müsste man sagen, dass das ein Vorteil aufmerksamkeitsbasierter Modelle ist; es gibt auch Hybridmodelle wie Jamba, die beide Ansätze erfolgreich mischen.
    • Vanishing oder Exploding Gradients betrafen nicht nur RNNs, sondern alle tiefen Architekturen.
      LSTM, erstmals 1997 vorgeschlagen, bot schon früh eine Lösung: https://www.semanticscholar.org/paper/Long-Short-Term-Memory...
      Interessant ist, dass dieses Wissen fast vergessen zu sein scheint.
      Um 2014 herum waren LSTMs sehr populär: https://karpathy.github.io/2015/05/21/rnn-effectiveness/
      https://colah.github.io/posts/2015-08-Understanding-LSTMs/
    • Nach einem flüchtigen Lesen des Papers zielt es weniger auf „Vanishing Gradients“ als besonders auf Parallelisierung und schnelles Training.
      Allerdings scheint es durch die Vereinfachung der rekurrenten Einheit beides zu verbessern.
      Das ist eine ziemlich clevere und interessante Arbeit.
      Das Paper nennt sie immer wieder eine „10 Jahre alte Architektur“, tatsächlich wird sie aber weiterhin enorm häufig eingesetzt, weil sie sich leicht an viele Domänen anpassen lässt.
      Sie als „Konkurrenten“ des Transformers darzustellen, ist auch nicht ganz fair, weil Transformer und RNNs sich nicht gegenseitig ausschließen und es viele Möglichkeiten gibt, beide zu kombinieren.
      Verbesserungen an RNNs könnten an überraschend vielen Stellen zu Verbesserungen führen.
  • Mir gefällt die Einfachheit der minGRU-Architektur wirklich sehr.
    Im Grunde werden aus dem Token per linearer Transformation jeweils ein vorgeschlagener Hidden State und Mischkoeffizienten erzeugt und dann mit torch.lerp(proposed_hidden_state, previous_hidden_state, mix_factors) gemischt.
    Da der vorgeschlagene Hidden State und die Mischkoeffizienten jeder Schicht nur vom aktuellen Token abhängen, kann man, wenn die gesamte Sequenz wie beim Training im Voraus bekannt ist, alles parallel berechnen und anschließend per parallelem Scan in linearer Zeit zusammenführen.
    Dass das in kleinen Experimenten mit Transformern und State-Space-Modellen konkurrieren kann, trifft genau das Gefühl der Leute, die glauben: „Der beste PR ist ein PR, der Code löscht.“
    Trotzdem weiß man erst, ob es ein Breakthrough mit großem B ist, wenn man es auf ähnliche Parameter- und Datengrößen wie die aktuellen Spitzenmodelle skaliert hat.
    Dem Anhang zufolge werden die Berechnungen offenbar vollständig im Log-Raum durchgeführt, angeblich wegen numerischer Stabilität.
    Intuitiv ist mir nicht ganz klar, ob das daran liegt, dass Werte explodieren können, wenn man tanh aus der Ausgabe entfernt und im linearen Raum rechnet.
    Außerdem ist schon die Tatsache interessant, dass diese Art von Sequenzmodellierung funktioniert.
    Es fühlt sich an, als würde man alle Seiten eines Buchs herausreißen, sie in zufälliger Reihenfolge geben und verlangen, für jede Seite einen Vektor sowie „eine Methode, diesen Vektor mit dem bisherigen Gesamtseitenvektor zu mischen“ zu erzeugen, ohne die vorherigen Seiten zu kennen; danach mische ich sie wieder in der richtigen Reihenfolge zusammen und bewerte, wie gut der finale Vektor als Zusammenfassung des ganzen Buchs ist.
    Derzeit werden nur zwei dichte lineare Schichten verwendet, um ein Token in den vorgeschlagenen Hidden State und den Interpolations-Mischkoeffizienten umzuwandeln; ich frage mich auch, was passieren würde, wenn man diese Transformation statt als einzelne lineare Schicht als MLP baut.

    • Auf den ersten Blick scheint diese Architektur die grundlegende Fähigkeit zu blockieren, Token-Sequenzen zu erkennen.
      Zumindest würde ich Probleme wie beim Pumping-Lemma erwarten.
      Wenn [the ][cat ][is ][black ] eine Ausgabe nahe einem bestimmten Vektor erzeugt, dann müsste eine Eingabe, die [the ][cat ][is ][black ] dreimal wiederholt, diesem Vektor doch noch näher kommen und sich von einem Vektor für „Warum wurde derselbe Satz dreimal wiederholt?“ entfernen, oder?
      Ohne nichtlineare Mischung zwischen Eingabetoken und Hidden State scheint zwischen ähnlichen Token-Sequenzen viel lineare Ähnlichkeit erhalten zu bleiben.
    • Ich sehe darin keinen Breakthrough mit großem B, aber rekurrente neuronale Netze sind überall.
      Wenn es eine Vereinfachung ist, die Training und Leistung verbessert, schafft sie eine Bühne, auf der man auf höherer Ebene wieder Komplexität aufbauen kann.
    • Der Log-Raum ist wichtig, wenn Token-Wahrscheinlichkeiten einen sehr großen Wertebereich haben, also sich um mehrere Größenordnungen unterscheiden.
      Es gibt einen Grund, warum Maximum-Likelihood-Fitting immer mit Log-Likelihood durchgeführt wird.
  • Ich habe als Uni-Projekt ein RNN gebaut; damals interessierte ich mich für verschwundene historische Techniken und dachte, ich müsste die Gelegenheit nutzen, weil ich nach der Uni wahrscheinlich nie wieder etwas über neuronale Netze hören würde.
    Was ich gebaut habe, funktionierte, war aber sehr simpel und auf einem alten Laptop unglaublich langsam.
    Auf diesem Laptop konnte zwar nichts schnell sein, aber ich erinnere mich, dass das RNN deutlich langsamer war als ein Feedforward-Netzwerk.
    Ich war überzeugt, dass das eine tote Technologie war, eine akademische Kuriosität der 1980er- und 1990er-Jahre; zu sehen, wie schnell sich das geändert hat, war fast schon surreal.

    • Ich fühle mich alt.
      Um 2000 herum habe ich meine Masterarbeit über das Lernen dynamischer Systeme geschrieben, etwa mit RNNs zu Steuerungszwecken; damals war das ein ziemlich neues Thema.
      Ich habe Backpropagation in C++ implementiert und über Nacht laufen lassen, und wegen der kleinen Gradienten war es wirklich langsam.
      Die Netzwerkarchitektur bestand auch nur aus einer einzelnen Hidden Layer mit vielleicht 5 oder 10 Neuronen.
      Neuronale Netze waren ein kleines Thema, bei dem man Glück hatte, wenn man überhaupt eine Vorlesung dazu fand; dann habe ich kurz die Augen zugemacht und 2015 wieder hingeschaut, und alles war völlig anders.
  • Den Autoren, darunter auch Yoshua Bengio, ist anzurechnen, dass sie das Paper nicht mit dem Anspruch beenden, die Antwort zu kennen, sondern mit einer Frage.
    Diese Modelle sind selbst nach akademischen Maßstäben sehr klein, daher lässt sich nicht zwingend annehmen, dass sich irgendwelche Ergebnisse bis zur heutigen LLM-Größenordnung skalieren.
    Die Kernaussage ist, dass Netzwerke aus der RNN-Familie zwar ebenso effizient trainiert werden können wie moderne Alternativen, die Wettbewerbsfähigkeit der Ergebnisqualität aber nur im kleinen Maßstab gezeigt wurde.

    • Die Betonung sollte auf „nicht zwingend“ liegen.
      Sollte die Schlussfolgerung nicht eher lauten: „Die Wettbewerbsfähigkeit der Ergebnisqualität wurde nur im kleinen Maßstab gezeigt“?
  • Das Modell im Paper ist wegen seiner Parallelisierbarkeit aus denselben Gründen wie in https://arxiv.org/abs/2404.08819 beschrieben kein „echtes“ RNN und damit theoretisch weniger mächtig als ein traditionelles RNN.
    Es hat Schwierigkeiten mit einigen Problemklassen, in denen RNNs ursprünglich stark waren.
    Dagegen enthält https://arxiv.org/abs/2405.04517 „echte“ RNN-Komponenten und zeigt große Verbesserungen bei State-Tracking-Problemen, mit denen Transformer Probleme haben.

    • Das sind ebenfalls echte RNNs.
      Sie hängen weiterhin vom vorherigen Hidden State ab, nur die Gates tun das nicht.
      Die grundlegenden RNN-Gleichungen lassen sich mit einem parallelen Prefix-Scan-Algorithmus parallelisieren.
  • Ich habe mir das Paper nicht im Detail angesehen; schön wäre, wenn jemand das beantworten könnte.
    Wenn man, wie gesagt, den Hidden State aus einem RNN entfernt, was bleibt dann übrig? Ein MLP, das anhand eines einzelnen Tokens vorhersagt?

    • Der Hidden State wurde nicht vollständig entfernt, sondern nur aus dem Input-Gate, Forget-Gate und Update-Gate.
      Ich habe das Paper nicht vollständig durchdrungen, aber beim GRU scheint es zu bedeuten, dass das Maskieren des Hidden-State-Updates, also z_t und r_t in den Formeln des Papers, nur vom neuen Input abhängt und nicht von der Summe aus Input und vorherigem Hidden State.
    • Er wurde nicht vollständig entfernt; es wurden nur bestimmte Abhängigkeiten entfernt, damit die Berechnung per Parallel Scan möglich wird.
      Es gibt weiterhin einen Hidden State.
      Das ist in gewissem Maße ähnlich dem, was bei Mamba gemacht wurde.
    • Beim groben Überfliegen sieht es so aus, als hätten sie das State-Update so angepasst, dass es per Parallel Scan laufen kann, ohne sequenziell ausgeführt werden zu müssen.
    • Der Trick besteht darin, die rekursive Abhängigkeit linear zu halten, wodurch paralleles Training möglich wird.