Thermodynamischer natürlicher Gradientenabstieg

(arxiv.org)

1 Punkte von GN⁺ 2024-05-26 | 1 Kommentare | Auf WhatsApp teilen

TNGD ist eine Trainingsmethode für neuronale Netze, die Natural Gradient Descent (NGD) in einer hybriden Schleife aus analogem thermodynamischem Computer und GPU ausführt, um den Rechenaufwand der Optimierung zweiter Ordnung zu senken
Lernverfahren zweiter Ordnung nutzen Krümmungsinformationen der Loss-Landschaft und haben dadurch gute Konvergenzeigenschaften, sind auf digitaler Hardware für großskaliges Training jedoch wegen der Kosten für die Berechnung der Fisher-Informationsmatrix und das Lösen linearer Gleichungssysteme schwer einsetzbar
Die thermodynamischen Eigenschaften analoger Systeme im Gleichgewichtszustand und ein physikalischer Ornstein–Uhlenbeck-Prozess werden genutzt, um die Parameter-Update-Regel von NGD zu implementieren
Nutzer behalten die Modellarchitektur bei, und der analoge Computer beschleunigt nur das Training; damit unterscheidet sich der Ansatz von manchen Verfahren zur analogen Inferenzbeschleunigung, bei denen das Modell in Hardware fest verdrahtet wird
In numerischen Experimenten zeigte das Verfahren bei Klassifikation und beim Fine-Tuning von Sprachmodellen bessere Ergebnisse als moderne digitale Lernverfahren erster und zweiter Ordnung; bei ausreichender Parallelisierung sind Laufzeiten pro Iteration nahe an Adam und SGD möglich

Das von TNGD adressierte Problem der Trainingskosten

Mit steigenden Trainingskosten fortgeschrittener KI-Modelle liegen führende Modelle weltweit inzwischen bei mehreren hundert Millionen US-Dollar Trainingskosten
Auf digitaler Hardware wirken sich das Ende von Moore’s Law und Dennard’s Law auf Laufzeit und Energieeffizienz aus
Diese Einschränkungen erhöhen den Bedarf an nichttraditioneller Spezialhardware zur Steigerung der Trainingseffizienz von KI-Modellen
Digitale Hardware schränkt auch die Auswahl der für Nutzer praktikablen Lernalgorithmen ein
- SGD, Adam und Varianten davon werden breit für das Training von DNNs und großen KI-Modellen verwendet
- Anspruchsvollere Optimizer werden wegen ihres hohen Rechen-Overheads auf digitaler Hardware nur selten eingesetzt

Vorteile und Engpässe der Optimierung zweiter Ordnung

Verfahren zweiter Ordnung erfassen Krümmungsinformationen der Loss-Landschaft und besitzen daher theoretisch stärkere Konvergenzeigenschaften
Natural Gradient Descent (NGD) muss Größen zweiter Ordnung wie die Fisher-Informationsmatrix schätzen und in jeder Epoche ein kostspieliges lineares Gleichungssystem lösen
Näherungsverfahren für NGD wie K-FAC haben Potenzial gezeigt und teils bessere Leistung als Adam erreicht, sind aber weiterhin schwer auf beliebige neuronale Netzwerkarchitekturen anzuwenden

Hybride digital-analoge Trainingsschleife

TNGD arbeitet als hybride digital-analoge Schleife, in der eine GPU mit einem analogen thermodynamischen Computer kommuniziert
Während des Trainings werden in festen Zeitabständen Gradient und Fisher-Informationsmatrix oder andere positiv semidefinite Krümmungsmatrizen berechnet; dazwischen läuft die analoge Dynamik weiter
Die thermodynamischen Eigenschaften des analogen Systems im Gleichgewicht werden als Rechenressource genutzt
Nutzer geben die Modellarchitektur vor, und der analoge Computer beschleunigt nur den Trainingsprozess
- Das steht im Gegensatz zu manchen Vorschlägen für analoge KI-Inferenzbeschleunigung, bei denen das Modell in Hardware fixiert wird und Nutzer die Architektur nicht frei ändern können

Rechenkomplexität und experimentelle Ergebnisse

TNGD ist in bestimmten Parameterbereichen äquivalent zu NGD, vermeidet jedoch das übermäßig teure Lösen linearer Gleichungssysteme
Die Parameter-Update-Regel von NGD wird mithilfe eines physikalischen Ornstein–Uhlenbeck-Prozesses implementiert
Die Laufzeit pro Iteration skaliert linear mit der Anzahl der Parameter
Bei geeigneter Parallelisierung sind Laufzeiten möglich, die nahe an Optimierern erster Ordnung wie Adam und SGD liegen
In numerischen Experimenten lieferte TNGD bei Klassifikationsaufgaben und beim Fine-Tuning von Sprachmodellen einschließlich extraktiver Fragebeantwortung bessere Ergebnisse als moderne digitale Lernverfahren erster und zweiter Ordnung

1 Kommentare

GN⁺ 2024-05-26

Hacker-News-Kommentare

Der Kernpunkt ist, dass Natural Gradient Descent ein Verfahren zweiter Ordnung ist. Die zentrale Update-Formel lautet ∇̃L(θ) = F⁻¹∇L(θ), wofür ein lineares Gleichungssystem gelöst werden muss.
Dafür lässt sich die Methode aus dem früheren Paper der Autoren, Thermodynamic Linear Algebra, verwenden. Da es schwierig ist, ein vollständiges neuronales Netz auf einem thermodynamischen Computer zu implementieren, schlägt das Paper vor, ihn parallel zu einer normalen GPU zu betreiben. Die GPU berechnet F und ∇L(θ), während das lineare Gleichungssystem an einen thermodynamischen Computer übergeben wird, der parallel zum digitalen System läuft (Abbildung 1). Wichtig ist allerdings, dass das Diagramm „Runtime vs Accuracy“ in Abbildung 3 ein Zeitmodell des TNGD-Algorithmus verwendet, weil der dafür nötige Computer noch nicht existiert.
Cool und interessant. Die Autoren schlagen eine hybride digital-analoge Trainingsschleife vor, die die Krümmung der Loss-Landschaft, also die zweiten Ableitungen, berücksichtigt, und zeigen mit numerischen Simulationen, dass bei einer Umsetzung als physikalisches System die Rechenkosten pro Iteration der Trainingsschleife linear mit der Anzahl der Parameter wachsen.
Wenn sich die Gesetze der Thermodynamik dafür nutzen lassen, einen Teil der Arbeit beim Training von AI-Modellen zu übernehmen und damit Skalierungsgrenzen und Probleme bestehender digitaler Hardware und Trainingsmethoden zu überwinden, bin ich sehr dafür, diese Richtung zu erkunden.
Das Paper behandelt hauptsächlich Deep-Learning-/Neuronale-Netze-Training und Optimierungsergebnisse, aber ich frage mich, wie leicht sich dasselbe Optimierungs-Framework auf andere Arten schwieriger oder großer Optimierungsprobleme anwenden ließe. Als ich erstmals etwas zu Extropic (https://www.extropic.ai/) gesehen habe, hatte ich denselben Gedanken.
Ich habe auf der Website nach veröffentlichten Informationen zu einer API oder einem Software-Stack gesucht, um zu sehen, ob man Optimierungsprobleme außerhalb neuronaler Netze modellieren kann, aber offenbar ist noch nichts öffentlich. Es gibt weiterhin viele kombinatorische NP-schwere Optimierungsprobleme und großskalige analytische Optimierungsprobleme, deren Lösung sehr wertvoll wäre; persönlich interessieren mich besonders EDA und Halbleiterdesign. Adiabatisches Quantencomputing war ebenfalls eine Technologie, die versprach, Optimierungsprobleme zu lösen, und Quantencomputing ist bislang vor allem bei kleineren Lösungsansätzen unterwegs. Ich hoffe, dass diese neuen Startups im Bereich „thermodynamisches Computing“ ebenfalls spannende Technologien bereitstellen, mit denen man solche Probleme untersuchen kann.
Updates zweiter Ordnung mithilfe der Thermodynamik effizienter zu berechnen, ist definitiv cool und erforschenswert, aber im Deep-Learning-Kontext bin ich weiterhin skeptisch, was den praktischen Nutzen angeht.
Es gibt bereits Verfahren zweiter Ordnung[1], die auf klassischer Hardware sehr effizient laufen, in der Praxis aber kaum genutzt werden und Methoden erster Ordnung wie ADAM unterliegen. Denn um sehr nichtlineare Loss-Funktionen wie bei Deep-Learning-Modellen zu optimieren, braucht man letztlich sehr niedrige Lernraten, egal ob erster oder zweiter Ordnung. Verfahren zweiter Ordnung können daher zwar pro Schritt ein etwas besseres Parameter-Update liefern, erhöhen aber oft die Kosten noch stärker und sind deshalb meist wenig lohnend.
[1] https://andrew.gibiansky.com/blog/machine-learning/hessian-f...
- Ich stimme zu, dass es cool ist, und auch, dass es schwierig ist, Verfahren zweiter Ordnung wertvoll zu machen. Manchmal sind Datensätze so groß, dass es schon schwer ist, selbst den Gradienten einer Mini-Batch plausibel zu schätzen.
  Zweitordnungsinformationen über den gesamten Datensatz sinnvoll zu schätzen, ist noch schwieriger – besonders wenn man bedenkt, dass Mini-Batches überhaupt erst aus Gründen der Berechenbarkeit verwendet werden.
Ich habe das Paper nicht im Detail gelesen; kann mir jemand erklären, worin der Reiz liegt? Tabelle 1 sieht so aus, als hätte es gemessen an der Stichprobengröße dieselbe asymptotische Komplexität wie SGD.
Wenn man bedenkt, dass heutige große, überparametrisierte Modelle viele sehr ähnliche Extrema haben, weiß ich nicht, ob das wirklich nötig ist. Wenn es nicht einmal quasi-linear, sondern sublinear ist, sehe ich keinen Grund, sich dafür zu interessieren.
Das erinnert mich an Simulated Annealing, das ich vor etwa zehn Jahren in einem AI-Kurs gelernt habe.
https://en.wikipedia.org/wiki/Simulated_annealing
Was ist derzeit die beste Vermutung dazu, wie tierische Neuronen lernen?
- http://www.scholarpedia.org/article/Spike-timing_dependent_p...
Hat Geoffrey Hinton nicht vor etwa einem Jahr über so etwas gesprochen?
Ich verstehe es nicht. Gradientenabstiegsberechnungen passieren sehr häufig, und Zustand/Eingabe ändern sich ständig; dann müsste man die thermische Landschaft doch sehr häufig neu initialisieren – was soll das bringen? Ich sehe hier keine realistische Möglichkeit für eine Beschleunigung.
Eher könnte man vielleicht mit elektromagnetischen Feldern oder deren Interferenz, vielleicht auch mit 3D-Strukturen, etwas machen.
Bis zu „man braucht einen analogen thermodynamischen Computer“ klang es noch gut, aber Moment – was? Ich wünschte, jemand mit solider Physikausbildung könnte das erklären.
- Anhang C des Papers erklärt das ziemlich gut. Aus mehreren Operationsverstärkern, RC-Zeitkonstanten (vermutlich mit digitalen Potentiometern) und einer mehrkanaligen ADC/DAC-Schnittstelle zum PC wird eine Integratormatrix aufgebaut. Im Kern ist das ein dediziertes Gerät zum Lösen von Differentialgleichungen.
  Es ist also eine Kombination aus altmodischem Analogrechnen und modernem GPU-basiertem Code. In der Praxis dauert es wegen des Hardware-Interface-Overheads und der Wartezeit, bis sich die Integratoren stabilisiert haben, länger; ich verstehe die Behauptung aber so, dass eine optimierte Implementierung die Konvergenz beschleunigen und damit besser als eine rein digitale Lösung sein könnte. Die zentrale Idee ist, dass der herkömmliche Gradientenabstieg im Kern eine lineare Operation ist, während der tatsächlich verfolgte Gradient auf einer gekrümmten Fläche liegt und man ihn, wenn man nur im digitalen Bereich arbeitet, über mehrere unnötige Schritte approximieren muss. Das Problem ist, wie viele seit Seymour Cray schmerzhaft gelernt haben, dass am Ende CMOS immer gewinnt. Denn die Finanzkraft einer ganzen Industrie fließt in die Optimierung von CMOS.
- So wie ich es verstehe, macht https://extropic.ai genau das, und https://normalcomputing.ai/, das Unternehmen der Paper-Autoren, sehr wahrscheinlich ebenfalls.
- Der Kern ist, Naturgesetze zu nutzen, um AI-Modelle zu trainieren und die Grenzen sowie Skalierungsprobleme digitaler Hardware und bestehender Trainingsmethoden zu überwinden.
- Ein Beispiel dafür könnten Quanten-Annealer sein. „Programmierung“ bedeutet hier eher, passende Anfangsbedingungen zu setzen und das System durch thermodynamische Relaxation zum Optimum gelangen zu lassen.
- Wenn man ein solches Produkt bauen kann, könnte das attraktiv sein. Weltweit werden jedes Jahr Dutzende Milliarden Dollar, vielleicht mehr, für numerische Optimierung ausgegeben, und wenn man das deutlich beschleunigen kann, könnte das sehr profitabel sein.

Thermodynamischer natürlicher Gradientenabstieg

Das von TNGD adressierte Problem der Trainingskosten

Vorteile und Engpässe der Optimierung zweiter Ordnung

Hybride digital-analoge Trainingsschleife

Rechenkomplexität und experimentelle Ergebnisse

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare