Deep Learning ist weder so mysteriös noch so anders

(arxiv.org)

30 Punkte von GN⁺ 2025-03-18 | 1 Kommentare | Auf WhatsApp teilen

Es gibt die verbreitete Wahrnehmung, dass das Generalisierungsverhalten von Deep-Learning-Modellen anders und geheimnisvoll sei als bei bisherigen Modellen
Overfitting, Double Descent und Überparametrisierung werden häufig als typische Merkmale von Deep Learning genannt
Diese Phänomene sind jedoch nicht auf neuronale Netze beschränkt und lassen sich mit älteren Generalisierungs-Frameworks wie PAC-Bayes und Boundaries für zählbare Hypothesen erklären
Das Konzept der „Soft Inductive Biases“ ist das Schlüsselprinzip zur Erklärung dieser Generalisierungsphänomene

Soft Inductive Biases

Klassische Inductive Biases beschränken den Hypothesenraum, um die Generalisierungsleistung zu verbessern
Soft Inductive Biases erhalten die Flexibilität des Hypothesenraums, geben aber bestimmten Lösungen eine Präferenz
Wie bei CNNs, die durch Parameter-Sharing Lokalität und Translationsinvarianz bewahren, werden sanfte Regularisierungen für bestimmte Eigenschaften hinzugefügt
Auch bei überparametrisierten Modellen ist die Generalisierungsleistung gut, weil Soft Inductive Biases wirken

Generalisierungs-Frameworks

PAC-Bayes und Boundaries für zählbare Hypothesen

PAC-Bayes erklärt das Generalisierungsrisiko durch empirisches Risiko und die Komprimierbarkeit des Modells
Selbst große Modelle können eine gute Generalisierungsleistung garantieren, wenn das Modell einfach und komprimierbar ist
Formel:
- erwartetes Risiko ≤ empirisches Risiko + Term im Zusammenhang mit Komprimierbarkeit

Effektive Dimensionalität

Effektive Dimensionalität = Anzahl der großen Eigenwerte der Hessian-Matrix der Verlustfunktion des Modells
Je niedriger die effektive Dimensionalität, desto einfacher ist das Modell und desto besser seine Generalisierungsleistung

Weitere Generalisierungs-Frameworks

Rademacher-Komplexität, VC-Dimension usw. erklären Deep-Learning-Phänomene nicht besonders gut
PAC-Bayes und Boundaries für zählbare Hypothesen können diese Probleme lösen

Zentrale Phänomene

Benign Overfitting

Ein Phänomen, bei dem ein Modell sogar Rauschen perfekt lernt und dennoch gut generalisiert
Benign Overfitting lässt sich auch mit einfachen linearen Modellen reproduzieren
Es kann durch PAC-Bayes und Boundaries für zählbare Hypothesen erklärt werden

Überparametrisierung

Selbst wenn die Anzahl der Parameter größer ist als die Anzahl der Datenpunkte, kann das Modell hervorragend generalisieren
Große Modelle generalisieren gut, weil sie sich nach dem Training zu einer einfacheren Struktur komprimieren lassen

Double Descent

Ein Phänomen, bei dem der Verlust mit steigender Modellkomplexität zunächst sinkt, dann steigt und anschließend wieder sinkt
Es lässt sich auch in linearen Modellen reproduzieren
Es kann durch effektive Dimensionalität und die Komprimierbarkeit des Modells erklärt werden

Alternative Sichtweise

Die bisherige Sicht, dass die Generalisierung von Deep Learning mysteriös sei, beruht auf eingeschränkten Generalisierungs-Frameworks
Mit PAC-Bayes und Boundaries für zählbare Hypothesen lassen sich diese Generalisierungsphänomene erklären
Die Annahme, dass die Generalisierung von Deep Learning mysteriös sei, könnte ein falsches Vorurteil sein

Unterscheidungsmerkmale von Deep Learning

Repräsentationslernen

Neuronale Netze können Ähnlichkeiten in Daten erlernen
Bei hochdimensionalen Daten können sie bessere Ähnlichkeitsmaße als die euklidische Distanz finden
Das ist vorteilhaft für Interpolation und Extrapolation in hohen Dimensionen

Universelles Lernen

Deep-Learning-Modelle zeigen in sehr unterschiedlichen Domänen konstant gute Leistung
Sie liefern starke Ergebnisse bei Transfer Learning und In-Context Learning

Mode Connectivity

Modelle, die mit unterschiedlichen Initialisierungen trainiert wurden, können entlang einfacher Kurven miteinander verbunden werden
Das wird in Trainingsmethoden wie SWA (Stochastic Weight Averaging) genutzt

Fazit und Ausblick

Benign Overfitting, Überparametrisierung und Double Descent sind keine Phänomene, die nur bei neuronalen Netzen auftreten
Sie lassen sich mit PAC-Bayes und Boundaries für zählbare Hypothesen erklären
Deep Learning unterscheidet sich durch Eigenschaften wie Repräsentationslernen, universelles Lernen und Mode Connectivity
Generalisierungsleistung beruht nicht auf der Komplexität des Modells, sondern auf seiner Komprimierbarkeit und Einfachheit

1 Kommentare

GN⁺ 2025-03-18

Hacker-News-Kommentare

Wenn man sich für Machine Learning interessiert, ist Stanfords Vorlesung "Probability for computer scientists" eine hervorragende Ressource
- Diese Vorlesung behandelt Wahrscheinlichkeitstheorie und die theoretischen Grundlagen des Machine Learning sehr tiefgehend
- Andrew Ngs Vorlesungen sind ebenfalls bekannt, erfordern aber ein mathematisches Verständnis von linearer Algebra
- Für Deep Learning ist die visuelle Einführung von 3b1b nützlich
Algorithmische Stabilität liefert eine überzeugendere Erklärung als Nachfahren der PAC-Bayes- oder VC-Theorie
- Entsprechendes Material findet sich in Papers auf arXiv
Wenn man Machine Learning verstehen möchte, ist Josh Starmers "The StatQuest Illustrated Guide to Machine Learning" empfehlenswert
- Er ist ein hervorragender Lehrer, der komplexe Ideen klar und prägnant ausdrückt
- Durch das Format wie ein Kinderbuch lässt es sich leicht lesen und verstehen
- Auch sein kürzlich veröffentlichtes Buch über neuronale Netze ist empfehlenswert
DNNs haben keine besondere Generalisierungsfähigkeit
- Im Gegenteil, ihre Generalisierung kann schwächer sein als bei mathematisch fundierten Verfahren wie SVMs
- Wenn man ein DNN mit dem Datensatz "Wine Quality" aus dem UCI Machine Learning Repository trainiert, entstehen schlechte Ergebnisse und Overfitting
- Die "Magie" von LLMs kommt aus dem Trainingsparadigma
- Mit gewaltigen Datensätzen kann man riesige Modelle ohne Overfitting verwenden
- Vor 10 Jahren war das Prinzip der "Wiederverwendbarkeit" noch nicht klar
Um Overfitting zu vermeiden, ist es wichtig, nicht den Hypothesenraum einzuschränken, sondern einen flexiblen Hypothesenraum zuzulassen und einfache Lösungen zu bevorzugen, die mit den Daten übereinstimmen
- Es gibt die Frage, wie Deep Learning das leistet
- Früher nutzte man Likelihood-Ansätze mit Strafterm
- Bei Deep Learning entstand der Eindruck, dass die Art, Komplexität zu bestrafen, komplizierter und weniger intuitiv ist
Als ich zum ersten Mal in Deep Learning eingestiegen bin, hat es sehr geholfen, den Beweis des universellen Approximationssatzes zu lernen
- Wenn man versteht, warum neuronale Netze Funktionen approximieren können, wird alles, was darauf aufbaut, leichter verständlich
Ein interessantes Beispiel dafür, warum "tiefe" Netzwerke nötig sind, wird in einem aktuellen Paper über RNNs diskutiert
- Die Modelle minGRU und minLSTM modellieren Zustandsabhängigkeiten nicht explizit, können sie aber lernen, wenn sie tief genug sind
Es gibt die Idee, Textdaten zu sammeln, die Distanzen zwischen Wörtern zu speichern und daraus einen Vorhersagealgorithmus zu bauen
- Ich frage mich, wie nah das an GPT 2 ist
Ich frage mich, wo die Grenze dafür verläuft, was als "AI" definiert und reguliert wird
Künstliche Neuronen machen lineare Regression durch Hinzufügen einer Aktivierungsfunktion nichtlinear
- Wenn man sie zu einem Netzwerk zusammensetzt, entstehen interessante Ergebnisse

Deep Learning ist weder so mysteriös noch so anders

Soft Inductive Biases

Generalisierungs-Frameworks

PAC-Bayes und Boundaries für zählbare Hypothesen

Effektive Dimensionalität

Weitere Generalisierungs-Frameworks

Zentrale Phänomene

Benign Overfitting

Überparametrisierung

Double Descent

Alternative Sichtweise

Unterscheidungsmerkmale von Deep Learning

Repräsentationslernen

Universelles Lernen

Mode Connectivity

Fazit und Ausblick

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare