- Es gibt die verbreitete Wahrnehmung, dass das Generalisierungsverhalten von Deep-Learning-Modellen anders und geheimnisvoll sei als bei bisherigen Modellen
- Overfitting, Double Descent und Überparametrisierung werden häufig als typische Merkmale von Deep Learning genannt
- Diese Phänomene sind jedoch nicht auf neuronale Netze beschränkt und lassen sich mit älteren Generalisierungs-Frameworks wie PAC-Bayes und Boundaries für zählbare Hypothesen erklären
- Das Konzept der „Soft Inductive Biases“ ist das Schlüsselprinzip zur Erklärung dieser Generalisierungsphänomene
Soft Inductive Biases
- Klassische Inductive Biases beschränken den Hypothesenraum, um die Generalisierungsleistung zu verbessern
- Soft Inductive Biases erhalten die Flexibilität des Hypothesenraums, geben aber bestimmten Lösungen eine Präferenz
- Wie bei CNNs, die durch Parameter-Sharing Lokalität und Translationsinvarianz bewahren, werden sanfte Regularisierungen für bestimmte Eigenschaften hinzugefügt
- Auch bei überparametrisierten Modellen ist die Generalisierungsleistung gut, weil Soft Inductive Biases wirken
Generalisierungs-Frameworks
PAC-Bayes und Boundaries für zählbare Hypothesen
- PAC-Bayes erklärt das Generalisierungsrisiko durch empirisches Risiko und die Komprimierbarkeit des Modells
- Selbst große Modelle können eine gute Generalisierungsleistung garantieren, wenn das Modell einfach und komprimierbar ist
- Formel:
- erwartetes Risiko ≤ empirisches Risiko + Term im Zusammenhang mit Komprimierbarkeit
Effektive Dimensionalität
- Effektive Dimensionalität = Anzahl der großen Eigenwerte der Hessian-Matrix der Verlustfunktion des Modells
- Je niedriger die effektive Dimensionalität, desto einfacher ist das Modell und desto besser seine Generalisierungsleistung
Weitere Generalisierungs-Frameworks
- Rademacher-Komplexität, VC-Dimension usw. erklären Deep-Learning-Phänomene nicht besonders gut
- PAC-Bayes und Boundaries für zählbare Hypothesen können diese Probleme lösen
Zentrale Phänomene
Benign Overfitting
- Ein Phänomen, bei dem ein Modell sogar Rauschen perfekt lernt und dennoch gut generalisiert
- Benign Overfitting lässt sich auch mit einfachen linearen Modellen reproduzieren
- Es kann durch PAC-Bayes und Boundaries für zählbare Hypothesen erklärt werden
Überparametrisierung
- Selbst wenn die Anzahl der Parameter größer ist als die Anzahl der Datenpunkte, kann das Modell hervorragend generalisieren
- Große Modelle generalisieren gut, weil sie sich nach dem Training zu einer einfacheren Struktur komprimieren lassen
Double Descent
- Ein Phänomen, bei dem der Verlust mit steigender Modellkomplexität zunächst sinkt, dann steigt und anschließend wieder sinkt
- Es lässt sich auch in linearen Modellen reproduzieren
- Es kann durch effektive Dimensionalität und die Komprimierbarkeit des Modells erklärt werden
Alternative Sichtweise
- Die bisherige Sicht, dass die Generalisierung von Deep Learning mysteriös sei, beruht auf eingeschränkten Generalisierungs-Frameworks
- Mit PAC-Bayes und Boundaries für zählbare Hypothesen lassen sich diese Generalisierungsphänomene erklären
- Die Annahme, dass die Generalisierung von Deep Learning mysteriös sei, könnte ein falsches Vorurteil sein
Unterscheidungsmerkmale von Deep Learning
Repräsentationslernen
- Neuronale Netze können Ähnlichkeiten in Daten erlernen
- Bei hochdimensionalen Daten können sie bessere Ähnlichkeitsmaße als die euklidische Distanz finden
- Das ist vorteilhaft für Interpolation und Extrapolation in hohen Dimensionen
Universelles Lernen
- Deep-Learning-Modelle zeigen in sehr unterschiedlichen Domänen konstant gute Leistung
- Sie liefern starke Ergebnisse bei Transfer Learning und In-Context Learning
Mode Connectivity
- Modelle, die mit unterschiedlichen Initialisierungen trainiert wurden, können entlang einfacher Kurven miteinander verbunden werden
- Das wird in Trainingsmethoden wie SWA (Stochastic Weight Averaging) genutzt
Fazit und Ausblick
- Benign Overfitting, Überparametrisierung und Double Descent sind keine Phänomene, die nur bei neuronalen Netzen auftreten
- Sie lassen sich mit PAC-Bayes und Boundaries für zählbare Hypothesen erklären
- Deep Learning unterscheidet sich durch Eigenschaften wie Repräsentationslernen, universelles Lernen und Mode Connectivity
- Generalisierungsleistung beruht nicht auf der Komplexität des Modells, sondern auf seiner Komprimierbarkeit und Einfachheit
1 Kommentare
Hacker-News-Kommentare
Wenn man sich für Machine Learning interessiert, ist Stanfords Vorlesung "Probability for computer scientists" eine hervorragende Ressource
Algorithmische Stabilität liefert eine überzeugendere Erklärung als Nachfahren der PAC-Bayes- oder VC-Theorie
Wenn man Machine Learning verstehen möchte, ist Josh Starmers "The StatQuest Illustrated Guide to Machine Learning" empfehlenswert
DNNs haben keine besondere Generalisierungsfähigkeit
Um Overfitting zu vermeiden, ist es wichtig, nicht den Hypothesenraum einzuschränken, sondern einen flexiblen Hypothesenraum zuzulassen und einfache Lösungen zu bevorzugen, die mit den Daten übereinstimmen
Als ich zum ersten Mal in Deep Learning eingestiegen bin, hat es sehr geholfen, den Beweis des universellen Approximationssatzes zu lernen
Ein interessantes Beispiel dafür, warum "tiefe" Netzwerke nötig sind, wird in einem aktuellen Paper über RNNs diskutiert
Es gibt die Idee, Textdaten zu sammeln, die Distanzen zwischen Wörtern zu speichern und daraus einen Vorhersagealgorithmus zu bauen
Ich frage mich, wo die Grenze dafür verläuft, was als "AI" definiert und reguliert wird
Künstliche Neuronen machen lineare Regression durch Hinzufügen einer Aktivierungsfunktion nichtlinear