30 Punkte von GN⁺ 2025-03-18 | 1 Kommentare | Auf WhatsApp teilen
  • Es gibt die verbreitete Wahrnehmung, dass das Generalisierungsverhalten von Deep-Learning-Modellen anders und geheimnisvoll sei als bei bisherigen Modellen
  • Overfitting, Double Descent und Überparametrisierung werden häufig als typische Merkmale von Deep Learning genannt
  • Diese Phänomene sind jedoch nicht auf neuronale Netze beschränkt und lassen sich mit älteren Generalisierungs-Frameworks wie PAC-Bayes und Boundaries für zählbare Hypothesen erklären
  • Das Konzept der „Soft Inductive Biases“ ist das Schlüsselprinzip zur Erklärung dieser Generalisierungsphänomene

Soft Inductive Biases

  • Klassische Inductive Biases beschränken den Hypothesenraum, um die Generalisierungsleistung zu verbessern
  • Soft Inductive Biases erhalten die Flexibilität des Hypothesenraums, geben aber bestimmten Lösungen eine Präferenz
  • Wie bei CNNs, die durch Parameter-Sharing Lokalität und Translationsinvarianz bewahren, werden sanfte Regularisierungen für bestimmte Eigenschaften hinzugefügt
  • Auch bei überparametrisierten Modellen ist die Generalisierungsleistung gut, weil Soft Inductive Biases wirken

Generalisierungs-Frameworks

PAC-Bayes und Boundaries für zählbare Hypothesen

  • PAC-Bayes erklärt das Generalisierungsrisiko durch empirisches Risiko und die Komprimierbarkeit des Modells
  • Selbst große Modelle können eine gute Generalisierungsleistung garantieren, wenn das Modell einfach und komprimierbar ist
  • Formel:
    • erwartetes Risiko ≤ empirisches Risiko + Term im Zusammenhang mit Komprimierbarkeit

Effektive Dimensionalität

  • Effektive Dimensionalität = Anzahl der großen Eigenwerte der Hessian-Matrix der Verlustfunktion des Modells
  • Je niedriger die effektive Dimensionalität, desto einfacher ist das Modell und desto besser seine Generalisierungsleistung

Weitere Generalisierungs-Frameworks

  • Rademacher-Komplexität, VC-Dimension usw. erklären Deep-Learning-Phänomene nicht besonders gut
  • PAC-Bayes und Boundaries für zählbare Hypothesen können diese Probleme lösen

Zentrale Phänomene

Benign Overfitting

  • Ein Phänomen, bei dem ein Modell sogar Rauschen perfekt lernt und dennoch gut generalisiert
  • Benign Overfitting lässt sich auch mit einfachen linearen Modellen reproduzieren
  • Es kann durch PAC-Bayes und Boundaries für zählbare Hypothesen erklärt werden

Überparametrisierung

  • Selbst wenn die Anzahl der Parameter größer ist als die Anzahl der Datenpunkte, kann das Modell hervorragend generalisieren
  • Große Modelle generalisieren gut, weil sie sich nach dem Training zu einer einfacheren Struktur komprimieren lassen

Double Descent

  • Ein Phänomen, bei dem der Verlust mit steigender Modellkomplexität zunächst sinkt, dann steigt und anschließend wieder sinkt
  • Es lässt sich auch in linearen Modellen reproduzieren
  • Es kann durch effektive Dimensionalität und die Komprimierbarkeit des Modells erklärt werden

Alternative Sichtweise

  • Die bisherige Sicht, dass die Generalisierung von Deep Learning mysteriös sei, beruht auf eingeschränkten Generalisierungs-Frameworks
  • Mit PAC-Bayes und Boundaries für zählbare Hypothesen lassen sich diese Generalisierungsphänomene erklären
  • Die Annahme, dass die Generalisierung von Deep Learning mysteriös sei, könnte ein falsches Vorurteil sein

Unterscheidungsmerkmale von Deep Learning

Repräsentationslernen

  • Neuronale Netze können Ähnlichkeiten in Daten erlernen
  • Bei hochdimensionalen Daten können sie bessere Ähnlichkeitsmaße als die euklidische Distanz finden
  • Das ist vorteilhaft für Interpolation und Extrapolation in hohen Dimensionen

Universelles Lernen

  • Deep-Learning-Modelle zeigen in sehr unterschiedlichen Domänen konstant gute Leistung
  • Sie liefern starke Ergebnisse bei Transfer Learning und In-Context Learning

Mode Connectivity

  • Modelle, die mit unterschiedlichen Initialisierungen trainiert wurden, können entlang einfacher Kurven miteinander verbunden werden
  • Das wird in Trainingsmethoden wie SWA (Stochastic Weight Averaging) genutzt

Fazit und Ausblick

  • Benign Overfitting, Überparametrisierung und Double Descent sind keine Phänomene, die nur bei neuronalen Netzen auftreten
  • Sie lassen sich mit PAC-Bayes und Boundaries für zählbare Hypothesen erklären
  • Deep Learning unterscheidet sich durch Eigenschaften wie Repräsentationslernen, universelles Lernen und Mode Connectivity
  • Generalisierungsleistung beruht nicht auf der Komplexität des Modells, sondern auf seiner Komprimierbarkeit und Einfachheit

1 Kommentare

 
GN⁺ 2025-03-18
Hacker-News-Kommentare
  • Wenn man sich für Machine Learning interessiert, ist Stanfords Vorlesung "Probability for computer scientists" eine hervorragende Ressource

    • Diese Vorlesung behandelt Wahrscheinlichkeitstheorie und die theoretischen Grundlagen des Machine Learning sehr tiefgehend
    • Andrew Ngs Vorlesungen sind ebenfalls bekannt, erfordern aber ein mathematisches Verständnis von linearer Algebra
    • Für Deep Learning ist die visuelle Einführung von 3b1b nützlich
  • Algorithmische Stabilität liefert eine überzeugendere Erklärung als Nachfahren der PAC-Bayes- oder VC-Theorie

    • Entsprechendes Material findet sich in Papers auf arXiv
  • Wenn man Machine Learning verstehen möchte, ist Josh Starmers "The StatQuest Illustrated Guide to Machine Learning" empfehlenswert

    • Er ist ein hervorragender Lehrer, der komplexe Ideen klar und prägnant ausdrückt
    • Durch das Format wie ein Kinderbuch lässt es sich leicht lesen und verstehen
    • Auch sein kürzlich veröffentlichtes Buch über neuronale Netze ist empfehlenswert
  • DNNs haben keine besondere Generalisierungsfähigkeit

    • Im Gegenteil, ihre Generalisierung kann schwächer sein als bei mathematisch fundierten Verfahren wie SVMs
    • Wenn man ein DNN mit dem Datensatz "Wine Quality" aus dem UCI Machine Learning Repository trainiert, entstehen schlechte Ergebnisse und Overfitting
    • Die "Magie" von LLMs kommt aus dem Trainingsparadigma
    • Mit gewaltigen Datensätzen kann man riesige Modelle ohne Overfitting verwenden
    • Vor 10 Jahren war das Prinzip der "Wiederverwendbarkeit" noch nicht klar
  • Um Overfitting zu vermeiden, ist es wichtig, nicht den Hypothesenraum einzuschränken, sondern einen flexiblen Hypothesenraum zuzulassen und einfache Lösungen zu bevorzugen, die mit den Daten übereinstimmen

    • Es gibt die Frage, wie Deep Learning das leistet
    • Früher nutzte man Likelihood-Ansätze mit Strafterm
    • Bei Deep Learning entstand der Eindruck, dass die Art, Komplexität zu bestrafen, komplizierter und weniger intuitiv ist
  • Als ich zum ersten Mal in Deep Learning eingestiegen bin, hat es sehr geholfen, den Beweis des universellen Approximationssatzes zu lernen

    • Wenn man versteht, warum neuronale Netze Funktionen approximieren können, wird alles, was darauf aufbaut, leichter verständlich
  • Ein interessantes Beispiel dafür, warum "tiefe" Netzwerke nötig sind, wird in einem aktuellen Paper über RNNs diskutiert

    • Die Modelle minGRU und minLSTM modellieren Zustandsabhängigkeiten nicht explizit, können sie aber lernen, wenn sie tief genug sind
  • Es gibt die Idee, Textdaten zu sammeln, die Distanzen zwischen Wörtern zu speichern und daraus einen Vorhersagealgorithmus zu bauen

    • Ich frage mich, wie nah das an GPT 2 ist
  • Ich frage mich, wo die Grenze dafür verläuft, was als "AI" definiert und reguliert wird

  • Künstliche Neuronen machen lineare Regression durch Hinzufügen einer Aktivierungsfunktion nichtlinear

    • Wenn man sie zu einem Netzwerk zusammensetzt, entstehen interessante Ergebnisse