Die Prinzipien von Diffusionsmodellen

(arxiv.org)

4 Punkte von GN⁺ 2025-11-11 | 1 Kommentare | Auf WhatsApp teilen

Diffusionsmodelle sind eine generative Modellarchitektur, die einen Prozess definiert, bei dem Daten schrittweise zu Rauschen werden, und diesen anschließend umkehrt, um aus Rauschen Daten zu erzeugen
Der Kern des Modells besteht darin, ein über die Zeit veränderliches Geschwindigkeitsfeld (velocity field) zu lernen und damit einen kontinuierlichen generativen Pfad zu konstruieren, der eine einfache Verteilung in die Datenverteilung transformiert
Es gibt drei zentrale Perspektiven: variational, score-based und flow-based; sie erklären das Modell jeweils über Entrauschung, das Lernen von Wahrscheinlichkeitsgradienten und kontinuierliche Transformationen
Auf dieser Grundlage werden weiterführende Forschungsrichtungen wie steuerbare Generierung, effizientes Sampling und direkte Abbildung zwischen Zeitpunkten (flow-map) diskutiert
Hervorgehoben wird die Bedeutung als grundlegendes Theoriewerk, das ein integriertes Verständnis der mathematischen Prinzipien und verschiedenen Formulierungen von Diffusionsmodellen ermöglicht

Grundkonzepte von Diffusionsmodellen

Diffusionsmodelle bestehen aus einem Vorwärtsprozess (forward process), der Daten schrittweise mit Rauschen kontaminiert, und einem Rückwärtsprozess (reverse process), der diesen umkehrt, um aus Rauschen Daten zu erzeugen
- Der Vorwärtsprozess definiert eine kontinuierliche Menge von Zwischenverteilungen, die die Datenverteilung mit einer einfachen Rauschverteilung verbindet
- Der Rückwärtsprozess rekonstruiert dieselben Zwischenverteilungen und wandelt Rauschen in Daten um
Ziel des Modells ist es, diesen Rückwärtsprozess zu lernen und so den Transformationspfad von Rauschen zu Daten nachzubilden

Drei mathematische Perspektiven

Variationale Perspektive (Variational View)
- Inspiriert von Variational Autoencoders (VAE) wird ein kleines Rekonstruktionsziel (denoising objective) gelernt, das Rauschen schrittweise entfernt
- Die Rekonstruktion in jedem Schritt akkumuliert sich und transformiert so insgesamt Rauschen in Daten
Score-basierte Perspektive (Score-Based View)
- Sie hat ihre Wurzeln in Energy-Based Models und lernt den Gradienten der Datenverteilung
- Dadurch wird die Richtung berechnet, in die ein Sample bewegt werden muss, um Regionen höherer Wahrscheinlichkeit zu erreichen
Flow-basierte Perspektive (Flow-Based View)
- Ähnlich wie bei Normalizing Flows wird der Generierungsprozess als kontinuierlicher Pfad interpretiert, der entlang eines Geschwindigkeitsfelds (velocity field) von Rauschen zu Daten verläuft

Gemeinsame Struktur und mathematische Grundlagen

Allen drei Perspektiven ist gemeinsam, dass sie ein zeitabhängiges Geschwindigkeitsfeld (time-dependent velocity field) lernen
- Dieses Geschwindigkeitsfeld transportiert eine einfache Prior-Verteilung in die Datenverteilung
- Sampling wird als Prozess beschrieben, bei dem Differenzialgleichungen gelöst werden, um Rauschen in Daten umzuwandeln
Auf dieser mathematischen Grundlage werden numerische Verfahren für effizientes Sampling, steuerbare Generierung (guidance) und direkte Abbildungen zwischen beliebigen Zeitpunkten (flow-map) diskutiert

Zielgruppe und Zweck

Die Zielgruppe sind Forschende, Master- und Promotionsstudierende sowie Praktiker mit Grundkenntnissen in Deep Learning und generativer Modellierung
Ziel ist es, die theoretischen Grundlagen von Diffusionsmodellen und die Beziehungen zwischen verschiedenen Formulierungen klar verständlich zu machen
Dadurch wird eine Grundlage geschaffen, um bestehende Modelle sicher anzuwenden und neue Forschungsrichtungen zu erkunden

Vorwort und Überblick über den Aufbau

Diffusionsmodelle haben sich in vielen Bereichen wie Machine Learning, Computer Vision und natürlicher Sprachverarbeitung als zentrales generatives Paradigma etabliert
Dieses Werk systematisiert die umfangreiche Forschung unter den Gesichtspunkten theoretische Prinzipien, Lernziele, Sampler-Design und mathematische Ideen
Wichtige Bestandteile
- Part A & B: Grundlagen der Diffusionsmodelle sowie Ursprung und Zusammenhang der drei Perspektiven
- In den späteren Kapiteln werden effizientes Sampling, steuerbare Generierung und Erweiterungen zu unabhängigen generativen Modellen behandelt
Jedes Kapitel kann selektiv gelesen werden; Leserinnen und Leser, die mit den Grundkonzepten vertraut sind, können die Einführungen zu VAE, EBM und Normalizing Flow überspringen

Danksagung

Professor Dohyun Kwon von der University of Seoul und KIAS hat Teile von Kapitel 7 geprüft und zur mathematischen Genauigkeit sowie zur Verbesserung der Formulierungen beigetragen
Sein Feedback und die Diskussionen haben dazu beigetragen, die Qualität des endgültigen Manuskripts zu verbessern

1 Kommentare

GN⁺ 2025-11-11

Hacker-News-Kommentare

Wenn man lieber per Video lernt, ist die Vorlesung CS236 Deep Generative Models von Stefano Ermon empfehlenswert.
Alle Vorlesungen sind in der YouTube-Playlist verfügbar, und die Unterlagen sind auf der offiziellen Website zusammengestellt.
- Schade, dass Stanford diesen CS236-Kurs nicht mehr anbietet. Er wird nun schon seit zwei Jahren nicht mehr gehalten.
Es kommt die Frage auf, ob dieser Beitrag nicht ein Duplikat eines Beitrags ist, den ich vor ein paar Tagen gepostet habe.
Link zum vorherigen Beitrag
- Ja, es ist ein Duplikat, aber je nach Fall ist das zulässig.
  Laut den HN-FAQ dürfen Beiträge, die über ein Jahr lang keine Aufmerksamkeit bekommen haben, in begrenztem Umfang erneut eingereicht werden.
  Außerdem sollten Anfragen zum Betrieb an hn@ycombinator.com geschickt werden, nicht als Kommentar.
In dem Dokument taucht "Fokker-Planck" bei der Suche ganze 97-mal auf.
Das allein macht es meiner Meinung nach lesenswert.
- Bei mir werden allerdings nur 26 Treffer angezeigt. Was ist da die Grundlage? Muss lachen :D
Ich frage mich, ob es Material zu Transformern gibt, das einen ähnlichen Umfang und eine ähnliche Tiefe hat.
Ehrlich gesagt macht mir die viele Mathematik ein bisschen Angst.
- Dazu der Scherz, ob es nicht eher „scated“ statt „scared“ heißen müsste.
Beim Lesen dieses Artikels kommt mir der Gedanke, dass die heutige AI in Wirklichkeit weniger intelligent als vielmehr brute force ist.
Vielleicht ist auch das menschliche Gehirn nur eine Maschine, die ein Leben lang brute force betreibt.
Aber künstliche Intelligenz fühlt sich am Ende wie künstliches Aroma an: ein seelenloses Ergebnis.
- Klingt fast, als wärst du Physiker. Ich finde, dass selbst in dem umgekehrten Ablauf des RG flow eine gewisse Schönheit liegt.
  Die Kraft der Statistik beruht auf tiefer Struktur und Auswahl.
- Das Wort „immer“ ist zu absolut. Eines Tages könnte es besser werden.
- Ich denke, Intelligenz ist die Mannigfaltigkeit (manifold), die solche brute-force-Algorithmen lernen.
  Menschen betreiben nicht ein Leben lang brute force, aber die Evolution hat diese Struktur über Milliarden Jahre aufgebaut
  und darüber über Millionen Jahre hinweg einen Meta-Learning-Algorithmus komprimiert.
470 Seiten?! Das ist so viel, dass ich kurz einen kompletten Hirnknoten hatte 😆

Die Prinzipien von Diffusionsmodellen

Grundkonzepte von Diffusionsmodellen

Drei mathematische Perspektiven

Gemeinsame Struktur und mathematische Grundlagen

Zielgruppe und Zweck

Vorwort und Überblick über den Aufbau

Danksagung

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare