2 Punkte von GN⁺ 2025-10-11 | 1 Kommentare | Auf WhatsApp teilen
  • Discrete Distribution Networks (DDN) sind ein innovatives Generationsmodell mit neuen Prinzipien und Eigenschaften
  • DDN erzielt durch einen Split-and-Prune-Optimierungsalgorithmus einzigartige experimentelle Ergebnisse und die Fähigkeit zu 1D-diskreten Repräsentationen
  • Auf Basis einer hierarchischen Struktur approximiert es auch kontinuierliche Verteilungen; außerdem wurden interessante Eigenschaften wie Zero-Shot Conditional Generation bestätigt
  • DDN zeigt Anwendungspotenzial für verschiedene reale Aufgaben wie Bildgenerierung und Stiltransfer
  • Bei Skalierbarkeit, Effizienz und natürlicher Anpassungsfähigkeit weist es Unterschiede zu bestehenden Generationsmodellen auf

Überblick über DDN: Discrete Distribution Networks

Warum ist das wichtig?

DDN (Discrete Distribution Networks) ist ein völlig neuer Ansatz, der sich grundlegend von bisherigen Generationsmodellen unterscheidet, und bietet Merkmale wie einfache Prinzipien, eine besondere hierarchische Struktur und Zero-Shot Conditional Generation. Da es anders funktioniert als GANs oder Diffusion-Modelle, eröffnet es viele Möglichkeiten sowohl für die Forschung als auch für praktische Anwendungen.


Zusammenfassung der wichtigsten Punkte

  • DDN ist ein neues Generationsmodell, das Datenverteilungen über eine hierarchische diskrete Verteilungsstruktur approximiert
  • Es schlägt die Optimierungstechnik Split-and-Prune vor und untersucht differenzierende Eigenschaften wie Zero-Shot Conditional Generation und 1D-diskrete latente Repräsentationen, die bei bestehenden Generationsmodellen schwer zu erreichen sind
  • DDN erzeugt in jeder Schicht mehrere Samples gleichzeitig und nutzt das Sample, das dem Ziel am nächsten liegt, als Bedingung für die nächste Schicht
  • Mit zunehmender Zahl an Schichten wächst der Repräsentationsraum der Ausgaben exponentiell, wodurch letztlich Samples erzeugt werden, die dem Ziel ähneln
  • Verschiedene Experimente (CIFAR-10, FFHQ, Stiltransfer, Super-Resolution usw.) zeigen Stärken gegenüber bisherigen Ansätzen in Bezug auf Einfachheit, Generalisierungsleistung und praktische Einsetzbarkeit

Dichteschätzungsexperimente mit DDN

  • Demonstration der Approximation einer 2D-Wahrscheinlichkeitsdichte
    • Links: alle Samples, die DDN aktuell erzeugen kann
    • Rechts: die Ziel-Wahrscheinlichkeitsdichtekarte
    • Mehrere Zielverteilungsszenarien (blur_circles, QR_code, spiral usw.) werden nacheinander angewandt und fortlaufend optimiert
    • Optimizer: gleichzeitige Verwendung von Gradient Descent und Split-and-Prune
    • Mit Split-and-Prune wird die KL divergence sogar niedriger als bei realen Samples

Zentrale Beiträge der Arbeit

  • Vorschlag eines einfacheren und effizienteren neuen Generationsmodells — DDN
  • Anwendung des Split-and-Prune-Optimierungsalgorithmus und praktischer Techniken
  • Verifikation von Eigenschaften wie gradientenfreier Zero-Shot Conditional Generation und einzigartigen 1D-diskreten Repräsentationen
  • In den ICLR-Reviews wurde hervorgehoben, dass das Modell „sich stark von bestehenden Generationsmodellen unterscheidet und die Forschungsrichtung erweitert“
  • Prinzip von DDN: In jeder Schicht werden viele diskrete Samples erzeugt; nur das Ergebnis, das dem Ziel am nächsten ist, wird ausgewählt und hierarchisch verfeinert

Struktur und Funktionsweise

Hierarchische diskrete Verteilungsstruktur

  • Jede Schicht erhält das in der vorherigen Schicht ausgewählte Sample als Eingabe und erzeugt mehrere Samples
  • Davon wird nur das Ergebnis, das dem aktuellen Trainingssample (Ground Truth) am nächsten ist, an die nächste Schicht weitergegeben
  • Durch Wiederholung werden die Ergebnisse schrittweise verfeinert und nähern sich der Zielverteilung an
  • Mit zunehmender Schichtzahl wächst der Repräsentationsraum der generierten Ausgaben exponentiell
  • Da das Netzwerk selbst mehrere Samples gleichzeitig erzeugt, kann es die Verteilung direkt darstellen

Bildrekonstruktion und latente Repräsentation

  • Für die Ausgabe jeder Schicht werden unterschiedliche Bilder erzeugt; nur die Ergebnisse, die dem Endziel ähneln, werden an die nächste Schicht weitergegeben
  • Rolle des Samplers: Auswahl des Bildes, das dem Ziel am ähnlichsten ist
  • Bei Generierungsaufgaben wird die Diversität durch zufälliges Sampling maximiert
  • Die latenten Variablen von DDN lassen sich als Baumstruktur interpretieren; jedes Sample wird auf ein Baumende (Leaf Node) abgebildet

Beispiele für experimentelle Ergebnisse

  • Approximation verschiedener 2D-Verteilungen (spiral, QR_code usw.)
  • Minimierung der KL divergence mit Split-and-Prune, Abschwächung von Problemen wie dead nodes oder density shift
  • Bei CIFAR-10, FFHQ usw. wurden eine einzigartige Generierungsweise und Effizienz im Vergleich zu GAN- und Diffusion-basierten Modellen bestätigt

Unterstützung für Zero-Shot Conditional Generation

  • DDN ermöglicht Zero-Shot Conditional Generation ohne Gradienten
  • Beispiel: Text-zu-Bild-Generierung mit einer CLIP-Black-Box
  • Auch unterschiedliche Bedingungen jenseits von Pixeln, etwa Stiltransfer oder Super-Resolution, werden effektiv verarbeitet

Training und zwei Modellparadigmen

  • Während des Trainings werden nach der Sample-Selektion in jeder Discrete Distribution Layer (DDL) Optimierungen mit Adam + Split-and-Prune durchgeführt
  • Single Shot Generator: Jede Schicht besitzt unabhängige Gewichte
  • Recurrence Iteration: Alle Schichten teilen sich die Gewichte

Verschiedene Anwendungsbeispiele

Zufällige Generierung von Gesichtsbildern

  • Ergebnisse der Gesichtsbildgenerierung auf Basis eines trainierten DDN zeigen Diversität und Qualität der Resultate

Bedingte Bildkolorierung / Edge-to-Color-Umwandlung

  • Auf Basis eines bestimmten Bildes wird ein Stil möglichst genau angenähert, während die Bedingungen erfüllt werden
  • Auflösung der generierten Bilder: 256x256

Visualisierung hierarchischer Generierung (MNIST usw.)

  • Visualisierung von Zwischen- und Endergebnissen für jede Generierungsstufe
  • Große Bilder sind Entwürfe, kleine Bilder die verfeinerten Endergebnisse

Zukünftige Forschungsrichtungen und Anwendungsmöglichkeiten

  • Verbesserungen der DDN-Leistung sind durch Hyperparameter-Tuning, explorative Experimente und theoretische Analysen möglich
  • Erweiterung bis hin zu Problemen auf ImageNet-Niveau und Aufbau praktisch einsetzbarer Modelle
  • Einsatz in verschiedenen Aufgaben wie Super-Resolution, Bildkolorierung, Tiefenschätzung, Posenschätzung und Robotik
    • Im Vergleich zu Diffusion-basierten Modellen Ausgabe mehrerer Samples in einem einzigen Forward-Pass
    • Effizient und leicht mit Einschränkungen kombinierbar, etwa für Unsicherheitsschätzung
    • Durch End-to-End-Differenzierbarkeit effiziente Kombination mit bestehendem diskriminativem oder Reward-basiertem Lernen
  • Einsatz auch für nicht-generative Aufgaben (unüberwachtes Clustering, Datenkompression usw.)
  • Folgeforschung, die Designideen von DDN auf bestehende Generationsmodelle anwendet (z. B. Kombination von Diffusion mit 1D-diskretem latentem Raum)
  • Neue Richtung auch für Language Modeling, etwa die direkte Modellierung binärer Zeichenketten ohne Tokenizer

Häufig gestellte Fragen

Q1: Steigt der GPU-Speicherbedarf?

  • Im Vergleich zu herkömmlichen GAN-Generatoren leicht erhöht, aber kein großer Unterschied
  • Beim Training werden Gradienten nur für ausgewählte Samples gespeichert; der Rest wird sofort verworfen, was Speicher freihält
  • Im Generierungsschritt wird nur ein zufälliges einzelnes Sample erzeugt, nicht die gesamte Sample-Menge, daher ist der zusätzliche Ressourcenverbrauch minimal

Q2: Gibt es ein Problem mit mode collapse?

  • Nein. Da der Loss immer nur auf das Ergebnis angewandt wird, das dem Ziel am ähnlichsten ist, bleibt die Diversität erhalten
  • Auch experimentell ist die Rekonstruktionsleistung auf dem Testset (Wiederherstellungsfähigkeit) stark
  • Bei hochdimensionalen Daten, die die Komplexität von DDN selbst nur schwer abdecken kann, können allerdings unscharfe Samples auftreten

1 Kommentare

 
GN⁺ 2025-10-11
Hacker-News-Kommentare
  • Die Autoren freuen sich darüber, dass sie die ICLR-Reviews als nützlich empfunden haben; sie sehen diesen Fall als Beispiel dafür, wie die Politik der ICLR, alle Paper-Reviews öffentlich zu machen, erfolgreich funktioniert.
    Die Reviewer dienen den Autoren als eine Art „Gutachten“ darüber, wie das Paper anonym interpretiert wurde, und zudem können auch Menschen außerhalb der traditionellen Wissenschaft die Diskussionen sehen, die hinter Annahme oder Ablehnung eines Papers stehen.
    Die Review-Links zu diesem Paper sind hier zu finden.
    Die vollständige Liste der abgelehnten Paper ist hier einsehbar.

    • Jedes Mal, wenn ich bei der ICLR abgelehnt wurde, konnte ich zumindest darauf hinweisen, welcher Reviewer die Kernidee des Papers nicht verstanden hatte.
  • In Fig.18 des Papers wird erwähnt, dass Taiji-DDN dem Taiji aus der altchinesischen Philosophie ähnelt.
    Diesen Teil fand ich etwas knifflig.
    Eine Verzweigungsstruktur ist ein sehr verbreitetes Konzept, daher wirkt eine Interpretation, die das speziell mit einer klassischen Redewendung verknüpft, etwas seltsam.

    • Meiner Meinung nach wollte man damit einfach nur das ungewöhnliche Naming auf unterhaltsame Weise erklären.
      Ich denke nicht, dass daran irgendetwas abergläubisch oder merkwürdig ist.
  • Ein Single-Author-Paper auf der ICLR zu sehen, wirkt besonders beeindruckend, vor allem wenn es eine so innovative Methode vorschlägt.

  • Die Struktur wirkt sehr interessant.
    Sie hat den Vorteil, dass sie leicht zu debuggen ist, aber da ein Sampler verwendet wird und kein Router im Mixture-of-Experts-(MoE)-Stil, wird in jeder Layer effektiv K-1-mal gerechnet und das Ergebnis verworfen.
    Für mich ist die naheliegendste Analogie eine Kombination aus MoE und einem x0-target-Latent-Diffusion-Modell, und die zentrale Innovation sind nicht die Router, sondern der geführte Sampler und der Split-and-Prune-Optimizer.
    Ich denke, dadurch wird das Training einfacher.

    • Da die Sampling-Wahrscheinlichkeit unabhängig vom Input 1/K beträgt, muss man bei der Inferenz nicht in jeder Layer alle K Zwischenberechnungen ausführen, sondern kann im Voraus festlegen, welche verwendet wird, und nur diese Operation ausführen.
      Das steht in Q1 des Abschnitts „Common Questions About DDN“ am Ende des Papers.

    • Ich glaube, Sie haben das Paper missverstanden.
      Es gibt keine „Experts“; der Output dient lediglich dazu, ein zufälliges Sampling aus einer Verteilung zu approximieren.
      Es gibt keine Latent Diffusion, sondern GAN-ähnliche Convolutions.
      Bei der Inferenz wird der Sample-Index im Voraus ausgewählt, sodass keine unnötigen Berechnungen anfallen.

  • Wirklich ein großartiges Konzept.
    Wenn man sich die Beispiele unter dem Abstract des Papers ansieht, ist es erstaunlich, an wie vielen Stellen das Modell ziemlich präzise Resultate liefert.
    Zum Beispiel der Haaransatz in Zeile 2, Spalte 3; die Hemdfarben in Zeile 2, Spalten 7/8/9/11; der gesamte Lippenstift in Zeile 4/6; sowie Position und Form von Gesicht und Haaren in Zeile 6, Spalte 4.
    Besonders faszinierend ist der rote Bereich unten links in Zeile 6, Spalte 4: Das Modell scheint erkannt zu haben, dass dort etwas Rotes ist, und hat genau an der richtigen Stelle einen roten Blob platziert.
    Es könnte ein Bias im Datensatz sein (etwa beim Lippenstift) oder selektive Wahrnehmung meinerseits, aber bei dem roten Schulterträger frage ich mich, ob es sich um Datenleckage, Overfitting oder einfach nur Zufall handelt.

  • Ich habe auch einmal eine ähnliche Struktur gebaut, wenn auch mit einer anderen Methode: eine Hierarchie aus Cross-Attention und gelernten Queries, umgesetzt mit L1 auf der Attention-Matrix, um mehr Sparsity zu erreichen.
    Diskrete hierarchische Repräsentationen sind wirklich spannend.
    Die Aktivierungsmuster jeder Layer wirken für jeden Input wie ein „Parse Tree“ und komprimieren Bilder effektiv in kurze Integer-Sequenzen.

  • Ich kenne mich damit nicht gut aus, daher eine Frage: Wenn das Netzwerk nur aus 1x1-Convolutions besteht, findet dann überhaupt kein Informationsaustausch zwischen Pixeln statt?
    Dann wäre ja jedes Pixel vollständig unabhängig, und ich frage mich, ob das Resultat dadurch nicht inkonsistent würde.

    • Das trifft hier zwar nicht zu, aber tatsächlich gibt es Architekturen, die Pixel unabhängig voneinander erzeugen.
      Man kann beliebige Pixel oder Bildelemente erzeugen, ohne den Rest generieren zu müssen; sie sind implizit.
      Beispiele sind NeRF, „single-pixel GAN“ und MAE; dazu gibt es dieses Paper, dieses Paper und dieses Paper.
      Dass das möglich ist, liegt daran, dass man dem Modell eine Fähigkeit zuschreiben kann, alle möglichen Daten zu „speichern“; unabhängige Generierung bedeutet dann einfach, einen bestimmten Teil dieser „Erinnerung“ abzurufen.
      Der latente Raum ist ein unveränderliches, platonisches Objekt, daher ist es nicht seltsam, jeden Punkt physisch separat zu erzeugen.
      So wie man beliebige Punkte mit einer Funktion wie y=mx+b erzeugen kann, ist auch Bildgenerierung nur ein Input für eine komplexere Funktion.
      Dieses Konzept ist nicht auf Bilder beschränkt; auch natürliche Sprache lässt sich bis zu einem gewissen Grad unabhängig erzeugen, und es kann mit diesem Code und meinem Vorschlag hier erweitert werden.

    • Bei DDN werden 1x1-Convolutions nur in der Output-Layer der Discrete Distribution Layer (DDL) verwendet.
      Die neuronalen Blöcke zwischen den DDLs sind die Quelle der wesentlichen Operationen und Parameter, und dort kommen standardmäßige 3x3-Convolutions zum Einsatz.

  • Interessant.
    Vor ein paar Tagen habe ich an Diffusion-Forschung gearbeitet, bei der tiefe graphbasierte Reaktionssysteme mit symbolischen Transformationsmatrizen parallelisiert werden, und viele Leute scheinen sich in diese allgemeine Richtung zu bewegen.
    Ich habe das Gefühl, dass diffusion-basierte Modelle in den nächsten 1–2 Jahren die Codegenerierung dominieren werden.

  • Wirklich cool; ich habe früher ziemlich viel Zeit in Representation Learning gesteckt, und das MNIST-Zifferngitter weckt Erinnerungen.
    Ich halte das für einen wirklich interessanten und neuen Ansatz und frage mich, wie gut er skaliert und in Nicht-Bild-Domänen funktioniert.
    Ich würde gern wissen, wo man künftige Arbeiten dazu weiterverfolgen kann.

    • Danke für das Interesse.
      Ich werde künftige Forschungsergebnisse sowohl auf GitHub als auch auf Twitter(X) veröffentlichen.
  • Sieht nach wirklich guter Forschung aus; ich habe es meiner Leseliste hinzugefügt.
    Danke fürs Teilen auf Hacker News.