- Diffusion-Modelle haben die Bild-, Audio- und Videogenerierung revolutioniert
- Da sie jedoch einen iterativen Generierungsprozess durchlaufen müssen, sind sie langsam und schwer in Echtzeit einsetzbar
- Consistency-Modelle können auch ohne Adversarial Training bereits in nur 1–2 Schritten Ergebnisse von hoher Qualität erzeugen
- Auch bei diesem Modell verbessert sich die Qualität, wenn mehrfach gesampelt wird
- Unterstützt Zero-Shot-Datenbearbeitung, Image Inpainting, Kolorierung, Super-Resolution usw. auch ohne spezielles Training
- Kann durch Distillation aus einem vortrainierten Diffusion-Modell gewonnen oder als eigenständiges generatives Modell trainiert werden
1 Kommentare
Das Paper wurde bereits früher veröffentlicht: Consistency Models https://arxiv.org/abs/2303.01469
Im ersten Paper zum Diffusion-Modell erfolgte die Generierung über 1000 Schritte; inzwischen wurde das kontinuierlich weiterentwickelt und auf unter 50 Schritte reduziert.
Ende letzten Jahres gab es auch Berichte über Distilled StableDiffusion2, das dies auf 1 bis 4 Schritte verkürzt, aber ein Paper dazu wurde noch nicht veröffentlicht.
https://twitter.com/EMostaque/status/1598131202044866560