11 Punkte von xguru 2023-04-13 | 1 Kommentare | Auf WhatsApp teilen
  • Diffusion-Modelle haben die Bild-, Audio- und Videogenerierung revolutioniert
    • Da sie jedoch einen iterativen Generierungsprozess durchlaufen müssen, sind sie langsam und schwer in Echtzeit einsetzbar
  • Consistency-Modelle können auch ohne Adversarial Training bereits in nur 1–2 Schritten Ergebnisse von hoher Qualität erzeugen
    • Auch bei diesem Modell verbessert sich die Qualität, wenn mehrfach gesampelt wird
    • Unterstützt Zero-Shot-Datenbearbeitung, Image Inpainting, Kolorierung, Super-Resolution usw. auch ohne spezielles Training
    • Kann durch Distillation aus einem vortrainierten Diffusion-Modell gewonnen oder als eigenständiges generatives Modell trainiert werden

1 Kommentare

 
xguru 2023-04-13

Das Paper wurde bereits früher veröffentlicht: Consistency Models https://arxiv.org/abs/2303.01469

Im ersten Paper zum Diffusion-Modell erfolgte die Generierung über 1000 Schritte; inzwischen wurde das kontinuierlich weiterentwickelt und auf unter 50 Schritte reduziert.
Ende letzten Jahres gab es auch Berichte über Distilled StableDiffusion2, das dies auf 1 bis 4 Schritte verkürzt, aber ein Paper dazu wurde noch nicht veröffentlicht.
https://twitter.com/EMostaque/status/1598131202044866560