14 Punkte von xguru 2022-11-24 | 1 Kommentare | Auf WhatsApp teilen
  • SD v1 hat die Landschaft der Open-Source-KI-Modelle verändert
  • SD v2 trainiert das Text-to-Image-Modell mit dem neuen Text-Encoder OpenCLIP und verbessert dadurch die Bildqualität im Vergleich zu v1 deutlich
  • Bildgenerierung in 512x512 und 768x768 möglich
  • Trainiert mit einer ästhetischen Teilmenge des LAION-5B-Datensatzes (außerdem werden Inhalte für Erwachsene durch einen NSFW-Filter ausgeschlossen)
  • Integriertes Upscaler-Diffusion-Modell zur Vervierfachung der Bildauflösung
    • Das bedeutet, dass sich 128x128-Bilder auf 512x512 hochskalieren lassen
    • Das heißt, SD v2 kann nun Bilder mit einer Auflösung von 2048x2048 und mehr erzeugen
  • Depth-to-Image-Diffusion-Modell: depth2img
    • Erweitert die bestehende Image-to-Image-Funktion um neue Möglichkeiten
    • Leitet zunächst die Tiefe des Eingabebildes ab und erzeugt dann mithilfe von Text- und Tiefeninformationen ein neues Bild
    • Das heißt, bestimmte Bereiche können abhängig von der Bildtiefe unterschiedlich generiert werden
  • Inpainting-Diffusion-Modell verbessert
  • Wie bei SD v1 so optimiert, dass es auch in einer Single-GPU-Umgebung ausgeführt werden kann

1 Kommentare

 
laeyoung 2022-11-25

Wir bieten ebenfalls einen Upscaler zusammen mit SD v1 an (Erstellung in 512 x 512 und, falls der Nutzer es wünscht, Upscaling um jeweils das Vierfache in Breite und Höhe), und diese Kombination ist schneller und besser als mit SD v1 direkt große Größen zu erzeugen.