2 Punkte von GN⁺ 2023-08-23 | 1 Kommentare | Auf WhatsApp teilen
  • Der Artikel beschreibt die Bemühungen des Autors, die Leistung des Open-Source-Modells Stable Diffusion XL 1.0 (SDXL) von Stability AI zu verbessern. Dieses Modell erzeugt Bilder mit einer Auflösung von 1024x1024.
  • SDXL besteht aus zwei Modellen: einem Basismodell und einem optionalen Refiner-Modell, das Details deutlich verbessert, ohne die Geschwindigkeit zu beeinträchtigen.
  • Der Autor arbeitete mit SDXL unter Verwendung der Python-Bibliothek diffusers von Hugging Face und lieferte Beispiele dafür, wie sowohl das Basismodell als auch das Refiner-Modell geladen und verwendet werden.
  • Der Autor erzeugte Bilder auf einer Cloud-VM mit einer L4-GPU der Mittelklasse und erwähnte, dass jedes 1024x1024-Bild in etwa 22 Sekunden erzeugt wird.
  • Der Autor experimentierte mit zwei neuen Funktionen von diffusers: Prompt Weighting sowie Dreambooth-LoRA-Training und -Inferenz.
  • Prompt Weighting verbessert das Endergebnis, indem es eine stärkere mathematische Gewichtung von Begriffen in den resultierenden gepoolten Text-Embeddings ermöglicht.
  • Die Dreambooth-LoRA-Unterstützung ermöglicht das Feintuning von Stable Diffusion auf eine kleine Menge Quellbilder und ein Trigger-Keyword, sodass das „Konzept“ dieser Bilder in anderen Situationen mit diesem Keyword verwendet werden kann.
  • Der Autor testete das Potenzial von SDXL, indem er ein LoRA für das Konzept „Ugly Sonic“ trainierte, das im ursprünglichen Datensatz von Stable Diffusion nicht enthalten ist. Die Ergebnisse waren deutlich besser und konsistenter.
  • Der Autor trainierte außerdem ein LoRA auf stark verzerrten, unbrauchbaren Bildern mit dem Prompt „wrong“. Die Hoffnung war, dass das LoRA „wrong“ als „negativen Prompt“ verwenden und solche Bilder vermeiden könnte, um weniger verzerrte Bilder zu erzeugen.
  • Der Autor stellte fest, dass LoRA SDXL intelligenter macht und den Intentionen eines Prompts treuer folgt, wodurch Qualität und Klarheit der erzeugten Bilder verbessert werden.
  • Der Autor kam zu dem Schluss, dass das Training von SDXL auf schlechten Bildern einer Form des Reinforcement Learning from Human Feedback (RLHF) ähnelt, einer Technik, die auch ChatGPT so leistungsfähig macht.
  • Der Autor plant, das Potenzial von „negativen LoRAs“ weiter zu erforschen, einschließlich ihrer Kombination mit anderen LoRAs zur Leistungssteigerung.

1 Kommentare

 
GN⁺ 2023-08-23
Hacker-News-Kommentare
  • Das Konzept von personalisiertem RLHF (Reinforcement Learning from Human Feedback) gewinnt an Interesse und hat das Potenzial, AI-Ausgaben an individuelle Vorlieben anzupassen.
  • Es wurde vorgeschlagen, bei allen von AI-Systemen erzeugten Bildern eine „Gefällt mir/Gefällt mir nicht“-Feedback-Option zu implementieren, zusammen mit einem optionalen Textlabel zum Ignorieren „falscher“ Bilder.
  • Es wurde die Frage nach der schnellstmöglichen Iterationsschleife für Feedback aufgeworfen, und die Idee wurde vorgestellt, etwa 10k Präferenzen pro Sekunde zu sammeln, um die Wahrscheinlichkeit zu erhöhen, dass das Modell Bilder ausgibt, die man persönlich bevorzugt.
  • Die Nutzung von Stable Diffusion (SD) für künstlerisches Schaffen wird anerkannt, und der Unterschied zwischen SD 1.5/2.0 und SDXL wurde als wichtig hervorgehoben.
  • Data Scientists haben alle Tastenanschläge aufgezeichnet, die sie auf ihren PCs ausgeführt haben, und diese gelten nun als nützliche Daten für AI-Systeme.
  • Es wurde die Idee geteilt, mit dem SDXL Base Model Bilder durch Mischen verschiedenartiger Stil-Prompts zu erzeugen, damit LoRA (Learning from Observations and Rewards) zu trainieren und anschließend mit diesem LoRA + Trainingssatz erneut aus den Prompts zu generieren, die zur Erstellung dieses LoRA + Trainingssatzes verwendet wurden.
  • Das Ergebnis dieses Prozesses wird als verstärkter Effekt beschrieben – mehr Fehler, seltsamer, in hoher Auflösung.
  • Es wird angenommen, dass der Release generativer Bild-AI wegen höherer VRAM- und Rechenanforderungen sowie Ausgaben geringerer Qualität im Vergleich zu spezialisierten SD1.5-Modellen wenig Beachtung fand.
  • Es wurde berichtet, dass für Stable Diffusion XL erstellte LORAs nur mit allgemeinen negativen Prompts gut funktionieren.
  • Es gibt Kontroversen über die Fähigkeit, mehrere LoRAs gleichzeitig zu aktivieren.
  • Es wird anerkannt, dass RLHF GPT3 benutzerfreundlicher gemacht hat, und es besteht die Hoffnung, dass zukünftige Modelle schlechte Ergebnisse als negative Trainingsdaten enthalten werden.
  • Die Möglichkeit, LoRAs zusammenzuführen, wurde erwähnt, und es besteht Interesse daran, ein LoRA mit persönlichen Themen, ein weiteres LoRA zur Verbesserung der Ergebnisse und ein drittes LoRA für einen bestimmten Stil zu verwenden.