- Der Artikel beschreibt die Bemühungen des Autors, die Leistung des Open-Source-Modells Stable Diffusion XL 1.0 (SDXL) von Stability AI zu verbessern. Dieses Modell erzeugt Bilder mit einer Auflösung von 1024x1024.
- SDXL besteht aus zwei Modellen: einem Basismodell und einem optionalen Refiner-Modell, das Details deutlich verbessert, ohne die Geschwindigkeit zu beeinträchtigen.
- Der Autor arbeitete mit SDXL unter Verwendung der Python-Bibliothek
diffusers von Hugging Face und lieferte Beispiele dafür, wie sowohl das Basismodell als auch das Refiner-Modell geladen und verwendet werden.
- Der Autor erzeugte Bilder auf einer Cloud-VM mit einer L4-GPU der Mittelklasse und erwähnte, dass jedes 1024x1024-Bild in etwa 22 Sekunden erzeugt wird.
- Der Autor experimentierte mit zwei neuen Funktionen von
diffusers: Prompt Weighting sowie Dreambooth-LoRA-Training und -Inferenz.
- Prompt Weighting verbessert das Endergebnis, indem es eine stärkere mathematische Gewichtung von Begriffen in den resultierenden gepoolten Text-Embeddings ermöglicht.
- Die Dreambooth-LoRA-Unterstützung ermöglicht das Feintuning von Stable Diffusion auf eine kleine Menge Quellbilder und ein Trigger-Keyword, sodass das „Konzept“ dieser Bilder in anderen Situationen mit diesem Keyword verwendet werden kann.
- Der Autor testete das Potenzial von SDXL, indem er ein LoRA für das Konzept „Ugly Sonic“ trainierte, das im ursprünglichen Datensatz von Stable Diffusion nicht enthalten ist. Die Ergebnisse waren deutlich besser und konsistenter.
- Der Autor trainierte außerdem ein LoRA auf stark verzerrten, unbrauchbaren Bildern mit dem Prompt „wrong“. Die Hoffnung war, dass das LoRA „wrong“ als „negativen Prompt“ verwenden und solche Bilder vermeiden könnte, um weniger verzerrte Bilder zu erzeugen.
- Der Autor stellte fest, dass LoRA SDXL intelligenter macht und den Intentionen eines Prompts treuer folgt, wodurch Qualität und Klarheit der erzeugten Bilder verbessert werden.
- Der Autor kam zu dem Schluss, dass das Training von SDXL auf schlechten Bildern einer Form des Reinforcement Learning from Human Feedback (RLHF) ähnelt, einer Technik, die auch ChatGPT so leistungsfähig macht.
- Der Autor plant, das Potenzial von „negativen LoRAs“ weiter zu erforschen, einschließlich ihrer Kombination mit anderen LoRAs zur Leistungssteigerung.
1 Kommentare
Hacker-News-Kommentare