Ein Experiment, das Stable Diffusion XL mit schlechten KI-generierten Bildern intelligenter macht

(minimaxir.com)

2 Punkte von GN⁺ 2023-08-23 | 1 Kommentare | Auf WhatsApp teilen

Stable Diffusion XL 1.0 ist ein Open-Source-Modell, das standardmäßig Bilder in 1024x1024 erzeugen kann; dank diffusers-Unterstützung und dem Refiner-Modell ist die Einstiegshürde für eigene Experimente niedrig.
Dreambooth-LoRA trainiert nur kleine Adapter statt das gesamte Modell neu zu trainieren, sodass sich bestimmte Konzepte schnell hinzufügen und einfach teilen lassen.
Das zentrale Experiment verknüpft von SDXL erzeugte verzerrte, minderwertige Bilder mit wrong, trainiert darauf und vergleicht anschließend, ob sich die Ergebnisse verbessern, wenn dies als negative prompt verwendet wird.
Das wrong-LoRA zeigte bei mehreren Prompts Fälle, in denen Beleuchtung, Textur, Layout, die Darstellung von Händen und Armen sowie die Prompt-Treue besser wurden als bei reinem SDXL oder einem einfachen wrong-Negative-Prompt.
Weil dabei schlechte Bilder ausgewählt werden, um dem Modell beizubringen, welche Richtung es vermeiden soll, ist der Ansatz eher mit negative LoRA und RLHF verwandt; bei Datengenerierung und Trainingszeit gibt es jedoch noch Verbesserungspotenzial.

SDXL 1.0 und die Experimentierumgebung

Stability AI hat im vergangenen Monat Stable Diffusion XL 1.0 veröffentlicht und als Open Source bereitgestellt.
SDXL ist eines der Open-Source-Modelle, die ohne zusätzliche Umwege standardmäßig Bilder in 1024x1024 Auflösung erzeugen können, und kann dadurch mehr Details liefern.
Das Modell besteht aus zwei Teilen.
- base model: zuständig für die grundlegende Bildgenerierung
- refiner model: verbessert die Details deutlich; da kein Geschwindigkeits-Overhead entsteht, wird empfohlen, es wenn möglich zusammen zu verwenden
Die diffusers von Hugging Face unterstützen SDXL und Performance-Optimierungen, sodass sich mit nur kleinen Änderungen am Beispielcode experimentieren lässt.
Das Experiment wurde auf einer Spot-Instance der Google Cloud Platform mit einer NVIDIA L4 GPU durchgeführt.
- Gesamtkosten: 0,24 US-Dollar pro Stunde
- Für die Generierung eines 1024x1024-Bildes werden etwa 22 Sekunden benötigt.
- Auf einer Mittelklasse-GPU kann jeweils nur ein Bild gleichzeitig erzeugt werden.
- Bei geringerer Auflösung geht es zwar schneller, die Ergebnisse sind jedoch deutlich schlechter und werden daher nicht empfohlen.

Prompt-Gewichtung in diffusers und Dreambooth LoRA

diffusers unterstützen zwei Funktionen, die in früheren Stable-Diffusion-Experimenten nicht verwendet wurden.
- Prompt-Gewichtung
- Training und Inferenz mit Dreambooth LoRA
Die Prompt-Gewichtung nutzt compel, um die Wichtigkeit von Wörtern oder Phrasen mathematischer zu steuern.
- Durch mehrere + oder - an einem Wort lässt sich seine Bedeutung im resultierenden Embedding erhöhen oder verringern.
- Phrasen können in Klammern gesetzt werden, um bestimmte Medieneigenschaften zu verstärken, etwa in San Francisco landscape by Salvador Dali, (oil on canvas)+++.
In Tests milderte dieser Ansatz die seit Stable Diffusion 2.0 erschwerte Prompt-Steuerung weitgehend ab.
- Standardwert für guidance_scale: 7.5
- Max Woolf bevorzugt 13, und alle LoRA-Beispiele im Artikel verwenden ebenfalls guidance_scale 13.
Dreambooth ist eine Technik, mit der Stable Diffusion anhand weniger Quellbilder und eines Trigger-Keywords ein bestimmtes Konzept lernt.
LoRA trainiert statt des gesamten Stable-Diffusion-Modells nur kleine Adapter für das visuelle Modell.
- Das Training ist auf einer einzelnen günstigen GPU in etwa 10 Minuten möglich.
- Die Qualität von finalem Modell plus LoRA ist ähnlich wie bei vollständigem Fine-Tuning.
- Es wird als kleine Binärdatei gespeichert und lässt sich leicht teilen.
- Was oft als Stable-Diffusion-Fine-Tuning bezeichnet wird, ist in vielen Fällen die Erzeugung eines LoRA.
- Es kann jeweils nur ein LoRA gleichzeitig aktiviert werden; mehrere LoRAs lassen sich zwar zusammenführen, das ist aber Feinarbeit.

Mit dem Ugly-Sonic-LoRA das Potenzial von SDXL überprüft

Bevor LoRA breit eingesetzt wurde, wurden Konzepte per textual inversion im Text-Encoder trainiert; das dauerte länger und die Ergebnisse konnten schwerer handhabbar sein.
Zuvor wurde der Meme-Charakter Ugly Sonic, der nicht im ursprünglichen Stable-Diffusion-Datensatz enthalten war, per textual inversion trainiert, allerdings mit gemischten Ergebnissen.
Um die Möglichkeiten von SDXL zu prüfen, wurde Ugly Sonic erneut als LoRA trainiert.
- Verwendet wurde das train_dreambooth_lora_sdxl.py script von Hugging Face.
- Einige Parameter wurden angepasst, grundsätzlich funktionierte es aber direkt.
Das trainierte Ugly Sonic LoRA erzeugt bei verschiedenen Prompts deutlich bessere und konsistentere Bilder als zuvor.

Versuchsaufbau des `wrong`-LoRA

Frühere Experimente mit textual inversion für Negative Prompts wurden mit SDXL-LoRA erneut durchgeführt, wobei verzerrte und minderwertige Bilder mit dem Prompt wrong verknüpft und darauf trainiert wurden.
Ziel war zu prüfen, ob das Modell solche Bilder stärker meidet und weniger verzerrte Resultate erzeugt, wenn wrong als negative prompt verwendet wird.
Die synthetischen wrong-Bilder wurden mit SDXL selbst erzeugt.
- Dafür wurde das wrong image generator Jupyter Notebook geschrieben.
- Um schlechte Bildtypen wie blurry oder bad hands deutlicher voneinander abzugrenzen, wurden verschiedene Prompt-Gewichtungen eingesetzt.
- Um hochauflösende Bilder in geringer Qualität zu erzeugen, musste erneut SDXL verwendet werden.
Die erzeugten wrong-Bilder wirken teils wie Punkrock-Albumcover aus den 2000ern oder sehen auf den ersten Blick normal aus, haben bei genauerem Hinsehen jedoch unangenehme uncanny valley-Eigenschaften.
sdxl-wrong-lora wird in das SDXL-Base-Model geladen.
- Für den Refiner ist kein LoRA nötig.
- Ein Jupyter Notebook für den Vergleich wurde ebenfalls veröffentlicht.

Vergleichsmethode und zentrale Ergebnisse

Verglichen wurden drei Varianten.
- eine base + refiner-Pipeline ohne LoRA
- eine Pipeline ohne LoRA, aber mit wrong als negative prompt
- eine Pipeline mit angewendetem wrong-LoRA und wrong als negative prompt
Alle Generierungen nutzten denselben Seed, um die Bildkomposition ähnlich zu halten und den Einfluss von wrong-Negative-Prompt und LoRA leichter vergleichen zu können.
A wolf in Yosemite National Park, chilly nature documentary film photography
- Fügt man beim Basismodell wrong hinzu, bekommt das Waldbild teilweise mehr Blätter und Tiefe.
- Das LoRA verbessert Beleuchtung, Schatten und Blattdetails weiter und ändert die Komposition so, dass der Wolf in die Kamera blickt.
An extreme close-up of a wolf in Yosemite National Park, chilly nature documentary film photography
- Das LoRA-Ergebnis ist bei Textur, Lebendigkeit und Schärfe besser.
- Schon das bloße Hinzufügen des wrong-Prompts verändert den Blickwinkel.
a large delicious hamburger (in the shape of five-dimensional alien geometry)++++, professional food photography
- Trotz verschiedener Prompt-Engineering-Versuche gelingt der Hamburger in fünfdimensionaler Alien-Geometrie nicht wirklich.
- Das Standard-SDXL scheint alien wörtlicher zu nehmen als erwartet.
- Das LoRA erzeugt einen stärker „alienhaften“ Hamburger, den Menschen kaum essen könnten, mit glänzenderer Inszenierung.
lossless PDF scan of the front page of the January 2038 issue of the Wall Street Journal featuring a cover story about (evil robot world domination)++
- Die Lesbarkeit des Textes ist gegenüber Stable Diffusion 2.0 verbessert, bleibt aber in allen drei Fällen ähnlich.
- Das LoRA verbessert ein moderneres Seitenlayout, abwechslungsreichere Artikelanordnungen und die relative Schriftstärke in den Überschriften.
- Das Basismodell wirkt selbst mit wrong-Negative-Prompt eintönig und wie altes braunes Papier.
USA President Taylor Swift (signing papers)++++, photo taken by the Associated Press
- Im Standard-SDXL ist der rechte Arm sehr unrealistisch; mit zusätzlichem wrong wird es noch schlechter.
- Beim LoRA wird das Armproblem korrigiert, und auch die Jackenfarbe geht eher in ein klareres Weiß statt in gelbliches Weiß.
- Dennoch bleibt die Erzeugung von Menschen mit SDXL 1.0 schwierig und wenig verlässlich, und es gilt weiterhin der Hinweis, Hände besser nicht zu genau anzusehen.

Veränderungen in weiteren Beispielen

realistic human Shrek blogging at a computer workstation, hyperrealistic award-winning photo for vanity fair
- Hände und Beleuchtung werden besser, Kleidung und Hintergrund interessanter.
pepperoni pizza in the shape of a heart, hyperrealistic award-winning professional food photography
- Details der Pepperoni und hitzebedingte Blasen sind besser sichtbar, übermäßige Pepperoni am Rand nehmen ab, und der Rand wirkt knuspriger.
presidential painting of realistic human Spongebob Squarepants wearing a suit, (oil on canvas)+++++
- Spongebob bekommt wieder eine Nase, und der Anzug hat mehr Knöpfe.
San Francisco panorama attacked by (one massive kitten)++++, hyperrealistic award-winning photo by the Associated Press
- Das LoRA zeigt tatsächlich einen stärkeren Versuch, dem Prompt zu folgen.
hyperrealistic death metal album cover featuring edgy moody realistic (human Super Mario)++, edgy and moody
- Marios Proportionen liegen näher an der Spielfigur, und die Ausleuchtung der Figur wird schärfer und düsterer.

Verfügbare Materialien und Reproduzierbarkeit

Das wrong-LoRA ist auf Hugging Face veröffentlicht.
Für andere Interfaces als diffusers kann die Wirksamkeit nicht garantiert werden.
Die für die Bildgenerierung verwendeten Notebooks sind im GitHub repository verfügbar.
Das Colab Notebook für normales SDXL 1.0 + Refiner + wrong-LoRA läuft auf einer kostenlosen T4-GPU.
Hochauflösende Versionen der im Artikel verwendeten generierten Bilder sind im post source code zu finden.

Warum das `wrong`-LoRA funktioniert haben könnte

Erwartet wurde, dass das wrong-LoRA schlicht Bildqualität und Schärfe erhöht; tatsächlich deuteten die Ergebnisse eher darauf hin, dass SDXL der Prompt-Intention treuer folgt.
Technisch legt ein Negative Prompt den Bereich im latenten Raum fest, in dem der Diffusionsprozess startet.
- bei Verwendung des wrong-Negative-Prompts ohne LoRA
- bei Verwendung des wrong-Negative-Prompts mit angewendetem LoRA
- In beiden Fällen ist der Startbereich derselbe.
Intuitiv lässt sich das so deuten, dass das LoRA unerwünschte Regionen des hochdimensionalen latenten Raums so umformt, dass sie dem Startbereich ähnlicher werden, wodurch reguläre Generierungen diese Regionen seltener erreichen und die Ergebnisse besser werden.
Die Verbesserung von SDXL durch Training auf schlechten Bildern kann technisch als eine Form von RLHF gesehen werden.
- OpenAI verbessert Modelle über positive Nutzerinteraktionen und reduziert negatives Verhalten implizit.
- In diesem Experiment werden von Nutzern als schlecht ausgewählte Bilder genutzt, um positives Verhalten implizit zu erhöhen.
Dreambooth LoRA benötigt nicht annähernd so viele Eingabedaten wie große Sprachmodelle.

Verbleibendes Entwicklungspotenzial und nächste Experimente

Bei negative LoRA gibt es noch Raum für Verbesserungen.
- Die Parameter zur Erzeugung des synthetischen Datensatzes lassen sich weiter verfeinern.
- Das LoRA könnte länger trainiert werden.
Es soll auch getestet werden, ob sich die Leistung durch das Zusammenführen mit anderen LoRAs steigern lässt.
- Als Beispiel wird besonders die Kombination aus wrong-LoRA und Ugly-Sonic-LoRA genannt.
SDXL unterstützt auch ein diffusers-Modell für ControlNet.
- ControlNet kann Gesamtform und Komposition erzeugter Bilder stark steuern.
- ControlNet lässt sich ebenfalls zusammen mit LoRA verwenden.
Als Motivation für die Forschung zur Verbesserung der Qualität KI-generierter Bilder wird transparente KI-Journalistik betont.
- Dazu gehören reproduzierbare Prompts und die Veröffentlichung der Jupyter Notebooks.
- Im aktuellen Venture-Capital-Umfeld könnten neue Verbesserungen bei der KI-Bildgenerierung in der Branche unveröffentlicht bleiben.
- Zugleich wird klargestellt, dass weder unterstützt noch gutgeheißen wird, professionelle Künstlerinnen und Künstler durch KI zu ersetzen.

1 Kommentare

GN⁺ 2023-08-23

Hacker-News-Kommentare

Das Konzept personalisierter RLHF ist wirklich interessant.
Wenn man immer mehr mit einem bestimmten generativen KI-System interagiert, dürfte sich genug Interaktionsdaten ansammeln, um die Ausgaben sinnvoll in Richtung der persönlichen Vorlieben anzupassen. Schön wäre, wenn die UI so verbessert würde, dass dieser Prozess möglichst transparent wird.
Aus Produktsicht scheint es relativ einfach, jedem erzeugten Bild „Gefällt mir/Gefällt mir nicht“-Feedback hinzuzufügen und ein optionales Textlabel zu ergänzen, das wrong überschreibt. Sobald genug menschliches Feedback zusammengekommen ist, oder per nächtlichem Batch-Job, könnte man eine neue LoRA passend zu den persönlichen Präferenzen nachtrainieren.
Menschliches Feedback ließe sich auch bei der impliziten Baumsuche sammeln, bei der aus einem Prompt N Kandidatenbilder erzeugt werden und eines zur Verfeinerung ausgewählt wird. Noch expliziter ginge es mit einer UI, in der man Batches schnell ranken/bewerten kann, oder mit einem Papierkorb, in den man bei jedem iterativen Verbesserungsschritt missliebige Bilder wirft, um das negative Feedback später für Projekt- oder globale LoRA-Updates zu bündeln.
Mich würde auch interessieren, wie kurz der schnellste Iterationszyklus werden kann, wenn man direkt nach der Bilderzeugung eine sehr knappe Feedback-Schleife per Tastendruck baut. Wenn man ein paar Stunden an ein Gerät gebunden ist und etwa 10.000 Präferenzen mit einer pro Sekunde sammelt: Könnte das Modell dann deutlich besser Bilder erzeugen, die einem persönlich gefallen? Allerdings wäre das ziemlich intensiv und hätte auch etwas von Clockwork Orange.
Im Artikel habe ich nicht gesehen, wie viele wrong-Bilder es gab, aber beim Überfliegen des Codes sieht es nach 13 Keywords mit jeweils etwa 6 Bildern aus, also nicht nach besonders vielen. Wenn das Modell mit nur ungefähr 100 Feedbacks so stark angepasst wurde, ist das erstaunlich wenig.
- AI Horde setzt diesen Ansatz in Zusammenarbeit mit Stability.ai im Grunde bereits um.
  AI Horde ist ein Open-Source-Distributed-Cluster, der mit GPUs von Freiwilligen betrieben wird, und Stability.ai stellt einen Teil der GPU-Ressourcen bereit, um A/B-Tests laufen zu lassen.
  Wenn man in Lucid Creations, der UI von AI Horde, oder in dem selbstgebauten ArtBot Bilder mit dem SDXL-Modell anfordert, bekommt man zwei Bilder. Eines wird mit SDXL v1.0 erzeugt, das andere mit einem aktualisierten Modell, aber man weiß nicht, welches welches ist.
  Nutzer müssen nur auswählen, welches der beiden Bilder ihnen besser gefällt; die Ergebnisse gehen zurück an Stability.ai und fließen dort in Analysen und künftige Bildmodelle ein.
  Zusätzlich arbeiten AI Horde und LAION auf ähnliche Weise zusammen, um benutzerdefinierte ästhetische Bewertungen für denselben Zweck bereitzustellen.
  https://aihorde.net/
  https://dbzer0.com/blog/stable-diffusion-xl-beta-on-the-ai-h...
  https://dbzer0.itch.io/lucid-creations
  https://tinybots.net/artbot
  https://laion.ai/blog/laion-stable-horde/
- Genau. 6 CFG-Werte × 13 Keywords = 78 Bilder.
  Einige davon sind allerdings nicht besonders nützlich. „random text“ etwa scheint gelegentlich Ergebnisse wie eine altmodische SMS-App zu liefern.
  LoRA funktioniert gut und kommt schon mit 4–5 Bildern aus, aber das bezog sich auf das ältere, kleinere Stable Diffusion. Deshalb habe ich für SDXL mehr Bilder verwendet und LoRA auch etwas länger trainiert. Zum Vergleich: Die Ugly-Sonic-LoRA nutzte etwa 14 Bilder und war vermutlich overfittet.
- Vielleicht ist das Open-Source-Framework https://github.com/agentic-ai/enact interessant, an dem wir arbeiten.
  Es ist noch in einer frühen Phase, aber die zentrale Einsicht ist: Viele generative KI-Flows, ob Text oder Bild, ob Einzelmodell oder Modellkette, müssen anhand irgendeiner Form von Feedbacksignal ausgerichtet werden. Deshalb ergibt es Sinn, dafür eine grundlegende Infrastruktur zu bauen. Eine unserer frühen Demos war genau so ein Flow; statt die eigentlichen Modellgewichte anzupassen, haben wir als günstigen Ersatz Prompt-Verbesserung verwendet.
  Grob gesagt wollen wir eine Kerninfrastruktur auf Python-Ebene bauen, mit der sich Flows fast wie natives Python einfach schreiben lassen und die Ausführung generativer Flows inklusive der Ausführung „menschlicher Komponenten“ wie Evaluatoren nachverfolgbar ist. Zeitreisen/Zurückspulen/erneutes Ausführen, automatische gradio-UIs und FastAPI werden ebenfalls unterstützt, wobei die beiden Letzteren noch sehr experimentell sind.
  Mittelfristig möchten wir es ermöglichen, beliebige generative Flows in einen „Human Evaluation“-Flow zu kapseln, sie automatisch als API oder gradio-UI bereitzustellen und sie dann mit verschiedenen Verfahren wie RLHF, Feinabstimmung und A/B-Tests generativer Teilkomponenten leichter auszurichten.
  Derzeit konzentrieren wir uns darauf, das „Grundgerüst“ sauber hinzubekommen, aber die Quickstart-Doku https://github.com/agentic-ai/enact/blob/main/examples/quick... und das README https://github.com/agentic-ai/enact/tree/main#why-enact geben schon einen guten Eindruck von der Richtung. Wir suchen Leute, die es ausprobieren oder beitragen möchten.
- RLHF bedeutet Reinforcement Learning aus menschlichem Feedback.
  Werden solche Systeme nicht ohnehin bereits darauf trainiert, anhand menschlichen Feedbacks gute Dinge höher und schlechte niedriger zu bewerten?
- Implizites RLHF funktioniert besser als die explizite Variante.
  Es ist ähnlich wie beim Mom Test: Wenn man Menschen bittet, etwas zu bewerten, beeinflusst schon die Frage selbst die Bewertung.
  Man kann einen Upscale-Flow verwenden, muss aber nicht wie das Discord-basierte Midjourney darauf beschränkt sein. Man kann alle Bilder in voller Größe anzeigen und auch erkennen, ob Nutzer sie kopiert, gespeichert oder per Rechtsklick aufgerufen haben.
Mit Stable Diffusion Kunst zu erstellen ist zu einem wirklich unterhaltsamen Hobby geworden.
Der Unterschied zwischen SD 1.5/2.0 und SDXL ist enorm, und es ist beeindruckend, wie schnell die Qualität besser wird.
- Kannst du erklären, warum der Unterschied zwischen SD 1.5/2.0 und SDXL so groß ist?
  Ich habe SDXL noch nicht ausprobiert, aber 1.5 sehr viel genutzt.
  Bisher habe ich es als höhere Auflösung und höhere „Qualität“ verstanden, aber da ich realistic vision 3 lange verwendet habe, hatte ich nie Qualitätsprobleme. Mit Upscaling brauchte ich auch keine höhere Auflösung.
Vor etwa 5 Jahren war es unter einigen Data Scientists ein Trend, alle Tastatureingaben auf dem PC mitzuprotokollieren; jetzt bin ich ein bisschen neidisch, weil diese Daten tatsächlich ziemlich nützlich geworden sind.
Ich habe eine Sammlung von 30.000 Bildern aus meinen Lieblings-Animes und habe sie vor 5 Jahren sogar wettbewerbsartig nach ästhetischen Scores gerankt; dafür dürfte das ziemlich brauchbar sein.
Sehr cool. Ich habe vor, diese Idee demnächst selbst laufen zu lassen. Ich bin ja auch ein bisschen Wissenschaftler :)
Vor ein paar Tagen habe ich etwas Interessantes ausprobiert. Ich habe das SDXL Base Model mit Diffusers verwendet, Bilder erzeugt, indem ich verschiedene Style-Prompts gemischt habe, dann mit diesen Bildern eine LoRA trainiert und anschließend wieder mit dieser LoRA und den Prompts generiert, die ich zum Erstellen des Trainingssets verwendet hatte.
Dadurch wurde der Effekt verstärkt: Es wurde glitchiger, seltsamer und wirkte hochauflösender.
Die Ergebnisse gibt es unter https://imgur.com/gallery/vUobKPK.
Natürlich werde ich mit diesen Erzeugnissen noch eine weitere LoRA trainieren und den Prozess wiederholen.
Wenn man darüber nachdenkt, ist das eine ziemlich gute Methode, um das 77-Token-Limit von Diffusers zu umgehen und viel mehr Styles zu entwickeln.
Die LoRA kann man unter https://replicate.com/galleri5/nammeh ausprobieren. Dafür braucht man ein GitHub-Konto.
Ich werde sie demnächst auch auf CivitAI hochladen.
Es wäre schön, wenn du die LoRA auch auf civitai.com und im Stable-Diffusion-Reddit hochladen würdest.
Die Ergebnisse sehen ziemlich gut aus, und ich freue mich darauf, sie auszuprobieren. Mir war nicht klar, dass der Hype um generierte Bilder abgeflaut ist; ich nutze es weiterhin regelmäßig, daher fühlt es sich für mich immer noch wie ein Dauerthema an.
- Die ursprüngliche Veröffentlichung habe ich in /r/StableDiffusion gepostet, aber die Kommentare bestanden nur aus „Warum ist es nicht mit A1111 kompatibel?“, und ich konnte kein gutes Skript zur Konvertierung finden: https://www.reddit.com/r/StableDiffusion/comments/15r5k3i/i_...
  Civitai hat die LoRA übernommen und veröffentlicht: https://civitai.com/models/128708/sdxl-wrong-lora
- Menschen neigen dazu, von ihren eigenen Gewohnheiten auszugehen und anzunehmen, dass alle es genauso machen; mir passiert das auch ziemlich oft. Aus meiner Sicht ist der Hype um generierte Bilder immer noch heiß.
  Wenn ich von SDXL nicht besonders begeistert war, dann deshalb, weil ich keinen enormen Sprung bei der Bildqualität gespürt habe. Dass die Größe sich verdoppelt hat, ist nett, aber ich will nicht immer 1024x1024-Bilder erzeugen, also ist das auch ein Problem.
  Ich nutze immer noch von Dritten trainierte SD-1.5-Modelle; die Ausgaben sind wirklich gut, und es gibt etwa fünf Upscaling-Methoden, von denen mindestens eine beim Vergrößern neue Details hinzufügt.
Etwas verwandt damit: Ich weiß noch nicht genau warum, aber die LoRAs, die ich für Stable Diffusion XL erstellt habe, funktionieren nur dann gut, wenn ich ziemlich allgemeine negative Prompts verwende.
Ich habe mit 6 Fotos meines Gesichts feinabgestimmt; wenn ich nur positive Prompts nutze, ähneln die erzeugten Figuren mir nicht besonders. Wenn ich aber allgemeine negative Begriffe wie „low quality“ hinzufüge, wird die Darstellung meines Gesichts plötzlich fast exakt.
Ich habe mehrere Modelle trainiert, und das blieb auch bei unterschiedlichen Learning Rates und verschiedenen Zahlen von Trainingsepochen so.
Am Ende habe ich das Gefühl, dass dieses Phänomen irgendwie mit der Ursache dessen zusammenhängt, was minimaxir in diesem Beitrag beobachtet hat.
Der Aussage, dass der Hype um generative Bild-KI abgeflaut sei und die SDXL-Veröffentlichung deshalb weitgehend leise vorbeigegangen sei, stimme ich nicht zu.
Nach den Leuten, mit denen ich gesprochen habe, gab es zwei Gründe. Erstens: höhere VRAM- und Rechenanforderungen. Zweitens: die wahrgenommene niedrigere Ergebnisqualität im Vergleich zu spezialisierten SD1.5-Modellen.
Wenn auch nur einer der beiden Punkte anders gewesen wäre, bin ich sicher, dass es deutlich populärer geworden wäre.
Letztlich warten die meisten aber ab, ob spezialisierte SDXL-Modelle spezialisierte 1.5-Modelle tatsächlich übertreffen können.
- Der Grund ist die schlechtere Ausgabequalität.
  Für die meisten Leute, die nur oberflächlich damit in Berührung kommen, ist es eher ein Spielzeug, mit dem man kurz herumprobiert. Die enthusiastischen SD-Fans ... machen vermutlich Hardcore-Zeug.
  XL ist schwach bei Pornos. Stability hat Angst vor dem bekommen, was sie geschaffen haben, und versucht, sich in Richtung „Sicherheit“ abzusichern. Kate-Middleton- oder Emma-Watson-Pornos dürfen schließlich nicht zu plausibel aussehen.
  Die Leute werden 1.5 weiterverwenden, bis etwas Besseres kommt, vor allem etwas Besseres für Pornos.
Dieses Konzept ist nicht neu. Auf civit.ai gibt es viele negative embeddings, die man in negative Prompts einfügt, um Hände und schlechte Anatomie zu korrigieren.
- Das waren die früheren Textual-Inversion-Experimente, die im Artikel erwähnt wurden: https://minimaxir.com/2022/11/stable-diffusion-negative-prom...
  In diesem Artikel geht es um negative LoRAs, die auf technischer Ebene nicht auf die gleiche Weise funktionieren.
Vielleicht liegt es daran, dass ich in den 90ern in diesem widersprüchlichen Feld von „Gegenkultur vs. ebenfalls Gegenkultur, aber auf MTV“ aufgewachsen bin, aber wenn ich sehe, dass ein Prompt mit Tag-Referenzen wie „award winning photo for vanity fair“ endet, bekomme ich ein tiefes Bedürfnis, bei dieser Welle generierter Bilder nicht mitzumachen.
Was auch immer der Standard-Tag-Suffix ist, den Prompt-Autoren in solchen Beiträgen verwenden, es fühlt sich ähnlich an.
- „award winning photo for vanity fair“ ist im Großen und Ganzen eher ein Trick, um eine gute Fotokomposition hervorzurufen, zum Beispiel die Drittelregel.
Die Aussage „Man kann immer nur eine LoRA gleichzeitig aktivieren“ stimmt zumindest in auto1111 überhaupt nicht.
- Soweit ich mich erinnere, funktioniert es intern über Merging und Gewichtungsanpassungen.

Ein Experiment, das Stable Diffusion XL mit schlechten KI-generierten Bildern intelligenter macht

SDXL 1.0 und die Experimentierumgebung

Prompt-Gewichtung in diffusers und Dreambooth LoRA

Mit dem Ugly-Sonic-LoRA das Potenzial von SDXL überprüft

Versuchsaufbau des wrong-LoRA

Vergleichsmethode und zentrale Ergebnisse

Veränderungen in weiteren Beispielen

Verfügbare Materialien und Reproduzierbarkeit

Warum das wrong-LoRA funktioniert haben könnte

Verbleibendes Entwicklungspotenzial und nächste Experimente

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare

Versuchsaufbau des `wrong`-LoRA

Warum das `wrong`-LoRA funktioniert haben könnte