HN-Vorstellung: Echtzeit-Bildgenerierung mit SDXL Lightning

(fastsdxl.ai)

1 Punkte von GN⁺ 2024-02-23 | 1 Kommentare | Auf WhatsApp teilen

1 Kommentare

GN⁺ 2024-02-23

Hacker-News-Kommentare

Ich habe das gestern zusammen mit Groq genutzt, um Neal Agrawals endlos unterhaltsames Spiel als Chrome-Erweiterung zu erweitern, sodass es nicht nur Emojis, sondern echte Bilder erzeugt.
Die nahezu echtzeitfähige Bilderzeugung und LLM-Generierung fühlen sich wie Zukunft an. Für das Prompting nutze ich Groqs Mixtral, für die Echtzeit-Generierung die Fal API.
https://x.com/altryne/status/1760561501096575401?s=20
- Ich fände es gut, das in ein Side-Scroller-Spiel umzuwandeln, bei dem der Hintergrund im Verlauf schrittweise und natürlich in Renderings der behandelten Wörter übergeht.
  Ich stelle mir vor, wie die blaue Landschaft am Anfang der Demo langsam in das trockene Bergterrain der späteren Bilder übergeht und im Vordergrund eine Vogelfigur auftaucht.
- Ich frage mich, ob man daraus vielleicht ein kartenbasiertes Spiel machen könnte.
- Sieht wirklich gut aus. Ich frage mich, ob es eine Möglichkeit gibt, die Chrome-Erweiterung zu teilen.
Fürs Protokoll: SDXL Lightning ist Open Source und auf Hugging Face unter einer vergleichsweise großzügigen Lizenz veröffentlicht: https://huggingface.co/ByteDance/SDXL-Lightning
Es gibt auch ein paar andere UIs. Z. B.: https://replicate.com/lucataco/sdxl-lightning-4step
- Genau. Intern wird SDXL Lightning verwendet, das ByteDance auf Basis von Stable Diffusion XL trainiert und als Open Source veröffentlicht hat.
  Dazu kommen unsere eigene Inferenz-Engine und Echtzeit-Infrastruktur, was im Vergleich zu anderen UIs ein flüssigeres Erlebnis bietet. Bei der Geschwindigkeit ist es meiner Ansicht nach kaum vergleichbar: Hier dauern 4 Schritte etwa 370 ms, während das verlinkte replicate-Beispiel bei etwa 2–3 Sekunden liegt.
- Ich habe auch eine Demo mit Gradio gebaut, aber sie ist doppelt so langsam wie fal.ai. Auf einer einzelnen A10G wird stable-fast-Kompilierung verwendet.
  https://huggingface.co/spaces/radames/Real-Time-Text-to-Imag...
  Wenn du GPU/CUDA/Docker hast, kannst du es auch lokal ausführen.
  docker run -it -p 7860:7860 --platform=linux/amd64 --gpus all -e SFAST_COMPILE="1" -e USE_TAESD="0" registry.hf.space/radames-real-time-text-to-image-sdxl-lightning:latest python app.py
- Mich würde interessieren, wie hoch bei lokaler Inferenz Speichernutzung und Geschwindigkeit ungefähr sind.
Die Geschwindigkeit ist hervorragend.
Für die Qualität habe ich einen Prompt genommen, den die Leute heute zum Testen von Stable Diffusion 3 und anderen Modellen verwendet haben: "Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat"
Das Ergebnis, das ich bekommen habe, sieht so aus: https://imgur.com/a/XrAuqCB
Im Vergleich zu Stable Diffusion 3: https://pbs.twimg.com/media/GG8mm5va4AA_5PJ?format=jpg&name=...
1. https://news.ycombinator.com/item?id=39467526
- Räumliche Prompt-Treue ist bei SDXL und den früheren Stable-Diffusion-Reihen insgesamt eine Schwäche. Ich hoffe, dass Stable Diffusion diesen Punkt wie im Beispiel gut ausarbeitet.
  Ich habe dasselbe Beispiel auch mit Stable Cascade getestet, dem neuesten Stability-Modell mit öffentlich verfügbaren Gewichten, und auch dort ist es nicht besonders gut: https://fal.ai/models/stable-cascade?share=eab44060-690b-497...
- Mein Ergebnis ist ziemlich korrekt: https://imgur.com/a/vH0zq5b
  Seed: 3919562
- Wenn man es mit wechselnden Seeds laufen lässt, fallen die Ergebnisse sehr unterschiedlich aus.
Die Demo ist wirklich beeindruckend, aber wenn sie noch flüssiger wäre, wäre sie wohl noch viel erstaunlicher. Im Moment fühlt es sich zum Beispiel beim Löschen eines Wortes oder Hinzufügen eines Leerzeichens ruckelig an, weil innerhalb kurzer Zeit viermal Inferenz ausgelöst wird.
Vielleicht ist es auch Absicht, die Ergebnisse schrittweise zu zeigen. Zur Einordnung: Das ist eine Demo von fal.ai, und ich habe sie erstmals bemerkt, als sie am Morgen des Tages, an dem Stable Cascade veröffentlicht wurde, ihre Demo online stellten.
Wenn ihr Inferenz außerhalb von OpenAI betreibt, kann ich fal.ai sehr empfehlen. Ich bin seit fast drei Jahren in der AI-Branche und seit letztem Jahr praktisch rund um die Uhr dabei; Fal wirkt auf mich wie der erste Dienst, der sich um die Details kümmert, damit es in der realen Nutzung so schnell ist, und nicht nur um Zahlen aus Papers.
Beispiele dafür sind WebSocket-Verbindungen und kurzlebige JWTs, mit denen man nicht erst über Edge Functions gehen muss, um Requests mit einem API-Key zu signieren.
- Wenn es so schnell ist, wäre es vielleicht besser, innerhalb des Latent Space einem glatten Pfad zu folgen und Zwischenbilder zu erzeugen, statt direkt zum Zielbild zu springen.
Diese Demo gefällt mir wirklich sehr. Sie ist zugänglich, schnell und intuitiv. Es ist erstaunlich, dass man diese Qualität so einfach bekommen kann.
- Diese Demo und Groq waren wirklich beeindruckend. Ich erinnere mich noch, dass man vor gar nicht allzu langer Zeit auf Websites, die einem nach dem Anlegen eines Kontos etwa 20 kostenlose Generierungen gaben, lange warten musste, nur um ein kaputtes Bild zu bekommen.
  Dass man jetzt ohne Registrierung oder CAPTCHA einfach eine Website aufrufen und blitzschnelle Text- und Bildgenerierung nutzen kann, ist großartig. Vor allem auch, dass Groq und fal.ai die Demo komplett offen lassen können – mit solchen Performance-Sprüngen hätte ich Anfang 2024 nicht gerechnet.
  Ich finde, schnelle Generierung gleicht auch viele Nachteile bei der Bildqualität aus. Selbst wenn etwas fehlschlägt, ist ein gutes Ergebnis meist nur einen Seed oder eine kleine Prompt-Änderung entfernt.
Ich frage mich, wie das so schnell sein kann. Und ich weiß nicht, was ein blob:[https://blbahblah](<https://blbahblah>;)-Bild sein soll.
Außerdem bekommt der Waschbär leicht zwei Schwänze, wenn man den Prompt ein wenig ändert.
- Zur zweiten Frage: Das ist eine Object URL.
  https://developer.mozilla.org/en-US/docs/Web/API/URL/createO...
  Das ist eine Methode, eine Datei oder ein Blob in eine URL umzuwandeln, die z. B. in einem Bildelement verwendet werden kann.
- Das ist eine temporäre URL, die einen Buffer in JavaScript repräsentiert: https://developer.mozilla.org/en-US/docs/Web/API/URL/createO...
Wirklich erstaunlich. Geringere Latenz hat großen Einfluss darauf, wie man mit solchen Tools interagiert.
Der Geschwindigkeitsvorteil hier bedeutet nicht nur, dass man mehr Bilder generieren kann, sondern dass man beim Ausprobieren mehrerer Versuche im selben Gedankenfluss bleiben kann, ohne unterbrochen zu werden.
Wirklich beeindruckend, aber ich frage mich, ob jemand weiß, wie man mit Stable Diffusion konsistente Charaktere erzeugt.
Wenn der erste Prompt ein Mädchen ist, das mit einer Katze spricht, und der zweite Prompt ein Mädchen, das mit dieser Katze spielt, möchte ich, dass Mädchen und Katze in beiden Bildern gleich aussehen.
Falls möglich, wären entsprechende Links oder Tutorials sehr hilfreich.
- Soweit ich mich erinnere, ermöglicht Dashtoon Studio, Comics mit konsistenten Charakteren per Stable Diffusion zu erstellen: https://dashtoon.com/create
- Das geht in Dashtoon Studio. Schon wenn man nur ein Bild hochlädt, trainiert es eine LoRA für konsistente Charaktere. Es ist eine Software zur Erstellung von AI-Comics, und ich habe dieses Video auf YouTube gefunden: https://www.youtube.com/watch?v=EEQwEvKQGvE
  LoRA ist wohl die vielseitigste Option. Damit kann man den Charakter in den gewünschten Posen und Kamerawinkeln konsistent erhalten. IP-Adapter repliziert zu viele Merkmale des Eingabebildes, und es ist schwierig festzulegen, welche Elemente, etwa die Pose, nicht kopiert werden sollen. Deshalb kann es schwer werden, einen Charakter aus einem Porträt-Input andere Handlungen ausführen zu lassen.
  Reactor braucht ein generiertes Bild, in das ein Gesicht ausgetauscht werden kann. Bei realistischen Bildern funktioniert das gut, bei stilisierten Bildern bleibt der Stil aber nicht erhalten und die Frisur wird auch nicht kopiert.
  Von allem, was ich bisher gefunden habe, war Dashtoon am stabilsten und einfachsten. Denn 20 neue Charakterbilder zu sammeln ist schwierig, und in einem LoRA-Trainingsset sind Bildeigenschaften wie die Anzahl der Close-ups oder der Gesichtsausdrücke ziemlich wichtig.
- Es lohnt sich, https://scenario.gg anzusehen. Man kann dort mit eigenen Bildern des Charakters selbst eine LoRA trainieren, und für gute Konsistenz braucht man ungefähr 20 Bilder aus verschiedenen Blickwinkeln.
  Eine einfachere, aber immer noch ziemlich brauchbare Methode ist IP-Adapter, den dieser Dienst ebenfalls unterstützt. Die Katze konsistent zu halten, dürfte ohne eigene LoRA schwierig sein. Referenz: https://help.scenario.com/training-a-character-lora
- Normalerweise reicht es schon, einfach einen Namen zu verwenden. In guten SD-Modellen sieht Maria Smith fast immer wie Maria Smith aus.
- Mickey sieht ziemlich konsistent aus: https://fastsdxl.ai/share/4us7hrp3jm20
Interessant ist das Verhalten bei einem einzelnen Zeichen. Bei mir scheint es oft auf kleine, recht detaillierte Gebäude zu konvergieren.
Je öfter man dasselbe Zeichen wiederholt, zum Beispiel 11111111 statt 111, desto seltsamer werden die Gebäude. Jetzt, wo ich es mir ansehe, scheint es ziemlich empfindlich auf den Seed zu reagieren.
- Unbekannte Wörter oder Konzepte haben praktisch keinen Einfluss auf die Ausgabe. Wenn man im Prompt baby raccoon durch maxolhx ersetzt, ignoriert es dieses Wort und rendert einen italienischen Priester.
  Streng genommen gibt es immer noch einen Einfluss, aber nicht auf eine Weise, die wir leicht erklären könnten. Im Grunde spielt man fast nur mit dem Seed.
Gefällt mir wirklich sehr. Es wäre schön, wenn man URLs teilen könnte.
late 90s movie poster, 24 hour clock movie "2: Electric Boogaloo" dan aykroyd1
Das Ergebnis dieses Prompts war großartig.
- So sieht ein gewöhnlicher Mensch aus: https://fastsdxl.ai/share/1mb3d5lo5ic9
  So sieht ein Held aus: https://fastsdxl.ai/share/x9jxax4pnljd
  So sieht ein Terrorist aus: https://fastsdxl.ai/share/ejtyvv9ahpfs
  So sieht die Person aus, die ich sein möchte: https://fastsdxl.ai/share/8ekkecm5rqsr
  Dank der hohen Geschwindigkeit ist es sehr interessant, schnell die inhärenten Biases zu bewerten, indem man nur den Seed variiert.
- Habe gerade die Teilen-Funktion hinzugefügt. Wäre schön zu erfahren, was ihr damit erstellt.
- Wenn der Seed bereitgestellt worden wäre, hätte man es wohl teilen können.

HN-Vorstellung: Echtzeit-Bildgenerierung mit SDXL Lightning

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare