Flux – Open-Source-Text-to-Image-Modell mit 12B Parametern

(blog.fal.ai)

8 Punkte von GN⁺ 2024-08-02 | 1 Kommentare | Auf WhatsApp teilen

Das größte SOTA-Open-Source-Text-to-Image-Modell, entwickelt von Black Forest Labs
- Vom Originalteam hinter Stable Diffusion entwickelt
Mit 12B Parametern erweitert es die Grenzen von Kreativität und Leistung und bietet eine Bilderzeugung ähnlich wie Midjourney

Verfügbar in 3 Modellen

FLUX.1 [dev]: Das Basismodell, als Open Source unter einer nicht-kommerziellen Lizenz veröffentlicht. Die Community kann darauf aufbauen
FLUX.1 [schnell]: Eine destillierte Version des Basismodells, die bis zu 10-mal schneller arbeitet. Apache-2-Lizenz.
FLUX.1 [pro]: Eine proprietäre Version, die nur über die API verfügbar ist

Hauptmerkmale

Verbesserte Bildqualität: Erzeugt beeindruckende Visuals in hoher Auflösung
Fortschrittliche menschliche Anatomie und Fotorealismus: Kann äußerst realistische und anatomisch präzise Bilder erzeugen
Verbesserte Prompt-Treue: Kann auf Basis der Eingaben präzisere und relevantere Bilder erzeugen
Herausragende Geschwindigkeit: Die Geschwindigkeit und Effizienz von Flux Schnell sind ideal für Anwendungen mit hoher Nachfrage

Integration von fal

Durch die Integration der hochmodernen Inference Engine von fal können Flux-Modelle bis zu 2-mal schneller als mit eager torch ausgeführt werden
Schnelle Verarbeitungszeiten bei gleichzeitig hervorragender Qualität und Detailtreue

Zusammenfassung von GN⁺

Flux ist das neueste Text-to-Image-Modell von Black Forest Labs und setzt neue Maßstäbe für Kreativität und Leistung
Mit verschiedenen Modellvarianten bietet es maßgeschneiderte Lösungen für unterschiedliche Anwendungsfälle
Dank verbesserter Bildqualität und realistischer Ausdrucksstärke eignet es sich für Anwendungen mit hoher Nachfrage
Mit der Inference Engine von fal ist eine noch schnellere und effizientere Modellausführung möglich
Andere Projekte mit ähnlichen Funktionen sind DALL-E und Midjourney

1 Kommentare

GN⁺ 2024-08-02

Hacker-News-Kommentare

burkay von fal.ai: Das Modell wurde nicht von fal entwickelt, sondern von Black Forest Labs
- fal.ai lässt das Modell auf einer optimierten Inferenz-Engine laufen, sodass es sehr schnell arbeitet
- Man kann das Modell im Playground ausprobieren
- Das Modell [schnell] ist als Open Source unter der Apache-Lizenz auf Hugging Face verfügbar
- Das Text-Rendering ist sehr schnell und hervorragend, und es gibt einen Text-Encoder, der Text und Positionen besser verarbeiten kann
- Wenn das Text-Rendering besser wird, werden auch Text-Wasserzeichen in den Trainingsdaten deutlicher sichtbar
- Es wird ein Link bereitgestellt, um das Modell auszuprobieren
  - FLUX.1 [schnell]: Apache 2.0, offene Gewichte, Step Distillation
  - FLUX.1 [dev]: nicht-kommerziell, offene Gewichte, Guided Distillation (Login erforderlich)
  - FLUX.1 [pro]: Closed Source, SOTA, Rohdaten (nur über die API nutzbar)
Ein anderer Nutzer: Die meisten Vergleiche testen das neue Modell nicht richtig
- Die derzeit beste Prompt-Befolgung auf dem Markt bietet DALL-E 3, aber bei komplexen Konzepten ist es immer noch schwach und stark zensiert
- Ein Vergleich von Flux und DALL-E 3 zeigt, dass Flux beeindruckend ist und eine starke Leistung bietet
- Die Vergleichsergebnisse wurden im Blog veröffentlicht
Ein anderer Nutzer: Es wurde mit Prompts von ideogram getestet, und Flux erzeugt sehr gute Bilder
- ideogram wurde ausprobiert, aber die Filter gefallen nicht
- Wenn es lokal ausgeführt werden kann, kommt es bei Bildqualität und Prompt-Befolgung sehr nahe heran
- Bei komplexem Text kann es Texte nicht klar schreiben
- Als Beispiel wird der Prompt eines ideogram-Bildes angegeben
- Stable-Diffusion-Modelle werden schon lange nicht mehr verwendet, weil die Technik zu komplex geworden ist und keinen Spaß mehr macht
- Gewünscht ist ein System wie ideogram, das lokal und ohne Filter läuft
- Dieses Modell ist sehr gut
Ein anderer Nutzer: Bei jedem neuen Modell wird geprüft, ob es Engineering-Diagramme erstellen kann
- Dieses Modell kann Engineering-Diagramme noch nicht gut verarbeiten
- Es wird gehofft, dass AI-Firmen das Problem mit Engineering-Diagrammen lösen
- Wahrscheinlich war so etwas im aktuellen Trainingsdatensatz nicht enthalten
- Es besteht der Wunsch, einen synthetischen Datensatz bzw. Benchmark zu erstellen
Ein anderer Nutzer: Der Anmeldeprozess ist umständlich
- Beim Erstellen eines Github-Kontos traten derzeit Fehler auf, sodass zwei Versuche und zwei Browser nötig waren
Ein anderer Nutzer: Durch Venture Capital finanzierte Startups veröffentlichen weiter kostenlose Modelle ohne Geschäftsmodell
- Open Source wird unterstützt, aber es gibt Sorgen, ob das langfristig nachhaltig ist
Ein anderer Nutzer: Beeindruckende Qualität
Ein anderer Nutzer: Räumliche Beziehungen werden nicht gut verarbeitet
- "auf dem Kopf stehendes Haus" -> gewöhnliches Haus
- "ein Pferd, das auf einem Hund sitzt" -> Pferd und Hund stehen nebeneinander
- "umgedrehte Lockheed Martin F-22 Raptor" -> falsches Ergebnis

Flux – Open-Source-Text-to-Image-Modell mit 12B Parametern

Verfügbar in 3 Modellen

Hauptmerkmale

Integration von fal

Zusammenfassung von GN⁺

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare