8 Punkte von GN⁺ 2024-08-02 | 1 Kommentare | Auf WhatsApp teilen
  • Das größte SOTA-Open-Source-Text-to-Image-Modell, entwickelt von Black Forest Labs
    • Vom Originalteam hinter Stable Diffusion entwickelt
  • Mit 12B Parametern erweitert es die Grenzen von Kreativität und Leistung und bietet eine Bilderzeugung ähnlich wie Midjourney

Verfügbar in 3 Modellen

  • FLUX.1 [dev]: Das Basismodell, als Open Source unter einer nicht-kommerziellen Lizenz veröffentlicht. Die Community kann darauf aufbauen
  • FLUX.1 [schnell]: Eine destillierte Version des Basismodells, die bis zu 10-mal schneller arbeitet. Apache-2-Lizenz.
  • FLUX.1 [pro]: Eine proprietäre Version, die nur über die API verfügbar ist

Hauptmerkmale

  • Verbesserte Bildqualität: Erzeugt beeindruckende Visuals in hoher Auflösung
  • Fortschrittliche menschliche Anatomie und Fotorealismus: Kann äußerst realistische und anatomisch präzise Bilder erzeugen
  • Verbesserte Prompt-Treue: Kann auf Basis der Eingaben präzisere und relevantere Bilder erzeugen
  • Herausragende Geschwindigkeit: Die Geschwindigkeit und Effizienz von Flux Schnell sind ideal für Anwendungen mit hoher Nachfrage

Integration von fal

  • Durch die Integration der hochmodernen Inference Engine von fal können Flux-Modelle bis zu 2-mal schneller als mit eager torch ausgeführt werden
  • Schnelle Verarbeitungszeiten bei gleichzeitig hervorragender Qualität und Detailtreue

Zusammenfassung von GN⁺

  • Flux ist das neueste Text-to-Image-Modell von Black Forest Labs und setzt neue Maßstäbe für Kreativität und Leistung
  • Mit verschiedenen Modellvarianten bietet es maßgeschneiderte Lösungen für unterschiedliche Anwendungsfälle
  • Dank verbesserter Bildqualität und realistischer Ausdrucksstärke eignet es sich für Anwendungen mit hoher Nachfrage
  • Mit der Inference Engine von fal ist eine noch schnellere und effizientere Modellausführung möglich
  • Andere Projekte mit ähnlichen Funktionen sind DALL-E und Midjourney

1 Kommentare

 
GN⁺ 2024-08-02
Hacker-News-Kommentare
  • burkay von fal.ai: Das Modell wurde nicht von fal entwickelt, sondern von Black Forest Labs

    • fal.ai lässt das Modell auf einer optimierten Inferenz-Engine laufen, sodass es sehr schnell arbeitet
    • Man kann das Modell im Playground ausprobieren
    • Das Modell [schnell] ist als Open Source unter der Apache-Lizenz auf Hugging Face verfügbar
    • Das Text-Rendering ist sehr schnell und hervorragend, und es gibt einen Text-Encoder, der Text und Positionen besser verarbeiten kann
    • Wenn das Text-Rendering besser wird, werden auch Text-Wasserzeichen in den Trainingsdaten deutlicher sichtbar
    • Es wird ein Link bereitgestellt, um das Modell auszuprobieren
      • FLUX.1 [schnell]: Apache 2.0, offene Gewichte, Step Distillation
      • FLUX.1 [dev]: nicht-kommerziell, offene Gewichte, Guided Distillation (Login erforderlich)
      • FLUX.1 [pro]: Closed Source, SOTA, Rohdaten (nur über die API nutzbar)
  • Ein anderer Nutzer: Die meisten Vergleiche testen das neue Modell nicht richtig

    • Die derzeit beste Prompt-Befolgung auf dem Markt bietet DALL-E 3, aber bei komplexen Konzepten ist es immer noch schwach und stark zensiert
    • Ein Vergleich von Flux und DALL-E 3 zeigt, dass Flux beeindruckend ist und eine starke Leistung bietet
    • Die Vergleichsergebnisse wurden im Blog veröffentlicht
  • Ein anderer Nutzer: Es wurde mit Prompts von ideogram getestet, und Flux erzeugt sehr gute Bilder

    • ideogram wurde ausprobiert, aber die Filter gefallen nicht
    • Wenn es lokal ausgeführt werden kann, kommt es bei Bildqualität und Prompt-Befolgung sehr nahe heran
    • Bei komplexem Text kann es Texte nicht klar schreiben
    • Als Beispiel wird der Prompt eines ideogram-Bildes angegeben
    • Stable-Diffusion-Modelle werden schon lange nicht mehr verwendet, weil die Technik zu komplex geworden ist und keinen Spaß mehr macht
    • Gewünscht ist ein System wie ideogram, das lokal und ohne Filter läuft
    • Dieses Modell ist sehr gut
  • Ein anderer Nutzer: Bei jedem neuen Modell wird geprüft, ob es Engineering-Diagramme erstellen kann

    • Dieses Modell kann Engineering-Diagramme noch nicht gut verarbeiten
    • Es wird gehofft, dass AI-Firmen das Problem mit Engineering-Diagrammen lösen
    • Wahrscheinlich war so etwas im aktuellen Trainingsdatensatz nicht enthalten
    • Es besteht der Wunsch, einen synthetischen Datensatz bzw. Benchmark zu erstellen
  • Ein anderer Nutzer: Der Anmeldeprozess ist umständlich

    • Beim Erstellen eines Github-Kontos traten derzeit Fehler auf, sodass zwei Versuche und zwei Browser nötig waren
  • Ein anderer Nutzer: Durch Venture Capital finanzierte Startups veröffentlichen weiter kostenlose Modelle ohne Geschäftsmodell

    • Open Source wird unterstützt, aber es gibt Sorgen, ob das langfristig nachhaltig ist
  • Ein anderer Nutzer: Beeindruckende Qualität

  • Ein anderer Nutzer: Räumliche Beziehungen werden nicht gut verarbeitet

    • "auf dem Kopf stehendes Haus" -> gewöhnliches Haus
    • "ein Pferd, das auf einem Hund sitzt" -> Pferd und Hund stehen nebeneinander
    • "umgedrehte Lockheed Martin F-22 Raptor" -> falsches Ergebnis