9 Punkte von xguru 2024-02-23 | 1 Kommentare | Auf WhatsApp teilen
  • Stable Diffusion 3 ist das leistungsstärkste Text-Bild-Modell und bietet deutlich verbesserte Leistung bei Multi-Subject-Prompts, Bildqualität und Schreibtreue
  • Es ist noch nicht breit verfügbar, aber die Registrierung für die Warteliste zum Early Preview hat begonnen
  • Wie bei früheren Modellen ist diese Vorschauphase wichtig, um Erkenntnisse zu gewinnen, mit denen Leistung und Sicherheit verbessert werden

Modellumfang und Technologie

  • Die Stable Diffusion 3 Modell-Suite deckt einen Bereich von 800M bis 8B Parametern ab
  • Dieser Ansatz steht im Einklang mit unseren Kernwerten und dem Ziel, für alle zugänglich zu sein, und bietet verschiedene Optionen für Skalierbarkeit und Qualität, die den kreativen Anforderungen der Nutzer am besten entsprechen
  • SD3 kombiniert die Diffusion Transformer-Architektur mit Flow Matching
  • Ein detaillierter technischer Bericht wird in Kürze veröffentlicht

Sichere und verantwortungsvolle KI-Praxis

  • Sichere und verantwortungsvolle KI-Praxis ist für uns zentral
  • Um den Missbrauch von Stable Diffusion 3 zu verhindern, ergreifen wir sinnvolle Maßnahmen, die vom frühen Modelltraining über Tests und Bewertung bis zur Bereitstellung fortgeführt werden
  • Für die Initialvorschau wurden zahlreiche Sicherheitsvorkehrungen eingeführt
  • Durch die fortlaufende Zusammenarbeit mit Forschenden, Experten und der Community erwarten wir, den Innovationsgrad weiter zu steigern, je näher wir der Veröffentlichung des Modells kommen

Verpflichtung und Förderung von Kreativität

  • Unsere Verpflichtung zu einer offenen, sicheren und allgemein zugänglichen Generative AI ist fest
  • Mit Stable Diffusion 3 werden wir eine anpassungsfähige Lösung anbieten, die Privatpersonen, Entwicklern und Unternehmen dabei unterstützt, ihre Kreativität zu entfalten
  • Wenn Sie andere Bildmodelle kommerziell nutzen möchten, bevor Stable Diffusion 3 veröffentlicht wird, können Sie die Membership-Seite von Stability AI besuchen oder über die Entwicklerplattform auf die API zugreifen

1 Kommentare

 
xguru 2024-02-23

Hacker News Kommentar

  • Es verwendet einen neuen Typ von Diffusions-Transformer und kombiniert ihn mit Flow-Matching und weiteren Verbesserungen.

    • Durch die Verbesserungen am Transformer ist das Modell skalierbarer und kann multimodale Eingaben verarbeiten.
    • Es soll veröffentlicht werden, um Qualität und Sicherheit zu erhöhen, und zusammen mit dem gesamten Tooling-Ökosystem veröffentlicht werden.
    • Es basiert auf einem neuen Fundament mit moderner Hardware und wird in allen Größen angeboten.
    • Es ermöglicht Video, 3D usw.
    • Es benötigt mehr GPUs.
    • Technische Details sollen bald veröffentlicht werden.
    • Mit ausreichend GPUs und guten Daten sollte es in der Lage sein, Videos ähnlich wie Sora zu generieren.
    • Es wird in Größen von 8 Millionen bis 8 Milliarden Parametern angeboten und soll auf allen Arten von GPUs nutzbar sein.
  • Der Fokus auf Sicherheit scheint mir angesichts des jüngsten Gemini-Vorfalls eine verpasste Marketingchance zu sein.

    • Die Überbetonung von Sicherheit macht viele Bilder unscharf, und Prompts, die in der früheren Version funktionierten, sind in SDXL ebenfalls verschwommen.
    • Wenn die nächste Version ebenso ausfällt, werde ich die Nutzung der Stability API einstellen.
    • Ich frage mich, ob es andere Text-zu-Bild-Dienste gibt, die einen ähnlichen Wert und eine ähnliche Qualität wie Stable Diffusion bieten, ohne übermäßige Unschärfe.
  • Angesichts der aktuellen Zensursituation wird es interessant zu sehen sein, was diesmal mit „Sicherheit“ gemeint ist.

    • Beim Versuch, mit DALL-E Waffenbilder für Spiele-Assets zu generieren, hatte ich erhebliche Schwierigkeiten.
  • Die Hälfte der Ankündigung lautet: „Wir sind wirklich verantwortungsbewusst und sicher.“

  • Die Demo-Bilder sind alle „Artwork“.

    • Ich frage mich, ob das Modell auch Fotos, technische Zeichnungen und andere grafische Medien gut erzeugen kann.
  • Die Text-/Schreibebereich ist hier stark verbessert.

  • Der „Sicherheits“-Teil wurde neu formuliert, ersetzt aber ein KI-Tool durch ein imaginäres Messer namens „Big Knife“.

    • „Wir glauben an einen sicheren und verantwortungsvollen Umgang mit dem Messer. Das bedeutet, dass wir vernünftige Maßnahmen ergriffen haben, um den Missbrauch der Big Knife durch bösartige Akteure zu verhindern.“