OpenAI stellt 4o-Bildgenerierung vor

(openai.com)

12 Punkte von GN⁺ 2025-03-26 | 3 Kommentare | Auf WhatsApp teilen

OpenAI ist seit Langem davon überzeugt, dass Bildgenerierung zu den Kernfunktionen eines Sprachmodells gehören sollte, und hat auf Basis dieser Vision den bislang ausgefeiltesten und leistungsstärksten Bildgenerator in GPT‑4o integriert
Die Bildgenerierung von GPT‑4o geht über bloß schöne Bilder hinaus und erzeugt tatsächlich nützliche und wertvolle Ergebnisse
Sie ist präzise und genau und ermöglicht die Generierung hochwertiger Bilder auf fotorealistischem Niveau
Multimodale Funktionen sind standardmäßig integriert, sodass visuelle Inhalte unter gemeinsamer Nutzung von Sprache, Bildern und Kontext erstellt werden können

Nützliche Bildgenerierungsfunktionen

Menschen nutzen visuelle Bilder seit antiken Wandmalereien bis zu modernen Infografiken, um Informationen zu vermitteln, zu überzeugen und zu analysieren
Bestehende generative Modelle können fantastische oder beeindruckende Bilder erzeugen, hatten aber Schwierigkeiten mit praktischen Bildern zur Informationsvermittlung
Die Bildgenerierung von GPT‑4o ist besonders stark bei der Erzeugung inhaltlich präziser Bilder wie Logos oder Diagrammen
Sie umfasst fortgeschrittene Funktionen wie präzises Text-Rendering, die Nutzung des Gesprächskontexts und die Generierung auf Basis hochgeladener Bilder
Diese Funktionen helfen Nutzern dabei, die gewünschten Bilder genauer zu erstellen

Verbesserte Bildgenerierungsfähigkeiten

Durch das Lernen aus der gemeinsamen Verteilung von Online-Bildern und Text versteht das Modell die Beziehungen zwischen Bild und Sprache sowie zwischen Bildern
Durch einen nachgelagerten Anpassungsprozess nach dem Training steigt die visuelle Flüssigkeit, und es werden nützliche und konsistente Bilder möglich

Text-Rendering-Funktion

Ein Bild kann Tausende von Wörtern enthalten, doch einige passend platzierte Wörter können die Bedeutung zusätzlich verstärken
GPT‑4o kann präzise Symbole oder Text mit Bildern kombinieren und so als Werkzeug für visuelle Kommunikation eingesetzt werden

Konversationelle Bildgenerierung

GPT‑4o integriert Bildgenerierung als native Funktion, sodass Bilder im Gesprächsverlauf erzeugt und bearbeitet werden können
Beispiel: Beim Design von Spielfiguren sind wiederholte Anpassungen möglich, während das Erscheinungsbild konsistent bleibt

Präzise Umsetzung von Anweisungen

GPT‑4o setzt detaillierte Prompts präzise um
Andere Systeme verarbeiten meist etwa 5–8 Objekte, GPT‑4o kann hingegen bis zu 10–20 Objekte konsistent erzeugen
Eigenschaften und Beziehungen von Objekten werden genauer beibehalten

Kontextbasiertes Lernen

Das Modell analysiert von Nutzern hochgeladene Bilder und berücksichtigt deren Details bei der Bildgenerierung

Verbindung mit Weltwissen

GPT‑4o verknüpft Wissen zwischen Text und Bild und ermöglicht dadurch eine intelligentere und effizientere Bildgenerierung

Fotorealismus und vielfältige Stile

Es wurde mit vielfältigen Bildstilen trainiert und ermöglicht realistische Bilderzeugung sowie Stiltransformationen

Grenzen des Modells

Es ist kein perfektes Modell
Nach dem ersten Release sind kontinuierliche Verbesserungen auf Basis von Nutzerfeedback und Daten vorgesehen

Bemühungen zur Gewährleistung der Sicherheit

Nützliche kreative Aktivitäten wie Spieleentwicklung, historische Forschung und Bildung sollen gefördert werden, zugleich gelten strenge Sicherheitsstandards
Um die Erzeugung unangemessener Bilder zu verhindern, werden konsequent strikte Richtlinien angewendet
Transparenz durch C2PA und interne Suchwerkzeuge
- Alle von GPT‑4o erzeugten Bilder enthalten C2PA-Metadaten, um ihre Herkunft eindeutig zu machen
- Mithilfe interner Suchwerkzeuge kann die Herkunft eines Bildes anhand technischer Eigenschaften überprüft werden
Blockierung unangemessener Bilder
- Anfragen zur Erzeugung von Bildern, die gegen Richtlinien verstoßen, wie sexualisierte Darstellungen von Kindern oder Deepfakes, werden blockiert
- Für Bilder mit real existierenden Personen gelten verschärfte Beschränkungen
- Für Nacktheit und gewalthaltige Bilder wird ein strenges präventives Blockierungssystem betrieben
Verbesserte Sicherheit durch schlussfolgerungsbasierte Verfahren
- Es wurde ein schlussfolgerungsbasiertes LLM trainiert, das auf von Menschen verfassten Richtlinienspezifikationen arbeitet
- Es wird eingesetzt, um Unklarheiten in Richtlinien zu erkennen und aufzulösen, und in Kombination mit multimodaler Technologie werden sowohl Eingabetext als auch Ausgabebild an die Richtlinien angepasst

Verfügbarkeit

Ab heute als Standard-Bildgenerator für Plus-, Pro-, Team- und Free-Nutzer verfügbar
Enterprise und Edu werden bald unterstützt
Auch in Sora nutzbar, das bisherige DALL·E-Modell bleibt über ein separates GPT zugänglich
Die Bildgenerierung per API soll Entwicklern in den kommenden Wochen bereitgestellt werden
Nutzer können Bilder allein anhand einer gewünschten Beschreibung erzeugen und dabei auch Seitenverhältnis, Farben (Hex-Code) und transparenten Hintergrund festlegen
Aufgrund der hochpräzisen Bildgenerierung kann das Rendering bis zu 1 Minute dauern

3 Kommentare

j2sus91 2025-03-26

Es scheint in der Free-Version noch nicht sichtbar zu sein – ist das also nur für Plus, Pro und Team freigeschaltet?

laeyoung 2025-03-26

In Pro steht unter dem Chatfenster nach einem Klick auf ... offenbar „Bild erstellen (aktualisiert)“, also scheint es das zu sein.
Allerdings wird „Best of #“ nicht angezeigt, daher ist etwas unklar, ob es angewendet wurde oder nicht.

GN⁺ 2025-03-26

Hacker-News-Kommentare

Die neue Methode der Bildgenerierung verwendet Tokens und führt Inferenz im Pixelraum statt per Diffusion durch
- Man kann zum Beispiel einen Notizblock mit einem leeren Tic-Tac-Toe zeichnen lassen, den ersten Zug setzen und dann weiterspielen, indem der Nutzer seine Züge macht
- Auch das Ändern des Zeichenstils oder informationsbewahrende Transformationen wie „Tag in Nacht verwandeln“ oder „einen Hut aufsetzen“ sind möglich
- Die Auflösung des Modells ist begrenzt, aber mit weiteren Fortschritten in diesem Bereich könnte es möglich werden, Apps schrittweise als Bilder zu entwerfen und daraus Code zu schreiben
- Das Modell kann bei externen Bildern weiter „schlussfolgern“, sodass sich selbst ein ursprünglich schlechtes Ergebnis noch verbessern lässt
- Wenn das Modell schneller wird, kann man sich eine echte generative UI vorstellen, die auf LLM-Events basiert und den nächsten Frame einer App erzeugt
- Diffusionsmodelle können ähnliche Aufgaben ebenfalls schneller erledigen
Vorstellung von 4o Image Generation: der fortschrittlichste Bildgenerator
- Googles Gemini 2.5: das intelligenteste KI-Modell
- Vorstellung von Gemini 2.0: das leistungsfähigste KI-Modell
- Hoffentlich verschwindet dieser Trend wieder und Apple verwendet etwas Wirksames, das andere Firmen dann als neuen Begriff kopieren
Ich frage mich, warum kein Benchmark mit o1 hinzugefügt wird
OpenAIs GPT-4o-Image-Generation-Livestream ist langsam und benötigt etwa 30 Sekunden pro Bild
- Sam Altman erklärte: „Es ist langsam, aber die erzeugten Bilder sind es wert“
- Statt eines Diffusionsansatzes werden, ähnlich wie beim ursprünglichen DALL-E, Bild-Tokens erzeugt und dekodiert
- Googles Gemini kann Bilder in wenigen Sekunden erzeugen und bearbeiten
- Es gibt noch keine API, und wegen der Langsamkeit dürfte es teurer werden als die $0,03+ pro Bild der Konkurrenz
Nach dem Ausprobieren konnte ich die Geburtstagseinladung meiner Tochter in einem Durchgang erzeugen
- Die gewünschten Elemente und der Stil wurden genau getroffen
- Auch als ich darum bat, Details wie Datum und Ort hinzuzufügen, funktionierte es gut
- Frühere Modelle kamen nicht einmal annähernd heran
Es ist erfreulich, dass es nicht dieser übersättigte CG-/Comic-Stil ist
Ich frage mich, ob es eine Möglichkeit gibt zu erkennen, ob ein gegebener Prompt von 4o oder DALL-E verarbeitet wurde
- Derzeit scheint der Prompt noch immer vom Letzteren verarbeitet zu werden
- Der langfristige Plan ist, vollständig zu 4o zu wechseln und DALL-E in einen separaten Tab zu verschieben
Beim Weinglas-Test scheitert es immer noch
Ich frage mich, wie stark viele der mit „Best of 8“ markierten Bilder kuratiert wurden
- Von drei kostenlosen Bildern waren zwei beeindruckend und eines ein Fehlschlag
Es gibt Beispiele für iteratives Bearbeiten mit dem neuen Modell
- Es ist deutlich besser als die vorherigen Modelle, erzeugt aber immer noch Körper mit zu vielen Fingern oder zu vielen Armen