- OpenAI ist seit Langem davon überzeugt, dass Bildgenerierung zu den Kernfunktionen eines Sprachmodells gehören sollte, und hat auf Basis dieser Vision den bislang ausgefeiltesten und leistungsstärksten Bildgenerator in GPT‑4o integriert
- Die Bildgenerierung von GPT‑4o geht über bloß schöne Bilder hinaus und erzeugt tatsächlich nützliche und wertvolle Ergebnisse
- Sie ist präzise und genau und ermöglicht die Generierung hochwertiger Bilder auf fotorealistischem Niveau
- Multimodale Funktionen sind standardmäßig integriert, sodass visuelle Inhalte unter gemeinsamer Nutzung von Sprache, Bildern und Kontext erstellt werden können
Nützliche Bildgenerierungsfunktionen
- Menschen nutzen visuelle Bilder seit antiken Wandmalereien bis zu modernen Infografiken, um Informationen zu vermitteln, zu überzeugen und zu analysieren
- Bestehende generative Modelle können fantastische oder beeindruckende Bilder erzeugen, hatten aber Schwierigkeiten mit praktischen Bildern zur Informationsvermittlung
- Die Bildgenerierung von GPT‑4o ist besonders stark bei der Erzeugung inhaltlich präziser Bilder wie Logos oder Diagrammen
- Sie umfasst fortgeschrittene Funktionen wie präzises Text-Rendering, die Nutzung des Gesprächskontexts und die Generierung auf Basis hochgeladener Bilder
- Diese Funktionen helfen Nutzern dabei, die gewünschten Bilder genauer zu erstellen
Verbesserte Bildgenerierungsfähigkeiten
- Durch das Lernen aus der gemeinsamen Verteilung von Online-Bildern und Text versteht das Modell die Beziehungen zwischen Bild und Sprache sowie zwischen Bildern
- Durch einen nachgelagerten Anpassungsprozess nach dem Training steigt die visuelle Flüssigkeit, und es werden nützliche und konsistente Bilder möglich
Text-Rendering-Funktion
- Ein Bild kann Tausende von Wörtern enthalten, doch einige passend platzierte Wörter können die Bedeutung zusätzlich verstärken
- GPT‑4o kann präzise Symbole oder Text mit Bildern kombinieren und so als Werkzeug für visuelle Kommunikation eingesetzt werden
Konversationelle Bildgenerierung
- GPT‑4o integriert Bildgenerierung als native Funktion, sodass Bilder im Gesprächsverlauf erzeugt und bearbeitet werden können
- Beispiel: Beim Design von Spielfiguren sind wiederholte Anpassungen möglich, während das Erscheinungsbild konsistent bleibt
Präzise Umsetzung von Anweisungen
- GPT‑4o setzt detaillierte Prompts präzise um
- Andere Systeme verarbeiten meist etwa 5–8 Objekte, GPT‑4o kann hingegen bis zu 10–20 Objekte konsistent erzeugen
- Eigenschaften und Beziehungen von Objekten werden genauer beibehalten
Kontextbasiertes Lernen
- Das Modell analysiert von Nutzern hochgeladene Bilder und berücksichtigt deren Details bei der Bildgenerierung
Verbindung mit Weltwissen
- GPT‑4o verknüpft Wissen zwischen Text und Bild und ermöglicht dadurch eine intelligentere und effizientere Bildgenerierung
Fotorealismus und vielfältige Stile
- Es wurde mit vielfältigen Bildstilen trainiert und ermöglicht realistische Bilderzeugung sowie Stiltransformationen
Grenzen des Modells
- Es ist kein perfektes Modell
- Nach dem ersten Release sind kontinuierliche Verbesserungen auf Basis von Nutzerfeedback und Daten vorgesehen
Bemühungen zur Gewährleistung der Sicherheit
- Nützliche kreative Aktivitäten wie Spieleentwicklung, historische Forschung und Bildung sollen gefördert werden, zugleich gelten strenge Sicherheitsstandards
- Um die Erzeugung unangemessener Bilder zu verhindern, werden konsequent strikte Richtlinien angewendet
-
Transparenz durch C2PA und interne Suchwerkzeuge
- Alle von GPT‑4o erzeugten Bilder enthalten C2PA-Metadaten, um ihre Herkunft eindeutig zu machen
- Mithilfe interner Suchwerkzeuge kann die Herkunft eines Bildes anhand technischer Eigenschaften überprüft werden
-
Blockierung unangemessener Bilder
- Anfragen zur Erzeugung von Bildern, die gegen Richtlinien verstoßen, wie sexualisierte Darstellungen von Kindern oder Deepfakes, werden blockiert
- Für Bilder mit real existierenden Personen gelten verschärfte Beschränkungen
- Für Nacktheit und gewalthaltige Bilder wird ein strenges präventives Blockierungssystem betrieben
-
Verbesserte Sicherheit durch schlussfolgerungsbasierte Verfahren
- Es wurde ein schlussfolgerungsbasiertes LLM trainiert, das auf von Menschen verfassten Richtlinienspezifikationen arbeitet
- Es wird eingesetzt, um Unklarheiten in Richtlinien zu erkennen und aufzulösen, und in Kombination mit multimodaler Technologie werden sowohl Eingabetext als auch Ausgabebild an die Richtlinien angepasst
Verfügbarkeit
- Ab heute als Standard-Bildgenerator für Plus-, Pro-, Team- und Free-Nutzer verfügbar
- Enterprise und Edu werden bald unterstützt
- Auch in Sora nutzbar, das bisherige DALL·E-Modell bleibt über ein separates GPT zugänglich
- Die Bildgenerierung per API soll Entwicklern in den kommenden Wochen bereitgestellt werden
- Nutzer können Bilder allein anhand einer gewünschten Beschreibung erzeugen und dabei auch Seitenverhältnis, Farben (Hex-Code) und transparenten Hintergrund festlegen
- Aufgrund der hochpräzisen Bildgenerierung kann das Rendering bis zu 1 Minute dauern
3 Kommentare
Es scheint in der Free-Version noch nicht sichtbar zu sein – ist das also nur für Plus, Pro und Team freigeschaltet?
In Pro steht unter dem Chatfenster nach einem Klick auf
...offenbar „Bild erstellen (aktualisiert)“, also scheint es das zu sein.Allerdings wird „Best of #“ nicht angezeigt, daher ist etwas unklar, ob es angewendet wurde oder nicht.
Hacker-News-Kommentare
Die neue Methode der Bildgenerierung verwendet Tokens und führt Inferenz im Pixelraum statt per Diffusion durch
Vorstellung von 4o Image Generation: der fortschrittlichste Bildgenerator
Ich frage mich, warum kein Benchmark mit o1 hinzugefügt wird
OpenAIs GPT-4o-Image-Generation-Livestream ist langsam und benötigt etwa 30 Sekunden pro Bild
Nach dem Ausprobieren konnte ich die Geburtstagseinladung meiner Tochter in einem Durchgang erzeugen
Es ist erfreulich, dass es nicht dieser übersättigte CG-/Comic-Stil ist
Ich frage mich, ob es eine Möglichkeit gibt zu erkennen, ob ein gegebener Prompt von 4o oder DALL-E verarbeitet wurde
Beim Weinglas-Test scheitert es immer noch
Ich frage mich, wie stark viele der mit „Best of 8“ markierten Bilder kuratiert wurden
Es gibt Beispiele für iteratives Bearbeiten mit dem neuen Modell