12 Punkte von GN⁺ 2025-03-26 | 3 Kommentare | Auf WhatsApp teilen
  • OpenAI ist seit Langem davon überzeugt, dass Bildgenerierung zu den Kernfunktionen eines Sprachmodells gehören sollte, und hat auf Basis dieser Vision den bislang ausgefeiltesten und leistungsstärksten Bildgenerator in GPT‑4o integriert
  • Die Bildgenerierung von GPT‑4o geht über bloß schöne Bilder hinaus und erzeugt tatsächlich nützliche und wertvolle Ergebnisse
  • Sie ist präzise und genau und ermöglicht die Generierung hochwertiger Bilder auf fotorealistischem Niveau
  • Multimodale Funktionen sind standardmäßig integriert, sodass visuelle Inhalte unter gemeinsamer Nutzung von Sprache, Bildern und Kontext erstellt werden können

Nützliche Bildgenerierungsfunktionen

  • Menschen nutzen visuelle Bilder seit antiken Wandmalereien bis zu modernen Infografiken, um Informationen zu vermitteln, zu überzeugen und zu analysieren
  • Bestehende generative Modelle können fantastische oder beeindruckende Bilder erzeugen, hatten aber Schwierigkeiten mit praktischen Bildern zur Informationsvermittlung
  • Die Bildgenerierung von GPT‑4o ist besonders stark bei der Erzeugung inhaltlich präziser Bilder wie Logos oder Diagrammen
  • Sie umfasst fortgeschrittene Funktionen wie präzises Text-Rendering, die Nutzung des Gesprächskontexts und die Generierung auf Basis hochgeladener Bilder
  • Diese Funktionen helfen Nutzern dabei, die gewünschten Bilder genauer zu erstellen

Verbesserte Bildgenerierungsfähigkeiten

  • Durch das Lernen aus der gemeinsamen Verteilung von Online-Bildern und Text versteht das Modell die Beziehungen zwischen Bild und Sprache sowie zwischen Bildern
  • Durch einen nachgelagerten Anpassungsprozess nach dem Training steigt die visuelle Flüssigkeit, und es werden nützliche und konsistente Bilder möglich

Text-Rendering-Funktion

  • Ein Bild kann Tausende von Wörtern enthalten, doch einige passend platzierte Wörter können die Bedeutung zusätzlich verstärken
  • GPT‑4o kann präzise Symbole oder Text mit Bildern kombinieren und so als Werkzeug für visuelle Kommunikation eingesetzt werden

Konversationelle Bildgenerierung

  • GPT‑4o integriert Bildgenerierung als native Funktion, sodass Bilder im Gesprächsverlauf erzeugt und bearbeitet werden können
  • Beispiel: Beim Design von Spielfiguren sind wiederholte Anpassungen möglich, während das Erscheinungsbild konsistent bleibt

Präzise Umsetzung von Anweisungen

  • GPT‑4o setzt detaillierte Prompts präzise um
  • Andere Systeme verarbeiten meist etwa 5–8 Objekte, GPT‑4o kann hingegen bis zu 10–20 Objekte konsistent erzeugen
  • Eigenschaften und Beziehungen von Objekten werden genauer beibehalten

Kontextbasiertes Lernen

  • Das Modell analysiert von Nutzern hochgeladene Bilder und berücksichtigt deren Details bei der Bildgenerierung

Verbindung mit Weltwissen

  • GPT‑4o verknüpft Wissen zwischen Text und Bild und ermöglicht dadurch eine intelligentere und effizientere Bildgenerierung

Fotorealismus und vielfältige Stile

  • Es wurde mit vielfältigen Bildstilen trainiert und ermöglicht realistische Bilderzeugung sowie Stiltransformationen

Grenzen des Modells

  • Es ist kein perfektes Modell
  • Nach dem ersten Release sind kontinuierliche Verbesserungen auf Basis von Nutzerfeedback und Daten vorgesehen

Bemühungen zur Gewährleistung der Sicherheit

  • Nützliche kreative Aktivitäten wie Spieleentwicklung, historische Forschung und Bildung sollen gefördert werden, zugleich gelten strenge Sicherheitsstandards
  • Um die Erzeugung unangemessener Bilder zu verhindern, werden konsequent strikte Richtlinien angewendet
  • Transparenz durch C2PA und interne Suchwerkzeuge

    • Alle von GPT‑4o erzeugten Bilder enthalten C2PA-Metadaten, um ihre Herkunft eindeutig zu machen
    • Mithilfe interner Suchwerkzeuge kann die Herkunft eines Bildes anhand technischer Eigenschaften überprüft werden
  • Blockierung unangemessener Bilder

    • Anfragen zur Erzeugung von Bildern, die gegen Richtlinien verstoßen, wie sexualisierte Darstellungen von Kindern oder Deepfakes, werden blockiert
    • Für Bilder mit real existierenden Personen gelten verschärfte Beschränkungen
    • Für Nacktheit und gewalthaltige Bilder wird ein strenges präventives Blockierungssystem betrieben
  • Verbesserte Sicherheit durch schlussfolgerungsbasierte Verfahren

    • Es wurde ein schlussfolgerungsbasiertes LLM trainiert, das auf von Menschen verfassten Richtlinienspezifikationen arbeitet
    • Es wird eingesetzt, um Unklarheiten in Richtlinien zu erkennen und aufzulösen, und in Kombination mit multimodaler Technologie werden sowohl Eingabetext als auch Ausgabebild an die Richtlinien angepasst

Verfügbarkeit

  • Ab heute als Standard-Bildgenerator für Plus-, Pro-, Team- und Free-Nutzer verfügbar
  • Enterprise und Edu werden bald unterstützt
  • Auch in Sora nutzbar, das bisherige DALL·E-Modell bleibt über ein separates GPT zugänglich
  • Die Bildgenerierung per API soll Entwicklern in den kommenden Wochen bereitgestellt werden
  • Nutzer können Bilder allein anhand einer gewünschten Beschreibung erzeugen und dabei auch Seitenverhältnis, Farben (Hex-Code) und transparenten Hintergrund festlegen
  • Aufgrund der hochpräzisen Bildgenerierung kann das Rendering bis zu 1 Minute dauern

3 Kommentare

 
j2sus91 2025-03-26

Es scheint in der Free-Version noch nicht sichtbar zu sein – ist das also nur für Plus, Pro und Team freigeschaltet?

 
laeyoung 2025-03-26

In Pro steht unter dem Chatfenster nach einem Klick auf ... offenbar „Bild erstellen (aktualisiert)“, also scheint es das zu sein.
Allerdings wird „Best of #“ nicht angezeigt, daher ist etwas unklar, ob es angewendet wurde oder nicht.

 
GN⁺ 2025-03-26
Hacker-News-Kommentare
  • Die neue Methode der Bildgenerierung verwendet Tokens und führt Inferenz im Pixelraum statt per Diffusion durch

    • Man kann zum Beispiel einen Notizblock mit einem leeren Tic-Tac-Toe zeichnen lassen, den ersten Zug setzen und dann weiterspielen, indem der Nutzer seine Züge macht
    • Auch das Ändern des Zeichenstils oder informationsbewahrende Transformationen wie „Tag in Nacht verwandeln“ oder „einen Hut aufsetzen“ sind möglich
    • Die Auflösung des Modells ist begrenzt, aber mit weiteren Fortschritten in diesem Bereich könnte es möglich werden, Apps schrittweise als Bilder zu entwerfen und daraus Code zu schreiben
    • Das Modell kann bei externen Bildern weiter „schlussfolgern“, sodass sich selbst ein ursprünglich schlechtes Ergebnis noch verbessern lässt
    • Wenn das Modell schneller wird, kann man sich eine echte generative UI vorstellen, die auf LLM-Events basiert und den nächsten Frame einer App erzeugt
    • Diffusionsmodelle können ähnliche Aufgaben ebenfalls schneller erledigen
  • Vorstellung von 4o Image Generation: der fortschrittlichste Bildgenerator

    • Googles Gemini 2.5: das intelligenteste KI-Modell
    • Vorstellung von Gemini 2.0: das leistungsfähigste KI-Modell
    • Hoffentlich verschwindet dieser Trend wieder und Apple verwendet etwas Wirksames, das andere Firmen dann als neuen Begriff kopieren
  • Ich frage mich, warum kein Benchmark mit o1 hinzugefügt wird

  • OpenAIs GPT-4o-Image-Generation-Livestream ist langsam und benötigt etwa 30 Sekunden pro Bild

    • Sam Altman erklärte: „Es ist langsam, aber die erzeugten Bilder sind es wert“
    • Statt eines Diffusionsansatzes werden, ähnlich wie beim ursprünglichen DALL-E, Bild-Tokens erzeugt und dekodiert
    • Googles Gemini kann Bilder in wenigen Sekunden erzeugen und bearbeiten
    • Es gibt noch keine API, und wegen der Langsamkeit dürfte es teurer werden als die $0,03+ pro Bild der Konkurrenz
  • Nach dem Ausprobieren konnte ich die Geburtstagseinladung meiner Tochter in einem Durchgang erzeugen

    • Die gewünschten Elemente und der Stil wurden genau getroffen
    • Auch als ich darum bat, Details wie Datum und Ort hinzuzufügen, funktionierte es gut
    • Frühere Modelle kamen nicht einmal annähernd heran
  • Es ist erfreulich, dass es nicht dieser übersättigte CG-/Comic-Stil ist

  • Ich frage mich, ob es eine Möglichkeit gibt zu erkennen, ob ein gegebener Prompt von 4o oder DALL-E verarbeitet wurde

    • Derzeit scheint der Prompt noch immer vom Letzteren verarbeitet zu werden
    • Der langfristige Plan ist, vollständig zu 4o zu wechseln und DALL-E in einen separaten Tab zu verschieben
  • Beim Weinglas-Test scheitert es immer noch

  • Ich frage mich, wie stark viele der mit „Best of 8“ markierten Bilder kuratiert wurden

    • Von drei kostenlosen Bildern waren zwei beeindruckend und eines ein Fehlschlag
  • Es gibt Beispiele für iteratives Bearbeiten mit dem neuen Modell

    • Es ist deutlich besser als die vorherigen Modelle, erzeugt aber immer noch Körper mit zu vielen Fingern oder zu vielen Armen