ChatGPT Images 2.0 vorgestellt
(openai.com)- OpenAI hat die nächste Generation seines Bildgenerierungsmodells vorgestellt und die Einführung nicht als normalen Text beschrieben, sondern ausschließlich als Text innerhalb von mit Images 2.0 erzeugten Bildern präsentiert
- Im Fokus stehen sofort einsetzbare Ergebnisse, auch für komplexe visuelle Aufgaben und präzises Text-Rendering
- Es ist das erste Bildmodell mit Thinking-Funktion, das Websuche, die gleichzeitige Erzeugung mehrerer Bilder und die Selbstprüfung der Ausgaben ermöglicht
- Die Rendering-Leistung für nichtlateinische Schriften wurde deutlich verbessert, darunter Japanisch, Koreanisch, Chinesisch, Hindi und Bengalisch, wodurch es für mehrsprachige Designarbeiten praktisch nutzbar wird
- Mit flexibler Unterstützung für Seitenverhältnisse von 3:1 bis 1:3 reagiert es sofort auf unterschiedliche Formate wie Banner, Poster und mobile Bildschirme
- Es versteht sich als Übergang vom Rendering-Tool zum strategischen Designsystem und ist in ChatGPT, Codex und der API nutzbar
Ein neues Zeitalter der Bildgenerierung
- Bilder werden nicht als bloße Dekoration, sondern als eine Sprache definiert, die Mechanismen erklärt, Stimmungen erzeugt, Ideen überprüft und Aussagen vermittelt
- Nachdem ChatGPT Images, das vor einem Jahr veröffentlicht wurde, gezeigt hat, dass KI-Bilder schön und nützlich sein können, ist Images 2.0 das Modell der nächsten Generation für die präzise Verarbeitung komplexer visueller Aufgaben
- Detailgetreue Umsetzung von Anweisungen, präzise Platzierung von Objekten und Beziehungen sowie ein großer Sprung beim Rendern dichter Textinhalte
- Komposition und visuelles Gespür sind so stark, dass die Ergebnisse eher wie bewusstes Design als wie KI-Generierung wirken
- Es arbeitet in verschiedenen Sprachen präzise und nutzt erweitertes visuelles und Weltwissen, um auch mit wenigen Prompts intelligentere Bilder zu erzeugen
- Das Modell verbindet OpenAIs Intelligenz aus Reasoning-Modellen mit visuellem Weltverständnis und verschiebt die Bildgenerierung von einfachem Rendering zu strategischem Design, vom Tool zum visuellen System
- Ab heute verfügbar für Nutzer von ChatGPT, Codex und der API
Höhere Präzision und mehr Kontrolle
- Images 2.0 bietet beispiellose Konkretheit und Genauigkeit bei der Bildgenerierung
- Es entwirft nicht nur anspruchsvollere Bilder, sondern setzt sie auch effektiv um und ist stark bei Befolgung von Anweisungen, Erhalt angeforderter Details und dem Rendern feiner Elemente
- Kleiner Text, Icons, UI-Elemente, dichte Layouts und subtile Stilvorgaben, mit denen frühere Bildmodelle Schwierigkeiten hatten, werden bis zu 2K Auflösung verarbeitet
- Statt nur „ungefähr ähnlicher Bilder“ erzeugt es Ergebnisse, die sich direkt einsetzen lassen
Stärkere Unterstützung für mehrsprachigen Text
- Frühere Modelle zeigten bei Englisch und anderen Sprachen mit lateinischer Schrift eine konsistente Leistung, hatten aber Schwächen bei komplexem oder dichtem Text in nichtlateinischen Schriftsystemen
- Images 2.0 bringt verbessertes mehrsprachiges Verständnis und insbesondere große Fortschritte beim Rendern nichtlateinischer Texte in Japanisch, Koreanisch, Chinesisch, Hindi und Bengalisch
- Nichtenglischer Text wird nicht nur korrekt gerendert, sondern kann auch sprachlich natürlich wirkende Ergebnisse liefern
- Über die bloße Übersetzung von Labels hinaus bleibt die visuelle Konsistenz erhalten, auch bei Postern, Erklärmaterialien, Diagrammen und Comics, in denen Sprache Teil des Designs ist
- Nutzer können Visuals in den Sprachen erstellen, die sie tatsächlich verwenden, was den globalen Einsatz verbessert
Stilistische Raffinesse und Realismus
- Images 2.0 zeigt eine deutlich verbesserte Treue über verschiedene visuelle Stile hinweg
- Bei charakteristischen Elementen von Fotos, einschließlich kleiner Unvollkommenheiten, die Realismus erzeugen, ebenso wie bei Filmstills, Pixel Art und Comics, wurden Konsistenz bei Textur, Licht, Komposition und Details verbessert
- Es erzeugt Ergebnisse, die den gewünschten Stil nicht nur annähern, sondern ihn getreu umsetzen
- Besonders nützlich ist es für Game-Prototyping, Storyboards, Marketing-Creatives und die Erstellung von Assets für bestimmte Medien oder Genres
Flexible Unterstützung für Seitenverhältnisse
- Breite Unterstützung für Seitenverhältnisse von 3:1 (horizontal) bis 1:3 (vertikal)
- Für Wide-Banner, Präsentationsfolien, Poster, mobile Screens, Lesezeichen und Social Graphics lassen sich sofort Ergebnisse im benötigten Format erzeugen
- Das gewünschte Seitenverhältnis kann im Prompt angegeben oder über Preset-Optionen gewählt werden, um in einer neuen Größe neu zu generieren
Realwelt-Intelligenz
- Images 2.0 spiegelt ein aktuelleres Weltverständnis in der Bildgenerierung wider; der Knowledge Cutoff wurde auf Dezember 2025 aktualisiert
- Das ist vorteilhaft für Erklärmaterialien, Karten, Bildungsgraphics und visuelle Zusammenfassungen, bei denen Genauigkeit und Klarheit genauso wichtig sind wie ästhetische Aspekte
- Mit verbesserter Intelligenz sind End-to-End-Aufgaben von der Informationssynthese über Copywriting bis zur Visualisierung möglich
- Es verfügt über ein sauberes, systematisches Designgespür mit Blick auf Weißraum, Lesbarkeit und Fluss
Visueller Denkpartner
- Wird das Thinking- oder Pro-Modell gewählt, investiert das Modell mehr Zeit, um Aufgaben agentisch zu verstehen und auszuführen
- Es kann im Web nach relevanten Informationen suchen, hochgeladene Materialien in klare visuelle Erklärungen umwandeln und vor der Generierung die Bildstruktur erschließen
- In diesem Modus fungiert Images 2.0 als visueller Denkpartner und reduziert den Arbeitsaufwand des Nutzers stark – vom Konzeptentwurf bis zum fertigen Asset
- Im Thinking-Modus ist die gleichzeitige Generierung mehrerer unterschiedlicher Bilder auf einmal möglich – eine Premiere für die ChatGPT-Bildgenerierung
- Unterstützt Workflows wie eine Serie von Comic-Seiten, Richtungen für ein komplettes Redesign eines Hauses, eine Poster-Konzeptfamilie oder Sets von Social Graphics in verschiedenen Seitenverhältnissen und Sprachen
- Statt Bilder einzeln zu prompten und selbst zusammenzustellen, können bis zu 10 konsistente Ergebnisse mit durchgehender Charakter- und Objektkontinuität auf einmal angefordert werden
- Jedes Ergebnis baut dabei sequenziell auf dem vorherigen auf
4 Kommentare
In dem Bild steckt Schlussfolgerung drin, die Ergebnisse sind völlig verrückt.
Ich habe nur einfache Keywords zu einem neuen Geschäftsbereich eingeworfen,
und es leitet sogar die Kernbotschaft und Pain Points daraus ab und verarbeitet sie direkt in der Landingpage.
Es ist schon Standard, dass es sogar die Markenfarben, den Ton der Markenbotschaft und selbst das Modell von der Website übernimmt, die ich als Referenz angegeben hatte.
Wenn man sieht, dass selbst Koreanisch überhaupt nicht kaputt dargestellt wird, wird das in Zukunft wohl enorm vielseitig einsetzbar sein..
Langsam macht mir die Entwicklung von AI immer mehr Angst.
Das ist wirklich beeindruckend. Ich war schon überrascht, als Nano Banana herauskam, aber jetzt ist es noch besser geworden. Wenn es Konkurrenz gibt, scheint die Entwicklung schnell voranzugehen.
Oh … bei der Textverarbeitung war es wohl Nano Banana, aber diesmal haben sie sich offenbar richtig ins Zeug gelegt.
Den gesamten Text des Einführungstextes haben sie in ein Bild verwandelt.
Man kann den kompletten Text ansehen, indem man durch die Bilder scrollt.
Die Schreibschrift in der Mitte ist besonders eindrucksvoll.
Hacker-News-Kommentare
gpt-image-2habe ich ein „Where's Waldo“-Bild erstellt, in dem man einen Waschbären mit einem Amateurfunkgerät finden soll, und der Code ist hier. Das Ergebnis ist dieses Bild, aber ehrlich gesagt bin ich mir selbst nicht sicher, ob der Waschbär tatsächlich ein Amateurfunkgerät in der Hand hält. Solche Where's Waldo-Tests rauben mir meist die Geduld, bis zum Ende zu suchengemini-3.1-flash-image-preview2.520 Token und pro Bild etwa $0.151 kostet, während ein 3840x2160-Bild mitgpt-image-213.342 Token und etwa $0.4 kostet. Dieses Modell ist damit im Vergleich zu Gemini mehr als doppelt so teuergpt-image-1.5und Googles NB2 auf meiner Vergleichsseite ziemlich dicht beieinander liegen. Bei einer auf Prompt-Befolgung fokussierten Bewertung erreichten beide etwa 70 % Erfolgsquote für Generierung und Bearbeitung, wobei Gemini bei der visuellen Qualität immer eine Spur besser war. Trotzdem wargpt-image-1.5für OpenAI ein großer Sprung nach vorn und hat viele alte Probleme wie den sogenannten „piss filter“ stark reduziert. Die Vergleichscharts gibt es für Bearbeitung hier und für Generierung hier. Stand des Updates hatgpt-image-2den sogenannten model killer des Testsets, den neunzackigen Stern, geschafft und bei dem Text-zu-Bild-Benchmark 12 von 15 Aufgaben gelöst, also das bisher beste Modell um einen Punkt übertroffen. Gescheitert ist es aber weiterhin an Prompts wie einer coral snake mit strenger Farbreihenfolge, einem D20 mit den ersten 20 Primzahlen auf den Flächen und einem flachen-erde-artigen Planeten, an dessen Rand Menschen überlaufen. Den Gesamtvergleich gibt es unter All Models, und nur die wichtigsten Modelle hierGPT-Image-2erzeugte Bilder ziemlich gut erkannt. Die zugehörige Arbeit ist hier, und ich habe beides kombiniert, um selbst einen On-Device-AI-Bilddetektor zu bauen