5 Punkte von GN⁺ 8 일 전 | 4 Kommentare | Auf WhatsApp teilen
  • OpenAI hat die nächste Generation seines Bildgenerierungsmodells vorgestellt und die Einführung nicht als normalen Text beschrieben, sondern ausschließlich als Text innerhalb von mit Images 2.0 erzeugten Bildern präsentiert
  • Im Fokus stehen sofort einsetzbare Ergebnisse, auch für komplexe visuelle Aufgaben und präzises Text-Rendering
  • Es ist das erste Bildmodell mit Thinking-Funktion, das Websuche, die gleichzeitige Erzeugung mehrerer Bilder und die Selbstprüfung der Ausgaben ermöglicht
  • Die Rendering-Leistung für nichtlateinische Schriften wurde deutlich verbessert, darunter Japanisch, Koreanisch, Chinesisch, Hindi und Bengalisch, wodurch es für mehrsprachige Designarbeiten praktisch nutzbar wird
  • Mit flexibler Unterstützung für Seitenverhältnisse von 3:1 bis 1:3 reagiert es sofort auf unterschiedliche Formate wie Banner, Poster und mobile Bildschirme
  • Es versteht sich als Übergang vom Rendering-Tool zum strategischen Designsystem und ist in ChatGPT, Codex und der API nutzbar

Ein neues Zeitalter der Bildgenerierung

  • Bilder werden nicht als bloße Dekoration, sondern als eine Sprache definiert, die Mechanismen erklärt, Stimmungen erzeugt, Ideen überprüft und Aussagen vermittelt
  • Nachdem ChatGPT Images, das vor einem Jahr veröffentlicht wurde, gezeigt hat, dass KI-Bilder schön und nützlich sein können, ist Images 2.0 das Modell der nächsten Generation für die präzise Verarbeitung komplexer visueller Aufgaben
  • Detailgetreue Umsetzung von Anweisungen, präzise Platzierung von Objekten und Beziehungen sowie ein großer Sprung beim Rendern dichter Textinhalte
  • Komposition und visuelles Gespür sind so stark, dass die Ergebnisse eher wie bewusstes Design als wie KI-Generierung wirken
  • Es arbeitet in verschiedenen Sprachen präzise und nutzt erweitertes visuelles und Weltwissen, um auch mit wenigen Prompts intelligentere Bilder zu erzeugen
  • Das Modell verbindet OpenAIs Intelligenz aus Reasoning-Modellen mit visuellem Weltverständnis und verschiebt die Bildgenerierung von einfachem Rendering zu strategischem Design, vom Tool zum visuellen System
  • Ab heute verfügbar für Nutzer von ChatGPT, Codex und der API

Höhere Präzision und mehr Kontrolle

  • Images 2.0 bietet beispiellose Konkretheit und Genauigkeit bei der Bildgenerierung
  • Es entwirft nicht nur anspruchsvollere Bilder, sondern setzt sie auch effektiv um und ist stark bei Befolgung von Anweisungen, Erhalt angeforderter Details und dem Rendern feiner Elemente
  • Kleiner Text, Icons, UI-Elemente, dichte Layouts und subtile Stilvorgaben, mit denen frühere Bildmodelle Schwierigkeiten hatten, werden bis zu 2K Auflösung verarbeitet
  • Statt nur „ungefähr ähnlicher Bilder“ erzeugt es Ergebnisse, die sich direkt einsetzen lassen

Stärkere Unterstützung für mehrsprachigen Text

  • Frühere Modelle zeigten bei Englisch und anderen Sprachen mit lateinischer Schrift eine konsistente Leistung, hatten aber Schwächen bei komplexem oder dichtem Text in nichtlateinischen Schriftsystemen
  • Images 2.0 bringt verbessertes mehrsprachiges Verständnis und insbesondere große Fortschritte beim Rendern nichtlateinischer Texte in Japanisch, Koreanisch, Chinesisch, Hindi und Bengalisch
  • Nichtenglischer Text wird nicht nur korrekt gerendert, sondern kann auch sprachlich natürlich wirkende Ergebnisse liefern
  • Über die bloße Übersetzung von Labels hinaus bleibt die visuelle Konsistenz erhalten, auch bei Postern, Erklärmaterialien, Diagrammen und Comics, in denen Sprache Teil des Designs ist
  • Nutzer können Visuals in den Sprachen erstellen, die sie tatsächlich verwenden, was den globalen Einsatz verbessert

Stilistische Raffinesse und Realismus

  • Images 2.0 zeigt eine deutlich verbesserte Treue über verschiedene visuelle Stile hinweg
  • Bei charakteristischen Elementen von Fotos, einschließlich kleiner Unvollkommenheiten, die Realismus erzeugen, ebenso wie bei Filmstills, Pixel Art und Comics, wurden Konsistenz bei Textur, Licht, Komposition und Details verbessert
  • Es erzeugt Ergebnisse, die den gewünschten Stil nicht nur annähern, sondern ihn getreu umsetzen
  • Besonders nützlich ist es für Game-Prototyping, Storyboards, Marketing-Creatives und die Erstellung von Assets für bestimmte Medien oder Genres

Flexible Unterstützung für Seitenverhältnisse

  • Breite Unterstützung für Seitenverhältnisse von 3:1 (horizontal) bis 1:3 (vertikal)
  • Für Wide-Banner, Präsentationsfolien, Poster, mobile Screens, Lesezeichen und Social Graphics lassen sich sofort Ergebnisse im benötigten Format erzeugen
  • Das gewünschte Seitenverhältnis kann im Prompt angegeben oder über Preset-Optionen gewählt werden, um in einer neuen Größe neu zu generieren

Realwelt-Intelligenz

  • Images 2.0 spiegelt ein aktuelleres Weltverständnis in der Bildgenerierung wider; der Knowledge Cutoff wurde auf Dezember 2025 aktualisiert
  • Das ist vorteilhaft für Erklärmaterialien, Karten, Bildungsgraphics und visuelle Zusammenfassungen, bei denen Genauigkeit und Klarheit genauso wichtig sind wie ästhetische Aspekte
  • Mit verbesserter Intelligenz sind End-to-End-Aufgaben von der Informationssynthese über Copywriting bis zur Visualisierung möglich
    • Es verfügt über ein sauberes, systematisches Designgespür mit Blick auf Weißraum, Lesbarkeit und Fluss

Visueller Denkpartner

  • Wird das Thinking- oder Pro-Modell gewählt, investiert das Modell mehr Zeit, um Aufgaben agentisch zu verstehen und auszuführen
  • Es kann im Web nach relevanten Informationen suchen, hochgeladene Materialien in klare visuelle Erklärungen umwandeln und vor der Generierung die Bildstruktur erschließen
  • In diesem Modus fungiert Images 2.0 als visueller Denkpartner und reduziert den Arbeitsaufwand des Nutzers stark – vom Konzeptentwurf bis zum fertigen Asset
  • Im Thinking-Modus ist die gleichzeitige Generierung mehrerer unterschiedlicher Bilder auf einmal möglich – eine Premiere für die ChatGPT-Bildgenerierung
    • Unterstützt Workflows wie eine Serie von Comic-Seiten, Richtungen für ein komplettes Redesign eines Hauses, eine Poster-Konzeptfamilie oder Sets von Social Graphics in verschiedenen Seitenverhältnissen und Sprachen
  • Statt Bilder einzeln zu prompten und selbst zusammenzustellen, können bis zu 10 konsistente Ergebnisse mit durchgehender Charakter- und Objektkontinuität auf einmal angefordert werden
    • Jedes Ergebnis baut dabei sequenziell auf dem vorherigen auf

4 Kommentare

 
j2sus91 7 일 전

In dem Bild steckt Schlussfolgerung drin, die Ergebnisse sind völlig verrückt.

Ich habe nur einfache Keywords zu einem neuen Geschäftsbereich eingeworfen,
und es leitet sogar die Kernbotschaft und Pain Points daraus ab und verarbeitet sie direkt in der Landingpage.

Es ist schon Standard, dass es sogar die Markenfarben, den Ton der Markenbotschaft und selbst das Modell von der Website übernimmt, die ich als Referenz angegeben hatte.
Wenn man sieht, dass selbst Koreanisch überhaupt nicht kaputt dargestellt wird, wird das in Zukunft wohl enorm vielseitig einsetzbar sein..

Langsam macht mir die Entwicklung von AI immer mehr Angst.

 
kirinonakar 8 일 전

Das ist wirklich beeindruckend. Ich war schon überrascht, als Nano Banana herauskam, aber jetzt ist es noch besser geworden. Wenn es Konkurrenz gibt, scheint die Entwicklung schnell voranzugehen.

 
xguru 8 일 전

Oh … bei der Textverarbeitung war es wohl Nano Banana, aber diesmal haben sie sich offenbar richtig ins Zeug gelegt.
Den gesamten Text des Einführungstextes haben sie in ein Bild verwandelt.
Man kann den kompletten Text ansehen, indem man durch die Bilder scrollt.
Die Schreibschrift in der Mitte ist besonders eindrucksvoll.

 
GN⁺ 8 일 전
Hacker-News-Kommentare
  • Ich habe das neue Modell so getestet. Mit gpt-image-2 habe ich ein „Where's Waldo“-Bild erstellt, in dem man einen Waschbären mit einem Amateurfunkgerät finden soll, und der Code ist hier. Das Ergebnis ist dieses Bild, aber ehrlich gesagt bin ich mir selbst nicht sicher, ob der Waschbär tatsächlich ein Amateurfunkgerät in der Hand hält. Solche Where's Waldo-Tests rauben mir meist die Geduld, bis zum Ende zu suchen
    • Ich habe es noch einmal mit einem Befehl für die maximale Auflösung laufen lassen und ein deutlich besseres Ergebnis bekommen. Ich habe mich an der empfohlenen Größe aus dem OpenAI Cookbook orientiert (Link), und das Resultat ist hier. Diesmal habe ich den raccoon auch gefunden, und ein Bild hat ungefähr 40 Cent gekostet
    • Ich bin für das Bild dankbar, aber die Gesichter der Menschen sind so bizarr, dass sie sich wie etwas aus einem Albtraum anfühlen
    • Ich halte diesen Prompt für eine wirklich fies schwierige Aufgabe für aktuelle diffusion-Modelle. Gerade deshalb wirkt schon der Versuch an sich beeindruckend
    • Als ich „nicht die Geduld haben, bis zum Ende zu suchen“ gelesen habe, dachte ich, man könnte daraus gleich einen neuen AI-Benchmark machen
    • Für mich sah diese Art von Aufgabe wie ein Bereich aus, in dem AI bei strukturellen Details zwangsläufig weiter schwach bleiben könnte. Aus der Ferne wirkt es plausibel, aber aus der Nähe gibt es zu viele Fehler: Gesichter, die aussehen, als würden sie schreien, Schilder, die gleichzeitig in beide Richtungen zeigen, nicht existierende Rettungszelte und Hunde, die wie Monster wirken. Die Samples für Marketingzwecke sind ähnlich, und auch Beispiele wie Anatomie oder das Periodensystem fallen bei genauerem Hinsehen auseinander. Am Ende fragt man sich schon skeptisch, ob wir nur mit riesigen Mengen an RAM & GPUs sowie Wasser und Strom ein schlechteres Where's Waldo erzeugen
  • Beim Experimentieren mit Nano Banana Pro habe ich einen sehr unterhaltsamen Prompt gebaut, um die Regelbefolgung von Bildmodellen zu testen. So etwas wie: „Platziere die Pokémon mit National-Pokédex-Nummern, die den ersten 64 Primzahlen entsprechen, in einem 8x8-Raster und zeichne sie je nach Ziffernanzahl im 8-bit-, charcoal- oder Ukiyo-e-Stil.“ Das NBP-Ergebnis ist hier, und Nummern, Pokémon und Stil waren größtenteils korrekt, auch wenn die Stilumsetzung etwas lustlos wirkte und es Diskussionen gab, dass das Bild wie ein Plagiat aussehen könnte. Das Ergebnis mit demselben Prompt in gpt-2-image high ist hier: stilistisch kreativer und origineller, aber die Stil-Logik wurde nicht nach Zahlen, sondern zeilenweise angewandt, einige Pokémon waren falsch, die Schrift war falsch und der untere Teil war nicht einmal quadratisch. Ein ziemlich merkwürdiges Resultat
    • Ich fand diesen Test wirklich hervorragend, und zugleich auch etwas komisch, dass gpt-2-image so schlecht abschneidet. Da denkt man fast, ein einfach aus der Suche kopiertes plagiarized Bild wäre besser. Es schien nicht einmal einen Sanity Check oder Nachbearbeitungsschritt zu geben, der prüft, ob die Anweisungen korrekt befolgt wurden, und Verstöße gegen die Stilvorgaben pro Ziffernanzahl hätte man wohl leicht erkennen können. Dazu kommt noch der hohe Preis, was umso enttäuschender ist, wenn das Ergebnis praktisch unbrauchbar ist
    • Mich würde eher interessieren, warum dieser Prompt als guter Prompt gilt
  • Ich habe zusammengefasst, dass ein 4096x4096-Bild mit gemini-3.1-flash-image-preview 2.520 Token und pro Bild etwa $0.151 kostet, während ein 3840x2160-Bild mit gpt-image-2 13.342 Token und etwa $0.4 kostet. Dieses Modell ist damit im Vergleich zu Gemini mehr als doppelt so teuer
    • Ich halte diesen Vergleich für apples to oranges. Da wird im Grunde die flash-Version direkt mit der Vollversion verglichen, und bei feinen Details fühlt sich dieses Modell subjektiv ungefähr 5x besser an als flash
  • Ich habe einen hard prompt, den ich beim Testen von Bildgeneratoren immer verwende. Darin kombiniere ich Bedingungen wie die Hände eines alten Uhrmachers, eine Vintage-Taschenuhr, flaches Wasser, Brechung und caustics, fallende Wassertropfen, ein verzerrtes Gesicht in der Spiegelung einer Glasoberfläche und ein 100mm macro lens. Die Ergebnisbilder habe ich auf Google Drive hochgeladen und sowohl im Web als auch über die API mehrfach erzeugt, aber insgesamt war es nicht so gut wie Nano Banana
    • Ich frage mich, warum das als guter Prompt gilt
    • Ich wollte mir die geteilten Bilder ansehen, aber es sah so aus, als würde der Host rate limiting anwenden; ich wollte nur kurz darauf hinweisen
    • Ich kann bestätigen, dass die Links kaputt wirken
  • Ich fand, dass OpenAIs gpt-image-1.5 und Googles NB2 auf meiner Vergleichsseite ziemlich dicht beieinander liegen. Bei einer auf Prompt-Befolgung fokussierten Bewertung erreichten beide etwa 70 % Erfolgsquote für Generierung und Bearbeitung, wobei Gemini bei der visuellen Qualität immer eine Spur besser war. Trotzdem war gpt-image-1.5 für OpenAI ein großer Sprung nach vorn und hat viele alte Probleme wie den sogenannten „piss filter“ stark reduziert. Die Vergleichscharts gibt es für Bearbeitung hier und für Generierung hier. Stand des Updates hat gpt-image-2 den sogenannten model killer des Testsets, den neunzackigen Stern, geschafft und bei dem Text-zu-Bild-Benchmark 12 von 15 Aufgaben gelöst, also das bisher beste Modell um einen Punkt übertroffen. Gescheitert ist es aber weiterhin an Prompts wie einer coral snake mit strenger Farbreihenfolge, einem D20 mit den ersten 20 Primzahlen auf den Flächen und einem flachen-erde-artigen Planeten, an dessen Rand Menschen überlaufen. Den Gesamtvergleich gibt es unter All Models, und nur die wichtigsten Modelle hier
  • Ich habe die Preisvergleiche zusammengetragen. GPT Image 2 kostet in Low bei 1024x1024 $0.006, bei 1024x1536 und 1536x1024 jeweils $0.005; in Medium jeweils $0.053, $0.041 und $0.041; in High $0.211, $0.165 und $0.165. GPT Image 1 kostet dagegen in Low $0.011, $0.016 und $0.016, in Medium $0.042, $0.063 und $0.063 und in High $0.167, $0.25 und $0.25
    • Ich fand es etwas seltsam, dass die Auflösung hier so stark begrenzt ist. Ich frage mich, ob bei größeren Bildern die Details beim Hochskalieren zusammenbrechen oder ob schlicht die Kosten explosionsartig steigen würden
    • Ich fand interessant, dass bei v2 große Ausgaben teurer sind als kleine quadratische Bilder, während es bei v1 genau andersherum war. Ich frage mich, wie diese Preisstruktur zustande gekommen ist
  • Ich habe bestätigt, dass diesmal der Piano-Key-Test bestanden wurde. Ein erfolgreiches Beispiel ist hier, allerdings war die Beschriftung von middle C in diesem Versuch falsch. Nach einer weiteren Aufforderung wurde es aber korrigiert
    • Als NB 2 herauskam, habe ich den Schwierigkeitsgrad dieses Tests noch erhöht. Ich habe die Farben aller accidentals und naturals vertauscht, und trotzdem wurde es perfekt gelöst; das Beispiel ist hier
  • Ich finde die Verbesserung beim Rendern chinesischer Texte wirklich auffällig und beeindruckend. Im Wuxi-Samplebild gab es aber immer noch Tippfehler, zum Beispiel war bei 小笼包 das Zeichen 笼 falsch geschrieben. Auch im Abschnitt „极小中文也清晰可读“ gab es weitere Fehler, aber sie störten die Lesbarkeit nicht besonders. Trotzdem fühlte es sich ganz klar deutlich besser an als frühere Bildgenerierungsmodelle
    • Ich frage mich, ob das sogar besser ist als lokal in China entwickelte chinesische Modelle. Dort dürfte es viel mehr chinesische Beispiele in den Trainingsdaten geben, deshalb hätte ich erwartet, dass dieser Aspekt dort stärker optimiert ist
  • Ich finde, jetzt ist ein guter Zeitpunkt, C2PA zu erwähnen. Das ist ein Standard, der die Herkunft von Bildern aktiv nachweist, und OpenAI ist ebenfalls beteiligt. Wenn ich ein von AI erzeugtes Bild in den C2PA Viewer lade, wird als Herkunft ChatGPT angezeigt. Natürlich können böswillige Nutzer die Metadaten entfernen und es wie ein normales Bild erscheinen lassen, aber langfristig sollten Bilder ohne Herkunftsangabe wie Warnsignale à la non-https behandelt werden. Mehr dazu steht auf c2pa.org
    • Für mich lässt sich das Problem nicht einfach nur auf bad actors reduzieren. Die meisten Plattformen wie Instagram oder Facebook entfernen Metadaten standardmäßig aus Datenschutzgründen, und EXIF kann Dinge wie Standortinformationen, Dateinamen, Erstellungszeit oder Geräteinformationen enthalten. Daher scheint aktuell weniger die böswillige Manipulation das praktische Hauptproblem für den Erhalt von C2PA zu sein als vielmehr die Struktur, dass die meisten Websites beim Bildupload Metadaten entfernen
    • Ich wollte ergänzen, dass OpenAI von Anfang an C2PA manifests an generierte Bilder angehängt hat. Außerdem haben in einer kleinen Evaluation nach meinen eigenen Maßstäben aktuelle ML-basierte KI-Bilddetektoren wie OmniAID von GPT-Image-2 erzeugte Bilder ziemlich gut erkannt. Die zugehörige Arbeit ist hier, und ich habe beides kombiniert, um selbst einen On-Device-AI-Bilddetektor zu bauen
  • Ich habe das Modell jetzt ein paar Stunden benutzt und war ehrlich gesagt ziemlich beeindruckt. Zum ersten Mal hatte ich bei einem Bildmodell das Gefühl, dass es mir bei meiner tatsächlichen Arbeit hilft, besonders bei PowerPoint-Folien und beim Erstellen von mockups