3 Punkte von GN⁺ 2025-12-17 | 1 Kommentare | Auf WhatsApp teilen
  • Die Bildgenerierungsfunktion von ChatGPT wurde umfassend verbessert und bietet nun präzisere Bearbeitung sowie schnellere Generierung
  • Das Modell GPT‑Image‑1.5 befolgt Textanweisungen genauer und kann Bilder anpassen, ohne Ähnlichkeit, Beleuchtung und Komposition einer Person zu verlieren
  • Über die neue Images-Seitenleistenoberfläche werden Preset-Stile, trendige Prompts und die Wiederverwendung von Erscheinungsbildern unterstützt
  • Auch in der API gibt es dieselben Leistungsverbesserungen, dazu 20 % geringere Kosten; geeignet für die Erstellung von Markenlogos und Produktbildern
  • Dieses Update wird sofort an alle ChatGPT- und API-Nutzer ausgerollt und verbessert Nutzwert und Qualität der Bildgenerierung deutlich

Einführung in GPT‑Image‑1.5

  • Eine neue Version von ChatGPT Images auf Basis des leistungsstärksten Bildgenerierungsmodells wurde veröffentlicht
    • Befolgt Textanweisungen genauer und erlaubt Bearbeitungen, während Detailmerkmale wie Gesichtsähnlichkeit erhalten bleiben
    • Die Bildgenerierung ist bis zu 4-mal schneller, was iterative Experimente und die Ideenfindung effizienter macht
  • Das Modell liefert ausdrucksstarke Transformationen, dichtes Text-Rendering und natürliche Ergebnisse
    • Es unterstützt alles von kleinen Korrekturen bis zur vollständigen Rekonstruktion und ermöglicht mit Preset-Stilen eine einfache Generierung
  • Der Rollout für alle ChatGPT-Nutzer läuft schrittweise; in der API wird es als GPT‑Image‑1.5 bereitgestellt

Ergebnisse passend zur Nutzerabsicht

  • Das Modell verändert nur die angeforderten Bereiche und bewahrt dabei Beleuchtung, Komposition und Personenähnlichkeit konsistent
  • So wird eine hohe Übereinstimmung bei Fotobearbeitung, Simulation von Kleidung und Frisuren, Stilfiltern und konzeptionellen Transformationen erreicht
  • ChatGPT fungiert wie ein mobiles Creative Studio und übernimmt sowohl praktische Bearbeitung als auch künstlerische Neugestaltung
    • Es unterstützt verschiedene Bearbeitungstypen wie Hinzufügen, Entfernen, Kombinieren und Mischen
    • Die kreative Transformationsfunktion zum Hinzufügen von Elementen wie Text und Layout wurde verbessert
    • Gegenüber GPT Image 1.0 wurde das Verständnis von Anweisungen verbessert, was feinere Bearbeitungen ermöglicht
    • Die Qualität beim dichten und kleinen Text-Rendering wurde verbessert

Neuer Bereich für Bildgenerierung

  • In ChatGPT wurde eine dedizierte Images-Seitenleiste eingeführt, die Erkundung und Erstellung von Bildern verkürzt
    • Enthält Preset-Filter, trendige Prompts und die Wiederverwendung von Erscheinungsbildern
    • Ein einmaliger Upload kann wiederholt genutzt werden, ohne die Camera Roll erneut verwenden zu müssen
  • Die Bildgenerierung ist bis zu 4-mal schneller, mehrere Bilder können gleichzeitig erzeugt werden
  • Von kleinen Änderungen bis zur vollständigen Neugestaltung werden Ergebnisse geliefert, die der Vision des Nutzers entsprechen

Zusätzliche Qualitätsverbesserungen

  • Sofort nutzbare Qualitätssteigerungen bei der Darstellung vieler kleiner Gesichter und dem Rendering natürlicher Ergebnisse
  • Beispiel: Eine Straßenszene im London der 1970er Jahre wird realistisch nachgebildet, mit verbessertem Fokus auf Details und Personendarstellung

Verbesserungen und Grenzen

  • Gegenüber der frühen Version wurden in verschiedenen Anwendungsfällen klare Leistungsverbesserungen bestätigt
  • Einige Ergebnisse sind jedoch weiterhin nicht perfekt; besonders bei mehreren Gesichtern und mehrsprachiger Verarbeitung gibt es noch Verbesserungspotenzial

Bereitstellung von GPT Image 1.5 über die API

  • Die API-Version enthält dieselben Verbesserungen wie ChatGPT Images
    • Konsistenz von Markenlogos und zentralen Visuals bleibt erhalten
    • Geeignet für die Bildgenerierung in Marketing und E-Commerce
  • Ein- und Ausgabekosten sinken um 20 %, sodass mit demselben Budget mehr Bilder erzeugt werden können
  • Kann im OpenAI Playground, in der Galerie und im Prompt-Guide ausprobiert werden
  • Unternehmen wie Wix, Canva, Figma und Envato setzen es bereits ein
    • Wix bewertet es als „Generierung hochwertiger und hochkonsistenter Bilder, die schnelle Produktions-Workflows unterstützt“

Veröffentlichung und Rollout

  • Das neue ChatGPT-Images-Modell wird sofort weltweit an alle ChatGPT- und API-Nutzer ausgerollt
  • Es kann ohne separate Modellauswahl genutzt werden; die frühere Version bleibt in Form eines Custom GPT erhalten
  • OpenAI bewertet dieses Update als wichtigen Schritt in der Entwicklung der Bildgenerierungstechnologie
    • Weitere Verbesserungen wie noch feinere Bearbeitung und mehrsprachige Unterstützung sind geplant

1 Kommentare

 
GN⁺ 2025-12-17
Meinungen auf Hacker News
  • Es wurden die Ergebnisse von gpt-image 1.5 auf der GenAI-Showdown-Website geteilt.
    OpenAI war weiterhin stark beim Verständnis von Prompts, hatte aber eher Schwächen bei der Bildtreue (fidelity). Mit diesem Update wurde diese Schwäche deutlich verbessert.
    Besonders auffällig ist, dass lokale Bearbeitungen (localized edit) gut gelingen, ohne die Gesamtästhetik zu beschädigen. Die frühere Wertung stieg von 4/12 auf 8/12 und das Modell war das einzige, das den „Giraffe prompt“ bestanden hat.
    Auch die Steuerbarkeit (steerability) des Modells liegt mit rund 90 % hoch.
    Neu hinzugekommen sind ein Bereich für modellbezogene Fehlversuche (outtakes), die Ergänzung der Modelle REVE und Flux.2 Dev sowie ein gewichtungsbasiertes Bewertungssystem.
    Wer die drei Modelle (gpt-image-1, gpt-image-1.5, NB Pro) vergleichen möchte, kann diesen Link nutzen.

  • Es wird gerade ein Blogbeitrag vorbereitet, der Experimente rund um Nano Banana zusammenfasst.
    Beim Test des neuen ChatGPT-Image-Modells zeigte sich, dass es deutlich schlechter als Nano Banana Pro, aber besser als das normale Nano Banana ist.
    Der Preis ist unklar, aber gpt-image-1.5 scheint etwa 20 % günstiger als das bisherige Modell zu sein.
    Interessant ist ein Fall von Grid-Generierung (grid generation). Bei NBP bricht die Prompt-Konsistenz ab 4x4 meist zusammen, daher war es beeindruckend, dass OpenAI einen 6x6-Fall versucht hat.

    • Ich werde gpt-image-1.5 heute noch in meinem GenAI Showdown laufen lassen.
      In der Zwischenzeit lassen sich die beeindruckenden Ergebnisse von NB Pro in diesem Blog ansehen.
      NB Pro lieferte erstaunliche Resultate, etwa beim Zusammensetzen eines zuvor nie gesehenen Puzzles, beim Schätzen von 3D-Terrain oder beim Verwandeln von Fenstern in Spiegel.
    • Beim direkten Test von GPT1.5 war die Bildqualität ähnlich wie bei NBP, aber Prompt-Konsistenz und Verständnis von Weltmodellen waren schwächer.
      Zum Beispiel wurde bei der Aufforderung, zwei rudernde Personen zu zeigen, ein Boot erzeugt, das so klein war, dass sie kaum hineinpassten.
      Außerdem war ein Bug sehr störend, bei dem bei jedem Korrektur-Prompt der vorherige Gesprächskontext verschwand.
      Für natürlichere Ergebnisse wurde am Anfang des Prompts eine Formulierung wie „shaky amateur smartphone photo“ ergänzt.
      Reaktionen dazu sind auch in diesem Tweet zu sehen.
    • Aus der Sicht von jemandem mit über zehn Jahren Erfahrung in der Filmproduktion besteht ein großer Bedarf an Werkzeugen für konsistente Szenenkomposition.
      gpt-image-1 ist bei previz-to-render deutlich besser als Nano Banana(Pro).
      Nano Banana behält niedrig aufgelöste Previz-Elemente weitgehend unverändert bei, während gpt-image-1 Personenposen und Scene Blocking versteht und zugleich hochskaliert.
      Beispielvideos: 3D + Posing + Blocking, Version mit wiederverwendetem Set, Gaussian splats, weitere Beispiele
      Künftig werden Modelle gebraucht, die Stilkontrolle, Geschwindigkeit und referenzbildbasiertes Styling beherrschen.
      Auch Adobe experimentiert mit ähnlichen Funktionen und demonstriert unter anderem Relighting, Image→3D-Bearbeitung, Gaussian-Bearbeitung und 3D→Image-Konvertierung.
      Ich setze diese Funktionen selbst als Open-Source-Desktop-Tool um und entwickle es in Rust.
    • Es gab Rückmeldungen, dass die Experimente interessant waren. Dadurch wurden sowohl die Prompt-Schreibweise verbessert als auch die Erwartungen realistischer eingeordnet.
  • Wäre das 2010 ein Dienst gewesen, bei dem Photoshop-Leute Bilder zusammensetzen, hätte es wohl große Kontroversen gegeben.
    Jetzt leben wir in einer Zeit, in der KI Urheberrecht und den Begriff des Autors untergräbt, und es stellt sich die Frage, wie neue Inhalte noch geschützt werden können.
    Früher hat GPT einmal ein selten stilisiertes Foto von mir fast identisch reproduziert.

    • Die Nutzung von Referenzbildern ist gängige Praxis in der Digital-Art-Branche. Bei KI besteht allerdings das Risiko, zu ähnlich zu reproduzieren.
    • Wenn man Inhalte schützen will, ist Air Gap die einzige Methode, also sie nicht ins Internet zu stellen.
      Sobald etwas veröffentlicht wird, muss ein gewisses Maß an Missbrauch in Kauf genommen werden. Für Fälle, in denen Modelle auf das Original überfitten, gibt es noch keinen rechtlichen Präzedenzfall.
    • Wir treten vermutlich in ein post-urheberrechtliches Zeitalter ein. Das Recht wird bald nachziehen.
    • Es wird die Frage gestellt, ob es wirklich schlecht ist, wenn jemand mein Werk kopiert, dadurch aber unzählige Menschen es sehen.
  • Es wurde versucht, mit gpt-image-1.5 Sprite-Maps und UV-Textur-Maps zu erzeugen, und der Megaman-Legends-Look kam gut rüber.
    Beispiel 1, Beispiel 2
    Da aber kein echtes 3D-Modell vorliegt, ist unklar, ob es tatsächlich präzise UV-Maps sind. Mit frühen Versionen von Nano Banana war so etwas unmöglich.

    • Um es klar zu sagen: Das ist keine echte UV-Map. Beim Crash-Modell fehlt zum Beispiel der Rückenbereich.
      Solche Texturen kann man zwar verwenden, aber sie würden stark verzerren.
      Der richtige Ansatz wäre, das Modell zu unwrappen und eine Wireframe-UV-Map als Eingabe zu verwenden.
      Das eigentliche Crash-Modell ist hier zu sehen.
  • Es wurden Experimente mit der Anwendung eines Dark Themes auf ein Softwareprodukt gemacht.
    Gemini/Nano änderten nur einige Panels zu Grau, während GPT die gesamte App ansprechend thematisierte.
    Trotzdem brauchen die Design-Details weiterhin die Hand eines Designers.

  • Es kam die Frage auf, warum ChatGPT-Bilder immer einen gelblichen Stich hatten.

    • Das ist ein Phänomen, das ab einem bestimmten Zeitpunkt auftrat. Es scheint mit Reinforcement Learning im Zusammenhang mit dem Ghibli-Style-Boom zu stehen.
    • Meine Vermutung ist, dass OpenAI möglicherweise die Berechnung der Bildnormalisierung falsch gemacht hat. Beim neuen Modell ist das verschwunden.
    • Auch Metas Codec Avatars hatten ein ähnliches Problem. Obwohl die Daten mit Geräten im Wert von mehreren Millionen Dollar gesammelt wurden, entstand durch fehlgeschlagene Kamerakalibrierung ein Grünstich.
    • Eine weitere Hypothese lautet, dass der im Film oft verwendete „Mexico-Filter“ in die Trainingsdaten eingesickert ist.
    • Bei der Stilabstimmung auf Basis menschlicher Präferenzen entstand ein subtiler Gelbstich, der sich mit wiederholten Bearbeitungen weiter aufsummierte.
  • Der Produkt-Pitch „Bilder aus Erinnerungen, die es nie gab, erzeugen“ wirkt seltsam.

    • So empfinde ich es auch, aber Marktforschung zeigt, dass Bildgenerierung sehr beliebt ist.
      Ich nutze solche Systeme hauptsächlich für textzentrierte Aufgaben wie Programmierung, Wikis und Mathematik.
      Das erinnert an die Zeit, als Snapchat-Filter populär waren. Ich habe meistens den Standardmodus verwendet.
    • Wenn mit diesem Prompt Origami-Tiere erzeugt würden, wäre das vielleicht sogar noch unheimlicher.
    • Irgendwann könnte eine Zeit kommen, in der Schauspieler ihr eigenes Bild verkaufen, um Fake-Fotos zu erzeugen.
      Am Ende abonnieren dann vielleicht alle ein virtuelles Leben, und wenn die Kartenzahlung fehlschlägt, kehrt man in die Realität zurück.
  • Weil das neue Modell angeblich in der API funktioniert, wurde das Golang-SDK grail aktualisiert,
    doch beim Aufruf tritt ein 500-Serverfehler auf. In der Modellliste erscheint gpt-image-1.5 ebenfalls nicht.
    Ein Codebeispiel ist vorhanden.

    • Tatsächlich ist es in der API offenbar noch nicht nutzbar. Auch im von OpenAI verlinkten Image Playground erscheint es nicht.
      In meinem lokalen Playground (gpt-image-1-playground) habe ich die Behandlung von 404 entsprechend angepasst.
      • Ich habe es ebenfalls ausprobiert und denselben 500-Fehler bekommen.
        Wenn man den Modellnamen falsch angibt, erscheint die Meldung, dass nur gpt-image-1 und gpt-image-1-mini unterstützt werden.
      • Es scheint ein schrittweiser Rollout zu sein und auch im Backend ist es noch nicht sichtbar.
  • Ich nutze weiterhin Midjourney. Den anderen großen Modellen fehlt es an stilistischer Kreativität, und sie konzentrieren sich zu sehr auf Fotorealismus.

    • Ich kenne die jüngsten Updates von Midjourney nicht genau, aber Stilkonsistenz und Charaktererhalt sind wichtig.
      Wenn man nicht nur ein einzelnes Bild, sondern kontextreiche Sequenzen erzeugen will, sind solche Funktionen unverzichtbar.
    • Dieses Phänomen kann als Unterschied zwischen „meinungsstarken Modellen“ und „vom Nutzer gewählten Modellen“ verstanden werden. Wenn Ersteres gut funktioniert, hat es seine Stärken.
    • Manche reagierten erstaunt, andere fragten, ob es eine Galerie mit solchen Bildern gibt.
    • Diese Tendenz ist ein kulturelles Problem, das schon vor der Bildgenerierung existierte.
      Kunst wurde oft nur nach der „Renderqualität“ bewertet, wodurch die Bedeutung kulturellen Schaffens im gesellschaftlichen Kontext übersehen wurde.