1 Punkte von GN⁺ 2025-04-25 | 1 Kommentare | Auf WhatsApp teilen
  • Die von OpenAI im vergangenen Monat in ChatGPT eingeführte Bildgenerierungsfunktion erreichte in der ersten Woche nach dem Start mehr als 700 Millionen generierte Bilder
  • Nun wurde dies auf die API ausgeweitet: Mit dem neuen Modell gpt-image-1 können Entwickler und Unternehmen die Funktion in ihre eigenen Plattformen integrieren
  • Sie wird bereits in verschiedenen Branchen für Design, Logo-Erstellung, Marketing, Videobearbeitung und mehr eingesetzt
  • Die Sicherheitsfunktionen wurden verstärkt, und bei der API-Nutzung werden Kundendaten standardmäßig nicht für das Training verwendet
  • Je nach Qualität kostet ein Bild ungefähr 0,02 $ (niedrig), 0,07 $ (mittel), 0,19 $ (hoch)

Bildgenerierungsmodell über die API veröffentlicht

  • OpenAI hat die in ChatGPT beliebte Bildgenerierungsfunktion auf die API ausgeweitet und das Modell gpt-image-1 veröffentlicht
  • Das Modell kann verschiedene Stile erzeugen, Text präzise rendern, benutzerdefinierte Richtlinien zuverlässig befolgen und Weltwissen nutzen
  • Unternehmen und Startups setzen es bereits in unterschiedlichsten Bereichen wie Design, E-Commerce, Bildung und Gaming ein

Wichtige Anwendungsfälle

  • Adobe: Bietet über Firefly und die Express-App Bildgenerierung, mit der sich verschiedene ästhetische Stile ausprobieren lassen
  • Airtable: Nutzt KI, um die kreative Produktivität in groß angelegten Workflows zu steigern
  • Figma: Integriert über gpt-image-1 Bildgenerierung und -bearbeitung in die Plattform, damit Nutzer Ideen visuell erkunden können
  • Canva integriert gpt-image-1 in Canva AI und Magic Studio und versucht so, Funktionen zur Design-Erstellung und -Bearbeitung zu erweitern
    • Zum Beispiel lassen sich Handskizzen in ausgefeilte grafische Elemente umwandeln oder präzise Bearbeitungen durchführen
  • GoDaddy testet Bildgenerierung für die Logo-Erstellung und -Bearbeitung
    • Möglich sind Hintergrundentfernung, Typografie-Erstellung und Inhalte, die die Markenidentität widerspiegeln
    • In Verbindung mit GoDaddy Airo® wird außerdem die Erstellung von Social-Media-Inhalten und Marketing-Assets unterstützt
  • HubSpot erprobt Bildgenerierung für die Erstellung von Marketing- und Vertriebsunterlagen
    • Damit könnten auch ohne Designer hochwertige Bilder erstellt und für E-Mails, Social Media und Landingpages genutzt werden
  • Gamma: Erzeugt täglich mehr als 5 Millionen KI-Bilder zur Unterstützung von Präsentationen und Websites
  • HeyGen: Verbessert die Erstellung und Bearbeitung von Avataren, um Nutzern ein stärker personalisiertes Erlebnis zu bieten
  • OpusClip: Erstellt klickstarke Thumbnails für YouTube-Creator
  • Instacart testet die Bildgenerierungs-API, um Bilder zu Rezepten oder Einkaufslisten hinzuzufügen
  • invideo hat gpt-image-1 eingeführt und um Funktionen für verbesserte Texterzeugung, präzise Bearbeitungssteuerung und Style-Guides ergänzt

Sicherheit

  • gpt-image-1 verwendet dieselben Sicherheitsmechanismen wie die 4o-Bildgenerierung in ChatGPT
  • Es verhindert die Erzeugung schädlicher Bilder und fügt generierten Bildern C2PA-Metadaten hinzu
  • Über den Parameter moderation lässt sich die Empfindlichkeit der Filterung anpassen (Standardwert: auto, geringe Empfindlichkeit: low)
  • OpenAI trainiert das Modell nicht mit Daten von API-Kunden, und Ein- und Ausgaben unterliegen den API-Nutzungsrichtlinien

Preise

  • Text-Eingabetokens: 5 $ pro 1 Million Tokens
  • Bild-Eingabetokens: 10 $ pro 1 Million Tokens
  • Bild-Ausgabetokens: 40 $ pro 1 Million Tokens
  • Je nach Qualität fallen pro Bild ungefähr Kosten von 0,02 $ (niedrig), 0,07 $ (mittel) und 0,19 $ (hoch) an

Erste Schritte

  • gpt-image-1 ist über die globale Images API verfügbar, Unterstützung für die Responses API folgt in Kürze
  • Einige Entwickler müssen für die Nutzung möglicherweise ein Verifizierungsverfahren für Organisationen durchlaufen
  • Die Funktion kann im Playground getestet werden; der Einstieg ist über die Dokumentation möglich

1 Kommentare

 
GN⁺ 2025-04-25
Hacker-News-Kommentare
  • Gestern wurde bemängelt, dass die Ablehnungsrate bei Aufgaben mit Regierungs- und Militärbezug sehr hoch ist. Das könnte dazu führen, dass Auftragnehmer Open-Source-Modelle verwenden, die in CN entwickelt wurden, wodurch die Arbeit beeinträchtigt werden könnte

    • Heute wurde entdeckt, dass es für Unternehmen, die in diesem Bereich arbeiten, eine API-Zugangsschicht mit nahezu keiner Inhaltszensur gibt. Es ist nicht bekannt, wie man diese Zugangsschicht anfordert, aber es wurde bereits mit vier Verteidigungsauftragnehmern gesprochen, die sie nutzen
  • Aus Neugier wurde derselbe Prompt für jede Qualitätsstufe erstellt: 'Auto', 'low', 'medium', 'high'

    • Prompt: "Ein niedlicher Hund umarmt eine niedliche Katze"
    • Zum Vergleich wurden in den Kommentaren einige DALL:E-3-Bilder gezeigt
  • Im Playground wurden fünf Bilder erzeugt. Eines nur mit einem Text-Prompt, die übrigen vier mit einem Bild vom Handy. Für ein Studio-Ghibli-Porträt für den Familien-Gruppenchat wurden 0,85 $ ausgegeben, was für ein kundenorientiertes Produkt zu teuer ist

  • Es stellt sich die Frage, welche Anwendungen Hunderte oder Tausende von Bildern erzeugen müssen. Es gefällt, Familienfotos im Ghibli-Stil zu erstellen, aber es besteht kein Bedarf, das in großer Menge zu tun. Jedes Mal, wenn Bilderzeugung genutzt wurde, war es eine einmalige Aufgabe, und die Nutzung in der ChatGPT-UI war ausreichend zufriedenstellend

  • Preislich dürfte es für diese API schwer sein, ihren Wert zu rechtfertigen, sofern man nicht durch Referenzen einen Mehrwert erhält. Das erzeugte 'medium' in 1024x1024 kostet 0,04 $ pro Bild und liegt damit in derselben Kostenklasse wie Imagen 3 und Flux 1.1 Pro. Tests im neuen Playground zeigen, dass Bilder in medium eine geringere Qualität als die beiden Konkurrenzmodelle haben und die Erzeugung immer noch über 15 Sekunden dauert

    • Das Prompting für das Modell unterscheidet sich erheblich von traditionellen Modellen und ist schwierig. Herkömmliche Image-Tricks funktionieren praktisch nicht, und ohne erhebliche Prompt-Verstärkung ist es schwer, brauchbare Ergebnisse zu bekommen
  • "Videobearbeitung: invideo ermöglicht es Millionen von Nutzern, mithilfe von KI Ideen in Videos zu verwandeln. Mit der Integration von gpt-image-1 bietet die Plattform jetzt verbesserte Texterzeugung, fein abgestufte Bearbeitungskontrollen und fortgeschrittene Stilvorgaben"

    • Es stellt sich die Frage, ob das bedeutet, dass es auch Video in irgendeiner Form verarbeitet
  • Die Nutzung von gpt-image-1 wird pro Token berechnet, mit separaten Preisen für Text- und Bild-Token

    • Text-Eingabe-Token (Prompt-Text): 5 $ pro 1M Token
    • Bild-Eingabe-Token (Eingabebild): 10 $ pro 1M Token
    • Bild-Ausgabe-Token (erzeugtes Bild): 40 $ pro 1M Token
    • In der Praxis entspricht das ungefähr 0,02 $, 0,07 $ bzw. 0,19 $ pro quadratischem Bild in niedriger, mittlerer bzw. hoher Qualität
    • Für Startups ist das eher teuer
  • Für Neugierige: Das ist nicht diffusionsbasiert, sondern LLM-basiert. Dadurch folgt es Text-Prompts mit deutlich höherer Genauigkeit

    • Zum Beispiel wollten Nutzer von Bildgenerator-Apps, darunter auch ich, ein Bild einer Person in einem Kängurubeutel erzeugen
    • Egal welcher Prompt verwendet wurde, es funktionierte nicht
    • Dieses neue Modell hat es auf Anhieb geschafft
  • GoDaddy experimentiert aktiv damit, Bildgenerierung zu integrieren, damit Kunden leicht bearbeitbare Logos erzeugen können

    • Es wird daran erinnert, vor 1–2 Jahren auf Discord jemanden getroffen zu haben, der bei GoDaddy an kundenerzeugten Icons gearbeitet hat. Ein benutzerdefiniertes Modell in diesem Maßstab könnte durch gpt-image-1 ersetzt werden
  • Hat jemand eine Idee, wofür "Bild-Token" in der Preisgestaltung eigentlich stehen?

    • Es stellt sich die Frage, ob es sich um Bildblöcke fester Größe handelt