OpenAI bringt Bildgenerierung jetzt auch per API

(openai.com)

1 Punkte von GN⁺ 2025-04-25 | 1 Kommentare | Auf WhatsApp teilen

Die von OpenAI im vergangenen Monat in ChatGPT eingeführte Bildgenerierungsfunktion erreichte in der ersten Woche nach dem Start mehr als 700 Millionen generierte Bilder
Nun wurde dies auf die API ausgeweitet: Mit dem neuen Modell gpt-image-1 können Entwickler und Unternehmen die Funktion in ihre eigenen Plattformen integrieren
Sie wird bereits in verschiedenen Branchen für Design, Logo-Erstellung, Marketing, Videobearbeitung und mehr eingesetzt
Die Sicherheitsfunktionen wurden verstärkt, und bei der API-Nutzung werden Kundendaten standardmäßig nicht für das Training verwendet
Je nach Qualität kostet ein Bild ungefähr 0,02 $ (niedrig), 0,07 $ (mittel), 0,19 $ (hoch)

Bildgenerierungsmodell über die API veröffentlicht

OpenAI hat die in ChatGPT beliebte Bildgenerierungsfunktion auf die API ausgeweitet und das Modell gpt-image-1 veröffentlicht
Das Modell kann verschiedene Stile erzeugen, Text präzise rendern, benutzerdefinierte Richtlinien zuverlässig befolgen und Weltwissen nutzen
Unternehmen und Startups setzen es bereits in unterschiedlichsten Bereichen wie Design, E-Commerce, Bildung und Gaming ein

Wichtige Anwendungsfälle

Adobe: Bietet über Firefly und die Express-App Bildgenerierung, mit der sich verschiedene ästhetische Stile ausprobieren lassen
Airtable: Nutzt KI, um die kreative Produktivität in groß angelegten Workflows zu steigern
Figma: Integriert über gpt-image-1 Bildgenerierung und -bearbeitung in die Plattform, damit Nutzer Ideen visuell erkunden können
Canva integriert gpt-image-1 in Canva AI und Magic Studio und versucht so, Funktionen zur Design-Erstellung und -Bearbeitung zu erweitern
- Zum Beispiel lassen sich Handskizzen in ausgefeilte grafische Elemente umwandeln oder präzise Bearbeitungen durchführen
GoDaddy testet Bildgenerierung für die Logo-Erstellung und -Bearbeitung
- Möglich sind Hintergrundentfernung, Typografie-Erstellung und Inhalte, die die Markenidentität widerspiegeln
- In Verbindung mit GoDaddy Airo® wird außerdem die Erstellung von Social-Media-Inhalten und Marketing-Assets unterstützt
HubSpot erprobt Bildgenerierung für die Erstellung von Marketing- und Vertriebsunterlagen
- Damit könnten auch ohne Designer hochwertige Bilder erstellt und für E-Mails, Social Media und Landingpages genutzt werden
Gamma: Erzeugt täglich mehr als 5 Millionen KI-Bilder zur Unterstützung von Präsentationen und Websites
HeyGen: Verbessert die Erstellung und Bearbeitung von Avataren, um Nutzern ein stärker personalisiertes Erlebnis zu bieten
OpusClip: Erstellt klickstarke Thumbnails für YouTube-Creator
Instacart testet die Bildgenerierungs-API, um Bilder zu Rezepten oder Einkaufslisten hinzuzufügen
invideo hat gpt-image-1 eingeführt und um Funktionen für verbesserte Texterzeugung, präzise Bearbeitungssteuerung und Style-Guides ergänzt

Sicherheit

gpt-image-1 verwendet dieselben Sicherheitsmechanismen wie die 4o-Bildgenerierung in ChatGPT
Es verhindert die Erzeugung schädlicher Bilder und fügt generierten Bildern C2PA-Metadaten hinzu
Über den Parameter moderation lässt sich die Empfindlichkeit der Filterung anpassen (Standardwert: auto, geringe Empfindlichkeit: low)
OpenAI trainiert das Modell nicht mit Daten von API-Kunden, und Ein- und Ausgaben unterliegen den API-Nutzungsrichtlinien

Preise

Text-Eingabetokens: 5 $ pro 1 Million Tokens
Bild-Eingabetokens: 10 $ pro 1 Million Tokens
Bild-Ausgabetokens: 40 $ pro 1 Million Tokens
Je nach Qualität fallen pro Bild ungefähr Kosten von 0,02 $ (niedrig), 0,07 $ (mittel) und 0,19 $ (hoch) an

Erste Schritte

gpt-image-1 ist über die globale Images API verfügbar, Unterstützung für die Responses API folgt in Kürze
Einige Entwickler müssen für die Nutzung möglicherweise ein Verifizierungsverfahren für Organisationen durchlaufen
Die Funktion kann im Playground getestet werden; der Einstieg ist über die Dokumentation möglich

1 Kommentare

GN⁺ 2025-04-25

Hacker-News-Kommentare

Gestern wurde bemängelt, dass die Ablehnungsrate bei Aufgaben mit Regierungs- und Militärbezug sehr hoch ist. Das könnte dazu führen, dass Auftragnehmer Open-Source-Modelle verwenden, die in CN entwickelt wurden, wodurch die Arbeit beeinträchtigt werden könnte
- Heute wurde entdeckt, dass es für Unternehmen, die in diesem Bereich arbeiten, eine API-Zugangsschicht mit nahezu keiner Inhaltszensur gibt. Es ist nicht bekannt, wie man diese Zugangsschicht anfordert, aber es wurde bereits mit vier Verteidigungsauftragnehmern gesprochen, die sie nutzen
Aus Neugier wurde derselbe Prompt für jede Qualitätsstufe erstellt: 'Auto', 'low', 'medium', 'high'
- Prompt: "Ein niedlicher Hund umarmt eine niedliche Katze"
- Zum Vergleich wurden in den Kommentaren einige DALL:E-3-Bilder gezeigt
Im Playground wurden fünf Bilder erzeugt. Eines nur mit einem Text-Prompt, die übrigen vier mit einem Bild vom Handy. Für ein Studio-Ghibli-Porträt für den Familien-Gruppenchat wurden 0,85 $ ausgegeben, was für ein kundenorientiertes Produkt zu teuer ist
Es stellt sich die Frage, welche Anwendungen Hunderte oder Tausende von Bildern erzeugen müssen. Es gefällt, Familienfotos im Ghibli-Stil zu erstellen, aber es besteht kein Bedarf, das in großer Menge zu tun. Jedes Mal, wenn Bilderzeugung genutzt wurde, war es eine einmalige Aufgabe, und die Nutzung in der ChatGPT-UI war ausreichend zufriedenstellend
Preislich dürfte es für diese API schwer sein, ihren Wert zu rechtfertigen, sofern man nicht durch Referenzen einen Mehrwert erhält. Das erzeugte 'medium' in 1024x1024 kostet 0,04 $ pro Bild und liegt damit in derselben Kostenklasse wie Imagen 3 und Flux 1.1 Pro. Tests im neuen Playground zeigen, dass Bilder in medium eine geringere Qualität als die beiden Konkurrenzmodelle haben und die Erzeugung immer noch über 15 Sekunden dauert
- Das Prompting für das Modell unterscheidet sich erheblich von traditionellen Modellen und ist schwierig. Herkömmliche Image-Tricks funktionieren praktisch nicht, und ohne erhebliche Prompt-Verstärkung ist es schwer, brauchbare Ergebnisse zu bekommen
"Videobearbeitung: invideo ermöglicht es Millionen von Nutzern, mithilfe von KI Ideen in Videos zu verwandeln. Mit der Integration von gpt-image-1 bietet die Plattform jetzt verbesserte Texterzeugung, fein abgestufte Bearbeitungskontrollen und fortgeschrittene Stilvorgaben"
- Es stellt sich die Frage, ob das bedeutet, dass es auch Video in irgendeiner Form verarbeitet
Die Nutzung von gpt-image-1 wird pro Token berechnet, mit separaten Preisen für Text- und Bild-Token
- Text-Eingabe-Token (Prompt-Text): 5 $ pro 1M Token
- Bild-Eingabe-Token (Eingabebild): 10 $ pro 1M Token
- Bild-Ausgabe-Token (erzeugtes Bild): 40 $ pro 1M Token
- In der Praxis entspricht das ungefähr 0,02 $, 0,07 $ bzw. 0,19 $ pro quadratischem Bild in niedriger, mittlerer bzw. hoher Qualität
- Für Startups ist das eher teuer
Für Neugierige: Das ist nicht diffusionsbasiert, sondern LLM-basiert. Dadurch folgt es Text-Prompts mit deutlich höherer Genauigkeit
- Zum Beispiel wollten Nutzer von Bildgenerator-Apps, darunter auch ich, ein Bild einer Person in einem Kängurubeutel erzeugen
- Egal welcher Prompt verwendet wurde, es funktionierte nicht
- Dieses neue Modell hat es auf Anhieb geschafft
GoDaddy experimentiert aktiv damit, Bildgenerierung zu integrieren, damit Kunden leicht bearbeitbare Logos erzeugen können
- Es wird daran erinnert, vor 1–2 Jahren auf Discord jemanden getroffen zu haben, der bei GoDaddy an kundenerzeugten Icons gearbeitet hat. Ein benutzerdefiniertes Modell in diesem Maßstab könnte durch gpt-image-1 ersetzt werden
Hat jemand eine Idee, wofür "Bild-Token" in der Preisgestaltung eigentlich stehen?
- Es stellt sich die Frage, ob es sich um Bildblöcke fester Größe handelt

OpenAI bringt Bildgenerierung jetzt auch per API

Bildgenerierungsmodell über die API veröffentlicht

Wichtige Anwendungsfälle

Sicherheit

Preise

Erste Schritte

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare