- Die von OpenAI im vergangenen Monat in ChatGPT eingeführte Bildgenerierungsfunktion erreichte in der ersten Woche nach dem Start mehr als 700 Millionen generierte Bilder
- Nun wurde dies auf die API ausgeweitet: Mit dem neuen Modell gpt-image-1 können Entwickler und Unternehmen die Funktion in ihre eigenen Plattformen integrieren
- Sie wird bereits in verschiedenen Branchen für Design, Logo-Erstellung, Marketing, Videobearbeitung und mehr eingesetzt
- Die Sicherheitsfunktionen wurden verstärkt, und bei der API-Nutzung werden Kundendaten standardmäßig nicht für das Training verwendet
- Je nach Qualität kostet ein Bild ungefähr 0,02 $ (niedrig), 0,07 $ (mittel), 0,19 $ (hoch)
Bildgenerierungsmodell über die API veröffentlicht
- OpenAI hat die in ChatGPT beliebte Bildgenerierungsfunktion auf die API ausgeweitet und das Modell gpt-image-1 veröffentlicht
- Das Modell kann verschiedene Stile erzeugen, Text präzise rendern, benutzerdefinierte Richtlinien zuverlässig befolgen und Weltwissen nutzen
- Unternehmen und Startups setzen es bereits in unterschiedlichsten Bereichen wie Design, E-Commerce, Bildung und Gaming ein
Wichtige Anwendungsfälle
- Adobe: Bietet über Firefly und die Express-App Bildgenerierung, mit der sich verschiedene ästhetische Stile ausprobieren lassen
- Airtable: Nutzt KI, um die kreative Produktivität in groß angelegten Workflows zu steigern
- Figma: Integriert über
gpt-image-1 Bildgenerierung und -bearbeitung in die Plattform, damit Nutzer Ideen visuell erkunden können
- Canva integriert gpt-image-1 in Canva AI und Magic Studio und versucht so, Funktionen zur Design-Erstellung und -Bearbeitung zu erweitern
- Zum Beispiel lassen sich Handskizzen in ausgefeilte grafische Elemente umwandeln oder präzise Bearbeitungen durchführen
- GoDaddy testet Bildgenerierung für die Logo-Erstellung und -Bearbeitung
- Möglich sind Hintergrundentfernung, Typografie-Erstellung und Inhalte, die die Markenidentität widerspiegeln
- In Verbindung mit GoDaddy Airo® wird außerdem die Erstellung von Social-Media-Inhalten und Marketing-Assets unterstützt
- HubSpot erprobt Bildgenerierung für die Erstellung von Marketing- und Vertriebsunterlagen
- Damit könnten auch ohne Designer hochwertige Bilder erstellt und für E-Mails, Social Media und Landingpages genutzt werden
- Gamma: Erzeugt täglich mehr als 5 Millionen KI-Bilder zur Unterstützung von Präsentationen und Websites
- HeyGen: Verbessert die Erstellung und Bearbeitung von Avataren, um Nutzern ein stärker personalisiertes Erlebnis zu bieten
- OpusClip: Erstellt klickstarke Thumbnails für YouTube-Creator
- Instacart testet die Bildgenerierungs-API, um Bilder zu Rezepten oder Einkaufslisten hinzuzufügen
- invideo hat gpt-image-1 eingeführt und um Funktionen für verbesserte Texterzeugung, präzise Bearbeitungssteuerung und Style-Guides ergänzt
Sicherheit
- gpt-image-1 verwendet dieselben Sicherheitsmechanismen wie die 4o-Bildgenerierung in ChatGPT
- Es verhindert die Erzeugung schädlicher Bilder und fügt generierten Bildern C2PA-Metadaten hinzu
- Über den Parameter
moderation lässt sich die Empfindlichkeit der Filterung anpassen (Standardwert: auto, geringe Empfindlichkeit: low)
- OpenAI trainiert das Modell nicht mit Daten von API-Kunden, und Ein- und Ausgaben unterliegen den API-Nutzungsrichtlinien
Preise
- Text-Eingabetokens: 5 $ pro 1 Million Tokens
- Bild-Eingabetokens: 10 $ pro 1 Million Tokens
- Bild-Ausgabetokens: 40 $ pro 1 Million Tokens
- Je nach Qualität fallen pro Bild ungefähr Kosten von 0,02 $ (niedrig), 0,07 $ (mittel) und 0,19 $ (hoch) an
Erste Schritte
- gpt-image-1 ist über die globale Images API verfügbar, Unterstützung für die Responses API folgt in Kürze
- Einige Entwickler müssen für die Nutzung möglicherweise ein Verifizierungsverfahren für Organisationen durchlaufen
- Die Funktion kann im Playground getestet werden; der Einstieg ist über die Dokumentation möglich
1 Kommentare
Hacker-News-Kommentare
Gestern wurde bemängelt, dass die Ablehnungsrate bei Aufgaben mit Regierungs- und Militärbezug sehr hoch ist. Das könnte dazu führen, dass Auftragnehmer Open-Source-Modelle verwenden, die in CN entwickelt wurden, wodurch die Arbeit beeinträchtigt werden könnte
Aus Neugier wurde derselbe Prompt für jede Qualitätsstufe erstellt: 'Auto', 'low', 'medium', 'high'
Im Playground wurden fünf Bilder erzeugt. Eines nur mit einem Text-Prompt, die übrigen vier mit einem Bild vom Handy. Für ein Studio-Ghibli-Porträt für den Familien-Gruppenchat wurden 0,85 $ ausgegeben, was für ein kundenorientiertes Produkt zu teuer ist
Es stellt sich die Frage, welche Anwendungen Hunderte oder Tausende von Bildern erzeugen müssen. Es gefällt, Familienfotos im Ghibli-Stil zu erstellen, aber es besteht kein Bedarf, das in großer Menge zu tun. Jedes Mal, wenn Bilderzeugung genutzt wurde, war es eine einmalige Aufgabe, und die Nutzung in der ChatGPT-UI war ausreichend zufriedenstellend
Preislich dürfte es für diese API schwer sein, ihren Wert zu rechtfertigen, sofern man nicht durch Referenzen einen Mehrwert erhält. Das erzeugte 'medium' in 1024x1024 kostet 0,04 $ pro Bild und liegt damit in derselben Kostenklasse wie Imagen 3 und Flux 1.1 Pro. Tests im neuen Playground zeigen, dass Bilder in medium eine geringere Qualität als die beiden Konkurrenzmodelle haben und die Erzeugung immer noch über 15 Sekunden dauert
"Videobearbeitung: invideo ermöglicht es Millionen von Nutzern, mithilfe von KI Ideen in Videos zu verwandeln. Mit der Integration von gpt-image-1 bietet die Plattform jetzt verbesserte Texterzeugung, fein abgestufte Bearbeitungskontrollen und fortgeschrittene Stilvorgaben"
Die Nutzung von gpt-image-1 wird pro Token berechnet, mit separaten Preisen für Text- und Bild-Token
Für Neugierige: Das ist nicht diffusionsbasiert, sondern LLM-basiert. Dadurch folgt es Text-Prompts mit deutlich höherer Genauigkeit
GoDaddy experimentiert aktiv damit, Bildgenerierung zu integrieren, damit Kunden leicht bearbeitbare Logos erzeugen können
Hat jemand eine Idee, wofür "Bild-Token" in der Preisgestaltung eigentlich stehen?