- Google hat die Bildgenerierungsfunktion über das Modell Gemini 2.0 Flash als Developer Preview veröffentlicht
- Per textbasierten Anweisungen sind Bilderzeugung, Bearbeitung und partielle Bildbearbeitung möglich; zudem wurden die visuelle Qualität und das Text-Rendering verbessert
- Es werden verschiedene Anwendungsfälle vorgestellt, darunter Produkt-Reskinning, SKU-Erstellung und kollaborative Bearbeitung in Echtzeit
- Direkt testbar über [Google AI Studio] und [Vertex AI]; zudem wurden die API-Nutzungslimits erhöht
Preview der Bildgenerierungsfunktion von Gemini 2.0 Flash veröffentlicht
- Auf Basis des Feedbacks von Entwicklern stellt Google die Bildgenerierungsfunktion über das Modell Gemini 2.0 Flash als Preview-Version bereit
- Nutzer können sie über Google AI Studio oder Vertex AI verwenden
Wichtige Verbesserungen
- Verbesserte visuelle Qualität (im Vergleich zur vorherigen experimentellen Version)
- Höhere Genauigkeit beim Text-Rendering
- Geringere Filter-Blockierungsrate
Beispiele für verfügbare Bildgenerierungsfunktionen
- Neues Hintergrund-Setting für Produktbilder: Bestehende Produktfotos können mit verschiedenen Hintergründen und Umgebungen neu zusammengestellt werden
- Kollaborative Bearbeitung in Echtzeit: In der Gemini Co-Drawing App wird Bildbearbeitung in Echtzeit mit mehreren Nutzern unterstützt
- Interaktive Bearbeitung nur eines Bildteils: Ohne das gesamte Bild zu verändern, kann nur ein bestimmter Bereich per dialogbasierter Anweisung bearbeitet werden
- Dynamische Erstellung von Produkt-SKUs: Durch die Kombination von Bild und Text können neue Produktvarianten (Farben, Labels usw.) automatisch erzeugt werden
- Zusammenarbeit mit Gemini beim Ideensammeln: Mit Text-Bild-Kombinationen lassen sich verschiedene Szenarien für Kochen, Produkte, Planung und mehr umsetzen
API-Nutzungsbeispiel (Python)
from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-preview-image-generation",
contents=("Show me how to bake a macaron with images."),
config=types.GenerateContentConfig(
response_modalities=["TEXT", "IMAGE"]
),
)
Weitere Pläne
- Google will die Funktion künftig durch noch höhere Qualität, zusätzliche Features, mehr Geschwindigkeit und verbesserte Preismodelle kontinuierlich ausbauen
- Ausführliche Dokumentation siehe Leitfaden zur Bilderzeugung mit der Gemini API
1 Kommentare
Hacker-News-Kommentare