Gemini 2.0 Flash Preview: Funktionen zur Bilderzeugung und -bearbeitung vorgestellt

(developers.googleblog.com)

3 Punkte von GN⁺ 2025-05-08 | 1 Kommentare | Auf WhatsApp teilen

Google hat die Bildgenerierungsfunktion über das Modell Gemini 2.0 Flash als Developer Preview veröffentlicht
Per textbasierten Anweisungen sind Bilderzeugung, Bearbeitung und partielle Bildbearbeitung möglich; zudem wurden die visuelle Qualität und das Text-Rendering verbessert
Es werden verschiedene Anwendungsfälle vorgestellt, darunter Produkt-Reskinning, SKU-Erstellung und kollaborative Bearbeitung in Echtzeit
Direkt testbar über [Google AI Studio] und [Vertex AI]; zudem wurden die API-Nutzungslimits erhöht

Preview der Bildgenerierungsfunktion von Gemini 2.0 Flash veröffentlicht

Auf Basis des Feedbacks von Entwicklern stellt Google die Bildgenerierungsfunktion über das Modell Gemini 2.0 Flash als Preview-Version bereit
Nutzer können sie über Google AI Studio oder Vertex AI verwenden

Wichtige Verbesserungen

Verbesserte visuelle Qualität (im Vergleich zur vorherigen experimentellen Version)
Höhere Genauigkeit beim Text-Rendering
Geringere Filter-Blockierungsrate

Beispiele für verfügbare Bildgenerierungsfunktionen

Neues Hintergrund-Setting für Produktbilder: Bestehende Produktfotos können mit verschiedenen Hintergründen und Umgebungen neu zusammengestellt werden
Kollaborative Bearbeitung in Echtzeit: In der Gemini Co-Drawing App wird Bildbearbeitung in Echtzeit mit mehreren Nutzern unterstützt
Interaktive Bearbeitung nur eines Bildteils: Ohne das gesamte Bild zu verändern, kann nur ein bestimmter Bereich per dialogbasierter Anweisung bearbeitet werden
Dynamische Erstellung von Produkt-SKUs: Durch die Kombination von Bild und Text können neue Produktvarianten (Farben, Labels usw.) automatisch erzeugt werden
Zusammenarbeit mit Gemini beim Ideensammeln: Mit Text-Bild-Kombinationen lassen sich verschiedene Szenarien für Kochen, Produkte, Planung und mehr umsetzen

API-Nutzungsbeispiel (Python)

from google import genai  
from google.genai import types  
  
client = genai.Client(api_key=&quot;GEMINI_API_KEY&quot;)  
response = client.models.generate_content(  
    model=&quot;gemini-2.0-flash-preview-image-generation&quot;,  
    contents=(&quot;Show me how to bake a macaron with images.&quot;),  
    config=types.GenerateContentConfig(  
        response_modalities=[&quot;TEXT&quot;, &quot;IMAGE&quot;]  
    ),  
)

Weitere Pläne

Google will die Funktion künftig durch noch höhere Qualität, zusätzliche Features, mehr Geschwindigkeit und verbesserte Preismodelle kontinuierlich ausbauen
Ausführliche Dokumentation siehe Leitfaden zur Bilderzeugung mit der Gemini API

1 Kommentare

GN⁺ 2025-05-08

Hacker-News-Kommentare

Ich habe Gemini 2.0 im Vergleich mit mehreren Bildgenerierungsmodellen getestet. Ich weiß nicht, wie viel von Googles Imagen 3.0 darin steckt, aber insgesamt scheint die ästhetische Qualität deutlich schlechter zu sein.
- Die wichtigsten Vorteile sind der multimodale Aspekt, mit dem man mit OpenAIs Produkt gleichziehen will, und die deutlich höhere Geschwindigkeit im Vergleich zur Bildgenerierung von OpenAI 4o.
Jedes Mal, wenn man das Tool verwendet, muss man oft mehrere Versuche unternehmen, um das gewünschte Ergebnis zu erhalten. Ich habe Zweifel am Einsatz einer dialogbasierten Oberfläche.
Man sollte es vorsichtig verwenden. Als ich zum Beispiel nach einem Rezept für vegetarisches Butter Chicken fragte, wurden 41 MB JSON und 28 Base64-Bilder zurückgegeben. Bei 4 Cent pro Bild kostet eine einzige Anfrage mehr als 1 US-Dollar.
Ich habe mit Gemini 2.0 100 Rezepte und Bilder erstellt, und die Ergebnisse waren ziemlich gut. Ich habe rohe Daten und Tabellenmetadaten anstelle von Text-Prompts verwendet.
Der Preis pro Bild für die Bildgenerierung mit Gemini 2.0 liegt bei 0,039 $, also höher als bei Imagen 3. Gemini kann Bilder im Gespräch erzeugen, während Imagen 3 nach dem Prinzip Texteingabe/Bildausgabe arbeitet.
Bei der Co-Drawing-Demo hatte ich gemischte Ergebnisse. Ich wollte eine Szene skizzieren und erwartete, dass das Modell sie erweitert, aber stattdessen wurde eine 3D-gerenderte Strichfigur erzeugt.
Die Modellausgabe ist ganz ordentlich, und ich habe in einem aktuellen Projekt auf das neue Modell aktualisiert. Es gibt immer noch viele Fehlermodi, aber es braucht ein großes Kochbuch, das einen guten Workflow zeigt.
Worauf Google und andere KI-Unternehmen abzielen, ist eine Welt unendlich vieler KI-generierter Objekte, die sich für Shopping oder E-Commerce nutzen lassen. Das ist eine Herausforderung für echte menschliche Handwerkskunst und tatsächlich existierende Objekte.

Gemini 2.0 Flash Preview: Funktionen zur Bilderzeugung und -bearbeitung vorgestellt

Preview der Bildgenerierungsfunktion von Gemini 2.0 Flash veröffentlicht

Wichtige Verbesserungen

Beispiele für verfügbare Bildgenerierungsfunktionen

API-Nutzungsbeispiel (Python)

Weitere Pläne

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare