- Google hat Gemini 2.5 Flash Image vorgestellt, das unter dem Namen Nano-Banana bekannt ist und deutlich verbesserte Fähigkeiten zur Bildgenerierung und -bearbeitung bietet
- Unterstützt werden konsistente Charakterdarstellung, teilweise Bearbeitung auf Basis natürlicher Sprache, Nutzung von Weltwissen und Kombination mehrerer Bilder
- Entwickler können das Modell sofort über die Gemini API, Google AI Studio, Vertex AI, OpenRouter, fal.ai und weitere Dienste nutzen
- Der Preis liegt bei 30 US-Dollar pro 1 Million Output-Tokens, etwa 0,039 US-Dollar pro Bild
- Alle Ergebnisse enthalten ein unsichtbares digitales SynthID-Wasserzeichen
Einführung in Gemini 2.5 Flash Image
- Google hat Gemini 2.5 Flash Image (Codename nano-banana), ein Bildgenerierungs- und -bearbeitungsmodell der nächsten Generation, angekündigt
- Mit diesem Update werden das Zusammensetzen mehrerer Bilder zu einem Bild, die konsistente Darstellung bestimmter Personen oder Objekte, feine Anpassungen mit natürlicher Sprache sowie Bildgenerierung und -bearbeitung auf Basis von Geminis Weltwissen möglich
- Schon die frühe Version Gemini 2.0 Flash zeichnete sich durch geringe Latenz, Kosteneffizienz und einfache Nutzung aus. Auf Basis von Nutzerfeedback kommen jetzt höherwertige Bilder und stärkere kreative Steuerungsmöglichkeiten hinzu
- Derzeit ist das Modell über die Gemini API, Google AI Studio, Vertex AI und weitere Angebote verfügbar. Die Abrechnung erfolgt mit 30 US-Dollar pro 1 Million Output-Tokens (etwa 0,039 US-Dollar pro Bild)
- Weitere Ein- und Ausgabemodi folgen derselben Preisstruktur wie Gemini 2.5 Flash
- Offizielle Website: https://deepmind.google/models/gemini/image/
Wichtige Funktionen und Szenarien
-
Upgrade des „Build Mode“ in Google AI Studio
- Mit Gemini 2.5 Flash Image wird die App-Entwicklung einfacher
- Entwickler können benutzerdefinierte AI-Apps schnell erstellen, testen und remixen, sie direkt in Google AI Studio bereitstellen oder den Code in GitHub speichern
- So lässt sich zum Beispiel mit einem Prompt wie „Erstelle eine Bildbearbeitungs-App, in der Nutzer Bilder hochladen und Filter anwenden können“ unkompliziert eine App erzeugen
- Auch die Auswahl und das Remixen vorgefertigter Templates werden kostenlos angeboten
-
Konsistente Charakterdarstellung
- Während der Bildgenerierung war es bislang eine große Herausforderung, das Erscheinungsbild desselben Charakters konsistent zu halten
- Gemini 2.5 Flash Image eignet sich effektiv dafür, dieselbe Person in verschiedenen Umgebungen zu platzieren, Produkte aus mehreren Blickwinkeln oder an unterschiedlichen Orten darzustellen und die Konsistenz von Marken-Assets sicherzustellen
- Über die Google-AI-Studio-Template-App lassen sich diese konsistente Charakterdarstellung demonstrieren und der Code leicht anpassen
- Die Funktion kann auch genutzt werden, um konsistente templatebasierte Designs für Immobilienkarten, Mitarbeiterausweise oder Produkt-Mockups in großer Zahl zu erstellen
-
Bildbearbeitung mit Prompts in natürlicher Sprache
- Nutzer können allein mit Anweisungen in natürlicher Sprache Teile eines Bildes verändern
- Beispiele sind unscharfe Hintergründe, das Entfernen von Flecken auf einem T-Shirt, das Löschen von Personen, das Ändern von Posen oder die Umwandlung von Schwarz-Weiß-Bildern in Farbbilder
- Dafür steht eine Template-App für UI- und promptbasierte Bearbeitung bereit, mit der sich der praktische Einsatz direkt ausprobieren lässt
-
Native Nutzung auf Basis von Weltwissen
- Frühere Modelle waren zwar stark bei ästhetischer Bildgenerierung, hatten aber Schwächen beim semantischen Verständnis der realen Welt
- Gemini 2.5 Flash Image kann auf Basis von Weltwissen handgezeichnete Diagramme erkennen, Fragen zur realen Welt beantworten und komplexe Bearbeitungsanweisungen ausführen
- Als direktes Beispiel wird eine App angeboten, die eine einfache Canvas in einen interaktiven Lern-Tutor verwandelt
-
Fusion mehrerer Bilder
- Das Modell kann mehrere Bilder verstehen und natürlich zusammenführen
- Unterstützt werden zum Beispiel das Einfügen eines Produkts in einen neuen Hintergrund, das Ändern von Farbton und Textur eines ganzen Raums sowie die Bildfusion mit nur einem Prompt
- Mit einer Template-App lassen sich Produkte per Drag-and-Drop platzieren und fotorealistische Fusionsbilder erzeugen
Einstieg und Partnerschaften
- Über die Entwicklerdokumentation kann direkt gestartet werden. Das Modell befindet sich derzeit noch in der Preview, soll aber bald stabilisiert werden
- Alle Demo-Apps lassen sich in Google AI Studio per Code remixen und anpassen
- In Partnerschaft mit OpenRouter.ai wird das Modell für 3 Millionen Entwickler bereitgestellt und ist das erste bildgenerierende Modell unter den mehr als 480 von OpenRouter unterstützten Modellen
- Durch die Zusammenarbeit mit fal.ai wird die Unterstützung auf eine breitere Entwickler-Community ausgeweitet
Digitales Wasserzeichen und Feedback
- Alle mit Gemini 2.5 Flash Image erzeugten oder bearbeiteten Bilder enthalten ein unsichtbares digitales SynthID-Wasserzeichen, sodass sie als AI-generierte Inhalte erkannt werden können
- An Textqualität, Charakterkonsistenz und detaillierter Bilddarstellung wird kontinuierlich weiter verbessert
- Entwicklerfeedback wird fortlaufend über das Google-Entwicklerforum oder über X (ehemals Twitter) gesammelt
Kurzes Anwendungsbeispiel (Python-Code)
- In Python lässt sich Gemini 2.5 Flash Image mit genai SDK sowie den Bibliotheken PIL und io über gewünschte Prompts und Bilder nutzen
- Beispiel: Ein freier Prompt wie „Meine Katze isst im Restaurant nano-banana“ kann verwendet werden
- Die Ausgabe kann im Code sowohl als einfacher Text als auch als Bilddatei gespeichert werden
Ausblick
- An kontinuierlichen Verbesserungen für das Rendern langer Texte, eine noch verlässlichere Charakterkonsistenz und realistische Detaildarstellung wird weiter gearbeitet
- Die Community wird zu aktiver Beteiligung und Feedback ermutigt
- Von Gemini 2.5 Flash Image werden vielfältigere kreative und entwicklungsbezogene Nutzungserfahrungen erwartet
2 Kommentare
Was ist Google Nano Banana? Googles geheime Bild-KI
Hacker-News-Kommentare