Gemini 2.5 Flash Image – Neues Modell für aktuelle Bilderzeugung und -bearbeitung vorgestellt

(developers.googleblog.com)

10 Punkte von GN⁺ 2025-08-27 | 2 Kommentare | Auf WhatsApp teilen

Google hat Gemini 2.5 Flash Image vorgestellt, das unter dem Namen Nano-Banana bekannt ist und deutlich verbesserte Fähigkeiten zur Bildgenerierung und -bearbeitung bietet
Unterstützt werden konsistente Charakterdarstellung, teilweise Bearbeitung auf Basis natürlicher Sprache, Nutzung von Weltwissen und Kombination mehrerer Bilder
Entwickler können das Modell sofort über die Gemini API, Google AI Studio, Vertex AI, OpenRouter, fal.ai und weitere Dienste nutzen
Der Preis liegt bei 30 US-Dollar pro 1 Million Output-Tokens, etwa 0,039 US-Dollar pro Bild
Alle Ergebnisse enthalten ein unsichtbares digitales SynthID-Wasserzeichen

Einführung in Gemini 2.5 Flash Image

Google hat Gemini 2.5 Flash Image (Codename nano-banana), ein Bildgenerierungs- und -bearbeitungsmodell der nächsten Generation, angekündigt
Mit diesem Update werden das Zusammensetzen mehrerer Bilder zu einem Bild, die konsistente Darstellung bestimmter Personen oder Objekte, feine Anpassungen mit natürlicher Sprache sowie Bildgenerierung und -bearbeitung auf Basis von Geminis Weltwissen möglich
Schon die frühe Version Gemini 2.0 Flash zeichnete sich durch geringe Latenz, Kosteneffizienz und einfache Nutzung aus. Auf Basis von Nutzerfeedback kommen jetzt höherwertige Bilder und stärkere kreative Steuerungsmöglichkeiten hinzu
Derzeit ist das Modell über die Gemini API, Google AI Studio, Vertex AI und weitere Angebote verfügbar. Die Abrechnung erfolgt mit 30 US-Dollar pro 1 Million Output-Tokens (etwa 0,039 US-Dollar pro Bild)
Weitere Ein- und Ausgabemodi folgen derselben Preisstruktur wie Gemini 2.5 Flash
Offizielle Website: https://deepmind.google/models/gemini/image/

Wichtige Funktionen und Szenarien

Upgrade des „Build Mode“ in Google AI Studio
- Mit Gemini 2.5 Flash Image wird die App-Entwicklung einfacher
- Entwickler können benutzerdefinierte AI-Apps schnell erstellen, testen und remixen, sie direkt in Google AI Studio bereitstellen oder den Code in GitHub speichern
- So lässt sich zum Beispiel mit einem Prompt wie „Erstelle eine Bildbearbeitungs-App, in der Nutzer Bilder hochladen und Filter anwenden können“ unkompliziert eine App erzeugen
- Auch die Auswahl und das Remixen vorgefertigter Templates werden kostenlos angeboten
Konsistente Charakterdarstellung
- Während der Bildgenerierung war es bislang eine große Herausforderung, das Erscheinungsbild desselben Charakters konsistent zu halten
- Gemini 2.5 Flash Image eignet sich effektiv dafür, dieselbe Person in verschiedenen Umgebungen zu platzieren, Produkte aus mehreren Blickwinkeln oder an unterschiedlichen Orten darzustellen und die Konsistenz von Marken-Assets sicherzustellen
- Über die Google-AI-Studio-Template-App lassen sich diese konsistente Charakterdarstellung demonstrieren und der Code leicht anpassen
- Die Funktion kann auch genutzt werden, um konsistente templatebasierte Designs für Immobilienkarten, Mitarbeiterausweise oder Produkt-Mockups in großer Zahl zu erstellen
Bildbearbeitung mit Prompts in natürlicher Sprache
- Nutzer können allein mit Anweisungen in natürlicher Sprache Teile eines Bildes verändern
- Beispiele sind unscharfe Hintergründe, das Entfernen von Flecken auf einem T-Shirt, das Löschen von Personen, das Ändern von Posen oder die Umwandlung von Schwarz-Weiß-Bildern in Farbbilder
- Dafür steht eine Template-App für UI- und promptbasierte Bearbeitung bereit, mit der sich der praktische Einsatz direkt ausprobieren lässt
Native Nutzung auf Basis von Weltwissen
- Frühere Modelle waren zwar stark bei ästhetischer Bildgenerierung, hatten aber Schwächen beim semantischen Verständnis der realen Welt
- Gemini 2.5 Flash Image kann auf Basis von Weltwissen handgezeichnete Diagramme erkennen, Fragen zur realen Welt beantworten und komplexe Bearbeitungsanweisungen ausführen
- Als direktes Beispiel wird eine App angeboten, die eine einfache Canvas in einen interaktiven Lern-Tutor verwandelt
Fusion mehrerer Bilder
- Das Modell kann mehrere Bilder verstehen und natürlich zusammenführen
- Unterstützt werden zum Beispiel das Einfügen eines Produkts in einen neuen Hintergrund, das Ändern von Farbton und Textur eines ganzen Raums sowie die Bildfusion mit nur einem Prompt
- Mit einer Template-App lassen sich Produkte per Drag-and-Drop platzieren und fotorealistische Fusionsbilder erzeugen

Einstieg und Partnerschaften

Über die Entwicklerdokumentation kann direkt gestartet werden. Das Modell befindet sich derzeit noch in der Preview, soll aber bald stabilisiert werden
Alle Demo-Apps lassen sich in Google AI Studio per Code remixen und anpassen
In Partnerschaft mit OpenRouter.ai wird das Modell für 3 Millionen Entwickler bereitgestellt und ist das erste bildgenerierende Modell unter den mehr als 480 von OpenRouter unterstützten Modellen
Durch die Zusammenarbeit mit fal.ai wird die Unterstützung auf eine breitere Entwickler-Community ausgeweitet

Digitales Wasserzeichen und Feedback

Alle mit Gemini 2.5 Flash Image erzeugten oder bearbeiteten Bilder enthalten ein unsichtbares digitales SynthID-Wasserzeichen, sodass sie als AI-generierte Inhalte erkannt werden können
An Textqualität, Charakterkonsistenz und detaillierter Bilddarstellung wird kontinuierlich weiter verbessert
Entwicklerfeedback wird fortlaufend über das Google-Entwicklerforum oder über X (ehemals Twitter) gesammelt

Kurzes Anwendungsbeispiel (Python-Code)

In Python lässt sich Gemini 2.5 Flash Image mit genai SDK sowie den Bibliotheken PIL und io über gewünschte Prompts und Bilder nutzen
Beispiel: Ein freier Prompt wie „Meine Katze isst im Restaurant nano-banana“ kann verwendet werden
Die Ausgabe kann im Code sowohl als einfacher Text als auch als Bilddatei gespeichert werden

Ausblick

An kontinuierlichen Verbesserungen für das Rendern langer Texte, eine noch verlässlichere Charakterkonsistenz und realistische Detaildarstellung wird weiter gearbeitet
Die Community wird zu aktiver Beteiligung und Feedback ermutigt
Von Gemini 2.5 Flash Image werden vielfältigere kreative und entwicklungsbezogene Nutzungserfahrungen erwartet

2 Kommentare

xguru 2025-08-27

Was ist Google Nano Banana? Googles geheime Bild-KI

GN⁺ 2025-08-27

Hacker-News-Kommentare

Das fühlt sich an wie der GPT-4-Moment für Bildbearbeitungsmodelle. Beeindruckende Ergebnisse auf Twitter ansehen
- nano banana, also gemini 2.5 flash, ist so leistungsstark, dass es in lmarena um 171 Elo-Punkte gestiegen ist
- Wenn man auf Twitter nach nano banana sucht, findet man erstaunliche Ergebnisse
- In letzter Zeit sind alle Domains mit „nano banana“ registriert, und überall werden eigene Image-Generation-UIs angeboten; das wirkt alles wie Zwischenhändler, die den Namen eines populären Modells ausnutzen
- Ich frage mich, warum der Name nano banana ist
Das ist genau das berühmte nano-banana-Modell, und in LMArena heißt es jetzt gemini-2.5-flash-image-preview
- Für alle, die nicht wissen, was nano-banana ist: Was ist Google Nano Banana? Googles geheime Bild-KI
- Ich bin auch deshalb hereingekommen und danke dir für die Antwort
Wenn man mit Gemini Bilder erzeugen will, bekommt man in der Hälfte der Fälle die Antwort, dass das nicht möglich sei
- Außerdem sind die von Google angekündigten Funktionen überall verstreut, sodass völlig unklar ist, in welchem Produkt man sie nutzen kann und wo man dafür bezahlen muss — das ist einfach verwirrend
Bildmodelle sind am Ende wie Zeitvampire
- Ein einzelnes Zimmer zu erzeugen ist leicht, aber dasselbe Zimmer aus mehreren Blickwinkeln konsistent darzustellen, ist praktisch unmöglich
- Für Arbeiten, bei denen Bildkonsistenz wichtig ist, sind sie schwer einsetzbar
Ich habe Familienfotos digitalisiert, aber viele waren beschädigt, sodass die Restaurierung schwierig war
- Dieses Modell scheint gut darin zu sein, Dinge zu restaurieren, ohne Details zu verändern; vielleicht ist endlich der Punkt erreicht, an dem es wirklich brauchbar ist
- Tatsächlich lassen sich solche Defekte mit Filmscannern + ICE und Software wie Vuescan automatisch reparieren
  - Hunderte Bilder einer experimentellen Cloud-KI zu überlassen, wirkt unnötig
- Kennt jemand vielleicht Software zur Verbesserung der Videoqualität?
  - Ich digitalisiere gerade Video-2000- und VHS-Bänder und würde die Erinnerungsaufnahmen gern ein wenig verbessern
- Ich hoffe, es funktioniert gut, aber bei einem der Beispiele wirkte das Gesicht übermäßig KI-isiert
- Eigentlich hatte ein Modell namens Flux Kontext dieses Niveau schon vor einigen Monaten erreicht
Die Modellleistung ist beeindruckend, aber zugleich mache ich mir Sorgen über die gesellschaftlichen Auswirkungen
- Schon ein Blick in die Facebook-Kommentare macht mich nervös
- Ich habe Googles SynthID getestet, und das war ziemlich gut
  - Das Wasserzeichen bleibt selbst nach Komprimierung, Zuschneiden, Größenänderung, Farbkorrektur und Overpainting erhalten
- Ich bin kürzlich bei einem Deepfake-Betrug rund um ein SpaceX-Launch-Event hereingelegt worden und habe 15k BTC verloren
  - Die Technik ist so ausgefeilt, dass Angriffe immer gefährlicher werden
- Die Facebook-Kommentare sehen definitiv so aus, als würden sie von Bots betrieben
Das Lampenbeispiel war ziemlich beeindruckend
- Stromanschluss, Beleuchtung und sogar die Schatten wurden natürlich dargestellt
Mir gefällt, dass es viel schneller ist als die Bilderzeugung von ChatGPT
- ChatGPT war so langsam, dass man sich das Ergebnis fast per Benachrichtigung schicken lassen musste
- Das Bild „OpenAI-Investoren, nachdem sie Gemini 2.5 Flash Image ausprobiert haben“ ist eine lustige Vorstellung
Es gab schon lange etwas, das ich machen wollte
- Ich wollte ein bestimmtes Objekt aus Bild 1 durch das Objekt aus Bild 2 ersetzen und sogar die Position exakt festlegen
- Ich habe mehrere Modelle ausprobiert, aber alle sind gescheitert; dieses Modell war nah dran, hat am Ende aber ein anderes Objekt ersetzt
- Ich frage mich, ob es ein Modell gibt, das speziell darauf ausgelegt ist, an einer bestimmten Position durch ein Referenzbild zu ersetzen
- Alibabas Modell ACE++ unterstützt so etwas
  - Es wird bei phind.design verwendet, aber das ist eine ziemlich spezielle Aufgabe und nicht besonders verbreitet

Gemini 2.5 Flash Image – Neues Modell für aktuelle Bilderzeugung und -bearbeitung vorgestellt

Einführung in Gemini 2.5 Flash Image

Wichtige Funktionen und Szenarien

Upgrade des „Build Mode“ in Google AI Studio

Konsistente Charakterdarstellung

Bildbearbeitung mit Prompts in natürlicher Sprache

Native Nutzung auf Basis von Weltwissen

Fusion mehrerer Bilder

Einstieg und Partnerschaften

Digitales Wasserzeichen und Feedback

Kurzes Anwendungsbeispiel (Python-Code)

Ausblick

Verwandte Beiträge

2 Kommentare

Hacker-News-Kommentare