10 Punkte von GN⁺ 2025-08-27 | 2 Kommentare | Auf WhatsApp teilen
  • Google hat Gemini 2.5 Flash Image vorgestellt, das unter dem Namen Nano-Banana bekannt ist und deutlich verbesserte Fähigkeiten zur Bildgenerierung und -bearbeitung bietet
  • Unterstützt werden konsistente Charakterdarstellung, teilweise Bearbeitung auf Basis natürlicher Sprache, Nutzung von Weltwissen und Kombination mehrerer Bilder
  • Entwickler können das Modell sofort über die Gemini API, Google AI Studio, Vertex AI, OpenRouter, fal.ai und weitere Dienste nutzen
  • Der Preis liegt bei 30 US-Dollar pro 1 Million Output-Tokens, etwa 0,039 US-Dollar pro Bild
  • Alle Ergebnisse enthalten ein unsichtbares digitales SynthID-Wasserzeichen

Einführung in Gemini 2.5 Flash Image

  • Google hat Gemini 2.5 Flash Image (Codename nano-banana), ein Bildgenerierungs- und -bearbeitungsmodell der nächsten Generation, angekündigt
  • Mit diesem Update werden das Zusammensetzen mehrerer Bilder zu einem Bild, die konsistente Darstellung bestimmter Personen oder Objekte, feine Anpassungen mit natürlicher Sprache sowie Bildgenerierung und -bearbeitung auf Basis von Geminis Weltwissen möglich
  • Schon die frühe Version Gemini 2.0 Flash zeichnete sich durch geringe Latenz, Kosteneffizienz und einfache Nutzung aus. Auf Basis von Nutzerfeedback kommen jetzt höherwertige Bilder und stärkere kreative Steuerungsmöglichkeiten hinzu
  • Derzeit ist das Modell über die Gemini API, Google AI Studio, Vertex AI und weitere Angebote verfügbar. Die Abrechnung erfolgt mit 30 US-Dollar pro 1 Million Output-Tokens (etwa 0,039 US-Dollar pro Bild)
  • Weitere Ein- und Ausgabemodi folgen derselben Preisstruktur wie Gemini 2.5 Flash
  • Offizielle Website: https://deepmind.google/models/gemini/image/

Wichtige Funktionen und Szenarien

  • Upgrade des „Build Mode“ in Google AI Studio

    • Mit Gemini 2.5 Flash Image wird die App-Entwicklung einfacher
    • Entwickler können benutzerdefinierte AI-Apps schnell erstellen, testen und remixen, sie direkt in Google AI Studio bereitstellen oder den Code in GitHub speichern
    • So lässt sich zum Beispiel mit einem Prompt wie „Erstelle eine Bildbearbeitungs-App, in der Nutzer Bilder hochladen und Filter anwenden können“ unkompliziert eine App erzeugen
    • Auch die Auswahl und das Remixen vorgefertigter Templates werden kostenlos angeboten
  • Konsistente Charakterdarstellung

    • Während der Bildgenerierung war es bislang eine große Herausforderung, das Erscheinungsbild desselben Charakters konsistent zu halten
    • Gemini 2.5 Flash Image eignet sich effektiv dafür, dieselbe Person in verschiedenen Umgebungen zu platzieren, Produkte aus mehreren Blickwinkeln oder an unterschiedlichen Orten darzustellen und die Konsistenz von Marken-Assets sicherzustellen
    • Über die Google-AI-Studio-Template-App lassen sich diese konsistente Charakterdarstellung demonstrieren und der Code leicht anpassen
    • Die Funktion kann auch genutzt werden, um konsistente templatebasierte Designs für Immobilienkarten, Mitarbeiterausweise oder Produkt-Mockups in großer Zahl zu erstellen
  • Bildbearbeitung mit Prompts in natürlicher Sprache

    • Nutzer können allein mit Anweisungen in natürlicher Sprache Teile eines Bildes verändern
    • Beispiele sind unscharfe Hintergründe, das Entfernen von Flecken auf einem T-Shirt, das Löschen von Personen, das Ändern von Posen oder die Umwandlung von Schwarz-Weiß-Bildern in Farbbilder
    • Dafür steht eine Template-App für UI- und promptbasierte Bearbeitung bereit, mit der sich der praktische Einsatz direkt ausprobieren lässt
  • Native Nutzung auf Basis von Weltwissen

    • Frühere Modelle waren zwar stark bei ästhetischer Bildgenerierung, hatten aber Schwächen beim semantischen Verständnis der realen Welt
    • Gemini 2.5 Flash Image kann auf Basis von Weltwissen handgezeichnete Diagramme erkennen, Fragen zur realen Welt beantworten und komplexe Bearbeitungsanweisungen ausführen
    • Als direktes Beispiel wird eine App angeboten, die eine einfache Canvas in einen interaktiven Lern-Tutor verwandelt
  • Fusion mehrerer Bilder

    • Das Modell kann mehrere Bilder verstehen und natürlich zusammenführen
    • Unterstützt werden zum Beispiel das Einfügen eines Produkts in einen neuen Hintergrund, das Ändern von Farbton und Textur eines ganzen Raums sowie die Bildfusion mit nur einem Prompt
    • Mit einer Template-App lassen sich Produkte per Drag-and-Drop platzieren und fotorealistische Fusionsbilder erzeugen

Einstieg und Partnerschaften

  • Über die Entwicklerdokumentation kann direkt gestartet werden. Das Modell befindet sich derzeit noch in der Preview, soll aber bald stabilisiert werden
  • Alle Demo-Apps lassen sich in Google AI Studio per Code remixen und anpassen
  • In Partnerschaft mit OpenRouter.ai wird das Modell für 3 Millionen Entwickler bereitgestellt und ist das erste bildgenerierende Modell unter den mehr als 480 von OpenRouter unterstützten Modellen
  • Durch die Zusammenarbeit mit fal.ai wird die Unterstützung auf eine breitere Entwickler-Community ausgeweitet

Digitales Wasserzeichen und Feedback

  • Alle mit Gemini 2.5 Flash Image erzeugten oder bearbeiteten Bilder enthalten ein unsichtbares digitales SynthID-Wasserzeichen, sodass sie als AI-generierte Inhalte erkannt werden können
  • An Textqualität, Charakterkonsistenz und detaillierter Bilddarstellung wird kontinuierlich weiter verbessert
  • Entwicklerfeedback wird fortlaufend über das Google-Entwicklerforum oder über X (ehemals Twitter) gesammelt

Kurzes Anwendungsbeispiel (Python-Code)

  • In Python lässt sich Gemini 2.5 Flash Image mit genai SDK sowie den Bibliotheken PIL und io über gewünschte Prompts und Bilder nutzen
  • Beispiel: Ein freier Prompt wie „Meine Katze isst im Restaurant nano-banana“ kann verwendet werden
  • Die Ausgabe kann im Code sowohl als einfacher Text als auch als Bilddatei gespeichert werden

Ausblick

  • An kontinuierlichen Verbesserungen für das Rendern langer Texte, eine noch verlässlichere Charakterkonsistenz und realistische Detaildarstellung wird weiter gearbeitet
  • Die Community wird zu aktiver Beteiligung und Feedback ermutigt
  • Von Gemini 2.5 Flash Image werden vielfältigere kreative und entwicklungsbezogene Nutzungserfahrungen erwartet

2 Kommentare

 
GN⁺ 2025-08-27
Hacker-News-Kommentare
  • Das fühlt sich an wie der GPT-4-Moment für Bildbearbeitungsmodelle. Beeindruckende Ergebnisse auf Twitter ansehen
    • nano banana, also gemini 2.5 flash, ist so leistungsstark, dass es in lmarena um 171 Elo-Punkte gestiegen ist
    • Wenn man auf Twitter nach nano banana sucht, findet man erstaunliche Ergebnisse
    • In letzter Zeit sind alle Domains mit „nano banana“ registriert, und überall werden eigene Image-Generation-UIs angeboten; das wirkt alles wie Zwischenhändler, die den Namen eines populären Modells ausnutzen
    • Ich frage mich, warum der Name nano banana ist
  • Das ist genau das berühmte nano-banana-Modell, und in LMArena heißt es jetzt gemini-2.5-flash-image-preview
  • Wenn man mit Gemini Bilder erzeugen will, bekommt man in der Hälfte der Fälle die Antwort, dass das nicht möglich sei
    • Außerdem sind die von Google angekündigten Funktionen überall verstreut, sodass völlig unklar ist, in welchem Produkt man sie nutzen kann und wo man dafür bezahlen muss — das ist einfach verwirrend
  • Bildmodelle sind am Ende wie Zeitvampire
    • Ein einzelnes Zimmer zu erzeugen ist leicht, aber dasselbe Zimmer aus mehreren Blickwinkeln konsistent darzustellen, ist praktisch unmöglich
    • Für Arbeiten, bei denen Bildkonsistenz wichtig ist, sind sie schwer einsetzbar
  • Ich habe Familienfotos digitalisiert, aber viele waren beschädigt, sodass die Restaurierung schwierig war
    • Dieses Modell scheint gut darin zu sein, Dinge zu restaurieren, ohne Details zu verändern; vielleicht ist endlich der Punkt erreicht, an dem es wirklich brauchbar ist
    • Tatsächlich lassen sich solche Defekte mit Filmscannern + ICE und Software wie Vuescan automatisch reparieren
      • Hunderte Bilder einer experimentellen Cloud-KI zu überlassen, wirkt unnötig
    • Kennt jemand vielleicht Software zur Verbesserung der Videoqualität?
      • Ich digitalisiere gerade Video-2000- und VHS-Bänder und würde die Erinnerungsaufnahmen gern ein wenig verbessern
    • Ich hoffe, es funktioniert gut, aber bei einem der Beispiele wirkte das Gesicht übermäßig KI-isiert
    • Eigentlich hatte ein Modell namens Flux Kontext dieses Niveau schon vor einigen Monaten erreicht
  • Die Modellleistung ist beeindruckend, aber zugleich mache ich mir Sorgen über die gesellschaftlichen Auswirkungen
    • Schon ein Blick in die Facebook-Kommentare macht mich nervös
    • Ich habe Googles SynthID getestet, und das war ziemlich gut
      • Das Wasserzeichen bleibt selbst nach Komprimierung, Zuschneiden, Größenänderung, Farbkorrektur und Overpainting erhalten
    • Ich bin kürzlich bei einem Deepfake-Betrug rund um ein SpaceX-Launch-Event hereingelegt worden und habe 15k BTC verloren
      • Die Technik ist so ausgefeilt, dass Angriffe immer gefährlicher werden
    • Die Facebook-Kommentare sehen definitiv so aus, als würden sie von Bots betrieben
  • Das Lampenbeispiel war ziemlich beeindruckend
    • Stromanschluss, Beleuchtung und sogar die Schatten wurden natürlich dargestellt
  • Mir gefällt, dass es viel schneller ist als die Bilderzeugung von ChatGPT
    • ChatGPT war so langsam, dass man sich das Ergebnis fast per Benachrichtigung schicken lassen musste
    • Das Bild „OpenAI-Investoren, nachdem sie Gemini 2.5 Flash Image ausprobiert haben“ ist eine lustige Vorstellung
  • Es gab schon lange etwas, das ich machen wollte
    • Ich wollte ein bestimmtes Objekt aus Bild 1 durch das Objekt aus Bild 2 ersetzen und sogar die Position exakt festlegen
    • Ich habe mehrere Modelle ausprobiert, aber alle sind gescheitert; dieses Modell war nah dran, hat am Ende aber ein anderes Objekt ersetzt
    • Ich frage mich, ob es ein Modell gibt, das speziell darauf ausgelegt ist, an einer bestimmten Position durch ein Referenzbild zu ersetzen
    • Alibabas Modell ACE++ unterstützt so etwas
      • Es wird bei phind.design verwendet, aber das ist eine ziemlich spezielle Aufgabe und nicht besonders verbreitet