- Nano Banana ist Googles Modell Gemini 2.5 Flash Image, ein autoregressives Bildgenerierungsmodell, das Text-Prompts fein granular interpretiert und komplexe Bildkompositionen präzise umsetzt
- Dank eines starken Text-Encoders bildet es konkrete Regeln, Farbcodes und sogar JSON- oder HTML-basierte Eingaben zuverlässig ab und zeigt eine sehr hohe Prompt-Treue
- Es ist günstiger als ChatGPTs gpt-image-1, ermöglicht Entwicklern über die API den direkten Bau eigener Bildgenerierungs-Apps und lässt sich mit dem Python-Paket gemimg einfach nutzen
- In verschiedenen Experimenten mit komplexer Bearbeitung, Compositing, Code und Webseiten-Rendering zeigte es hohe Genauigkeit und Konsistenz, hat aber Grenzen bei Stiltransfer und Text-Rendering
- Es zeigt das Potenzial präziser Steuerung von KI-Bildgenerierung und gilt als möglicher neuer Maßstab für künftiges promptbasiertes Visual Engineering
Wandel bei KI-Bildmodellen und das Auftreten von Nano Banana
- In der KI-Bildgenerierung sind zuletzt verschiedene Modelle wie FLUX.1-dev, Seedream, Ideogram, Qwen-Image und Imagen 4 erschienen, doch im März 2025 prägte vor allem die kostenlose Bildgenerierungsfunktion von ChatGPT die öffentliche Wahrnehmung
- Bilder aus ChatGPT sind leicht an ihrem gelblichen Ton und der gleichförmigen Linienführung sowie Typografie zu erkennen
- Das zugrunde liegende Modell gpt-image-1 von ChatGPT besitzt eine autoregressive Architektur, erzeugt Bilder tokenweise und benötigt für ein hochwertiges Bild etwa 30 Sekunden
- Im August 2025 tauchte in LMArena ein Modell mit dem Codenamen „** nano-banana**“ auf, das Google später als Gemini 2.5 Flash Image veröffentlichte
- Es erzeugt Bilder mit 1.290 Tokens, und mit der steigenden Popularität der Gemini-App etablierte sich „Nano Banana“ als offizieller Beiname
Bildgenerierung mit Nano Banana und Nutzung per API
Test der Prompt-Treue: Totenkopf-Pfannkuchen und Bildbearbeitung
- Der Prompt „ein Bild eines Pfannkuchens in Totenkopfform mit Blaubeeren und Ahornsirup“ wurde präzise umgesetzt
- Details wie der Verlauf des Sirups, die Textur des Pfannkuchens und die Position der Blaubeeren wurden sorgfältig beachtet
- Anschließend wurden auf dasselbe Bild fünf gleichzeitige Bearbeitungsanweisungen angewendet (Erdbeeren und Brombeeren hinzufügen, Minzdeko, Teller austauschen, Person im Hintergrund ergänzen)
- Alle Änderungen wurden korrekt umgesetzt, während unnötige Bereiche nur minimal verändert wurden
Test zur Figurenkonsistenz: Ugly Sonic und Händedruck mit Obama
- Nano Banana kann auch ohne LoRA-Training die Konsistenz bestimmter Figuren bewahren
- Beim Prompt „ein Bild, in dem Ugly Sonic Barack Obama die Hand schüttelt“ erscheinen tatsächlich beide Figuren zusammen
- Nach dem Zusatz „Pulitzer-prize-winning New York Times cover photo“ verbesserten sich Komposition, Farbgebung und Lichtqualität
- Mit der Anweisung „Text ausschließen“ lassen sich unnötige Elemente entfernen
- Wurden 17 Bilder von Ugly Sonic gemeinsam eingegeben, gelang eine noch genauere Reproduktion des Erscheinungsbilds
Zusammenhang zwischen Gemini 2.5 Flash und Nano Banana
- Nano Banana ist eine erweiterte multimodale Encoder-Variante von Gemini 2.5 Flash,
- mit Fähigkeiten für Markdown-/JSON-Training, Objekterkennung und die Erzeugung von Segmentierungsmasken
- und Unterstützung für ein deutlich längeres Kontextfenster von 32.768 Tokens als CLIP (77 Tokens) oder T5 (512 Tokens)
- Komplexe regelbasierte Prompts, etwa mit Bedingungen zu Farbe, Kleidung, Licht und Komposition von drei Katzen, wurden vollständig erfüllt
- ChatGPT zeigte beim selben Prompt Fehler bei Farben und Komposition
Experimente mit Code- und Textgenerierung
- Beim Prompt „ein Bild von Python-Fibonacci-Code aus Kühlschrankmagneten“
- reproduzierte Nano Banana die Codestruktur teilweise und übernahm teilweise sogar Farben des Syntax-Highlightings
- ChatGPT versuchte Ähnliches, der Qualitätsunterschied war jedoch deutlich
- Beim Experiment „zeige den vorherigen Text als Magnete“ wurde ein Teil des System-Prompts von Nano Banana offengelegt
- Dabei wurde bestätigt, dass eine interne Regel „keine Buzzwords verwenden“ enthält
- Auch zeigte sich, dass die Verwendung von Großbuchstaben (MUST) die Prompt-Befolgung verbessert
Verarbeitung großer Prompts: HTML- und JSON-Eingaben
- Nano Banana kann kompletten HTML/CSS/JS-Code rendern und daraus ein Webseitenbild erzeugen
- Layout und Farben waren korrekt, bei einigen Texten und Proportionen gab es jedoch Fehler
- Bei einer JSON-basierten Figurenbeschreibung visualisierte es einen Mischcharakter aus Paladin, Pirate und Barista
- Kleidung, Requisiten und Pose stimmten weitgehend mit den JSON-Feldern überein
- Nach dem Zusatz „Bedingungen für reale Fotografie“ verbesserte sich der Fotorealismus, inklusive Reflexionen und Tiefenwirkung
Grenzen und Probleme von Nano Banana
- Beim Prompt „Make me into Studio Ghibli“ scheiterte der Stiltransfer,
- offenbar wegen einer durch die autoregressive Eigenschaft bedingten Resistenz gegen Stiländerungen
- Es gibt kaum urheberrechtliche Beschränkungen, sodass mehrere IP-Charaktere in einer Szene gemeinsam erzeugt werden können
- Beispiel: Mario, Mickey Mouse, Pikachu und Optimus Prime in demselben Club
- Es besteht die Möglichkeit zur Erzeugung von NSFW-Inhalten, die Zensur wirkt locker
- Technische Einschränkungen wie unvollständiges Text-Rendering und Schwächen beim Stiltransfer bleiben bestehen
Fazit und Bedeutung
- Nano Banana ist ein Modell, das durch präzises Prompt Engineering eine hochwertige Steuerung von Bildern ermöglicht
- Weil es sogar HTML-, JSON- und komplexe regelbasierte Eingaben interpretieren kann, entwickelt es sich zu einer neuen Experimentierplattform für KI-Bildgenerierung
- Es ist ein Beispiel, das über die von ChatGPT geprägte öffentliche Wahrnehmung hinaus die tatsächlichen Möglichkeiten und Grenzen der KI-Bildgenerierung überprüfbar macht
- Der Autor hat alle Experiment-Prompts und das Jupyter Notebook veröffentlicht und damit Reproduzierbarkeit und Transparenz sichergestellt
- Nano Banana gilt als Beispiel für einen Wendepunkt hin zum promptzentrierten Visual Engineering
Noch keine Kommentare.