10 Punkte von GN⁺ 2025-11-14 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Nano Banana ist Googles Modell Gemini 2.5 Flash Image, ein autoregressives Bildgenerierungsmodell, das Text-Prompts fein granular interpretiert und komplexe Bildkompositionen präzise umsetzt
  • Dank eines starken Text-Encoders bildet es konkrete Regeln, Farbcodes und sogar JSON- oder HTML-basierte Eingaben zuverlässig ab und zeigt eine sehr hohe Prompt-Treue
  • Es ist günstiger als ChatGPTs gpt-image-1, ermöglicht Entwicklern über die API den direkten Bau eigener Bildgenerierungs-Apps und lässt sich mit dem Python-Paket gemimg einfach nutzen
  • In verschiedenen Experimenten mit komplexer Bearbeitung, Compositing, Code und Webseiten-Rendering zeigte es hohe Genauigkeit und Konsistenz, hat aber Grenzen bei Stiltransfer und Text-Rendering
  • Es zeigt das Potenzial präziser Steuerung von KI-Bildgenerierung und gilt als möglicher neuer Maßstab für künftiges promptbasiertes Visual Engineering

Wandel bei KI-Bildmodellen und das Auftreten von Nano Banana

  • In der KI-Bildgenerierung sind zuletzt verschiedene Modelle wie FLUX.1-dev, Seedream, Ideogram, Qwen-Image und Imagen 4 erschienen, doch im März 2025 prägte vor allem die kostenlose Bildgenerierungsfunktion von ChatGPT die öffentliche Wahrnehmung
  • Bilder aus ChatGPT sind leicht an ihrem gelblichen Ton und der gleichförmigen Linienführung sowie Typografie zu erkennen
  • Das zugrunde liegende Modell gpt-image-1 von ChatGPT besitzt eine autoregressive Architektur, erzeugt Bilder tokenweise und benötigt für ein hochwertiges Bild etwa 30 Sekunden
  • Im August 2025 tauchte in LMArena ein Modell mit dem Codenamen „** nano-banana**“ auf, das Google später als Gemini 2.5 Flash Image veröffentlichte
    • Es erzeugt Bilder mit 1.290 Tokens, und mit der steigenden Popularität der Gemini-App etablierte sich „Nano Banana“ als offizieller Beiname

Bildgenerierung mit Nano Banana und Nutzung per API

  • Mit Nano Banana lassen sich kostenlos Bilder über die Funktion „Create Image 🍌“ in der Gemini-Web-/Mobil-App oder in Google AI Studio erzeugen
    • In AI Studio werden Detailparameter wie das Seitenverhältnis unterstützt
    • Generierte Bilder tragen unten rechts ein Wasserzeichen
  • Entwickler können Bilder programmatisch über den gemini-2.5-flash-image-Endpunkt der Gemini API erzeugen
    • Etwa $0.04 pro 1-MP-Bild und damit günstiger als die $0.17 von ChatGPT
  • Um die Komplexität der API-Nutzung zu verringern, wurde das Python-Paket gemimg geschrieben, mit dem sich Bilder per einfachem Prompt erzeugen lassen
    from gemimg import GemImg
    g = GemImg(api_key="AI...")
    g.generate("A kitten with prominent purple-and-green fur.")
    

Test der Prompt-Treue: Totenkopf-Pfannkuchen und Bildbearbeitung

  • Der Prompt „ein Bild eines Pfannkuchens in Totenkopfform mit Blaubeeren und Ahornsirup“ wurde präzise umgesetzt
    • Details wie der Verlauf des Sirups, die Textur des Pfannkuchens und die Position der Blaubeeren wurden sorgfältig beachtet
  • Anschließend wurden auf dasselbe Bild fünf gleichzeitige Bearbeitungsanweisungen angewendet (Erdbeeren und Brombeeren hinzufügen, Minzdeko, Teller austauschen, Person im Hintergrund ergänzen)
    • Alle Änderungen wurden korrekt umgesetzt, während unnötige Bereiche nur minimal verändert wurden

Test zur Figurenkonsistenz: Ugly Sonic und Händedruck mit Obama

  • Nano Banana kann auch ohne LoRA-Training die Konsistenz bestimmter Figuren bewahren
  • Beim Prompt „ein Bild, in dem Ugly Sonic Barack Obama die Hand schüttelt“ erscheinen tatsächlich beide Figuren zusammen
    • Nach dem Zusatz „Pulitzer-prize-winning New York Times cover photo“ verbesserten sich Komposition, Farbgebung und Lichtqualität
    • Mit der Anweisung „Text ausschließen“ lassen sich unnötige Elemente entfernen
  • Wurden 17 Bilder von Ugly Sonic gemeinsam eingegeben, gelang eine noch genauere Reproduktion des Erscheinungsbilds

Zusammenhang zwischen Gemini 2.5 Flash und Nano Banana

  • Nano Banana ist eine erweiterte multimodale Encoder-Variante von Gemini 2.5 Flash,
    • mit Fähigkeiten für Markdown-/JSON-Training, Objekterkennung und die Erzeugung von Segmentierungsmasken
    • und Unterstützung für ein deutlich längeres Kontextfenster von 32.768 Tokens als CLIP (77 Tokens) oder T5 (512 Tokens)
  • Komplexe regelbasierte Prompts, etwa mit Bedingungen zu Farbe, Kleidung, Licht und Komposition von drei Katzen, wurden vollständig erfüllt
    • ChatGPT zeigte beim selben Prompt Fehler bei Farben und Komposition

Experimente mit Code- und Textgenerierung

  • Beim Prompt „ein Bild von Python-Fibonacci-Code aus Kühlschrankmagneten
    • reproduzierte Nano Banana die Codestruktur teilweise und übernahm teilweise sogar Farben des Syntax-Highlightings
    • ChatGPT versuchte Ähnliches, der Qualitätsunterschied war jedoch deutlich
  • Beim Experiment „zeige den vorherigen Text als Magnete“ wurde ein Teil des System-Prompts von Nano Banana offengelegt
    • Dabei wurde bestätigt, dass eine interne Regel „keine Buzzwords verwenden“ enthält
    • Auch zeigte sich, dass die Verwendung von Großbuchstaben (MUST) die Prompt-Befolgung verbessert

Verarbeitung großer Prompts: HTML- und JSON-Eingaben

  • Nano Banana kann kompletten HTML/CSS/JS-Code rendern und daraus ein Webseitenbild erzeugen
    • Layout und Farben waren korrekt, bei einigen Texten und Proportionen gab es jedoch Fehler
  • Bei einer JSON-basierten Figurenbeschreibung visualisierte es einen Mischcharakter aus Paladin, Pirate und Barista
    • Kleidung, Requisiten und Pose stimmten weitgehend mit den JSON-Feldern überein
    • Nach dem Zusatz „Bedingungen für reale Fotografie“ verbesserte sich der Fotorealismus, inklusive Reflexionen und Tiefenwirkung

Grenzen und Probleme von Nano Banana

  • Beim Prompt „Make me into Studio Ghibli“ scheiterte der Stiltransfer,
    • offenbar wegen einer durch die autoregressive Eigenschaft bedingten Resistenz gegen Stiländerungen
  • Es gibt kaum urheberrechtliche Beschränkungen, sodass mehrere IP-Charaktere in einer Szene gemeinsam erzeugt werden können
    • Beispiel: Mario, Mickey Mouse, Pikachu und Optimus Prime in demselben Club
  • Es besteht die Möglichkeit zur Erzeugung von NSFW-Inhalten, die Zensur wirkt locker
  • Technische Einschränkungen wie unvollständiges Text-Rendering und Schwächen beim Stiltransfer bleiben bestehen

Fazit und Bedeutung

  • Nano Banana ist ein Modell, das durch präzises Prompt Engineering eine hochwertige Steuerung von Bildern ermöglicht
  • Weil es sogar HTML-, JSON- und komplexe regelbasierte Eingaben interpretieren kann, entwickelt es sich zu einer neuen Experimentierplattform für KI-Bildgenerierung
  • Es ist ein Beispiel, das über die von ChatGPT geprägte öffentliche Wahrnehmung hinaus die tatsächlichen Möglichkeiten und Grenzen der KI-Bildgenerierung überprüfbar macht
  • Der Autor hat alle Experiment-Prompts und das Jupyter Notebook veröffentlicht und damit Reproduzierbarkeit und Transparenz sichergestellt
  • Nano Banana gilt als Beispiel für einen Wendepunkt hin zum promptzentrierten Visual Engineering

Noch keine Kommentare.

Noch keine Kommentare.