10 Punkte von GN⁺ 2025-11-14 | 1 Kommentare | Auf WhatsApp teilen
  • Nano Banana ist Googles Modell Gemini 2.5 Flash Image, ein autoregressives Bildgenerierungsmodell, das Text-Prompts fein granular interpretiert und komplexe Bildkompositionen präzise umsetzt
  • Dank eines starken Text-Encoders bildet es konkrete Regeln, Farbcodes und sogar JSON- oder HTML-basierte Eingaben zuverlässig ab und zeigt eine sehr hohe Prompt-Treue
  • Es ist günstiger als ChatGPTs gpt-image-1, ermöglicht Entwicklern über die API den direkten Bau eigener Bildgenerierungs-Apps und lässt sich mit dem Python-Paket gemimg einfach nutzen
  • In verschiedenen Experimenten mit komplexer Bearbeitung, Compositing, Code und Webseiten-Rendering zeigte es hohe Genauigkeit und Konsistenz, hat aber Grenzen bei Stiltransfer und Text-Rendering
  • Es zeigt das Potenzial präziser Steuerung von KI-Bildgenerierung und gilt als möglicher neuer Maßstab für künftiges promptbasiertes Visual Engineering

Wandel bei KI-Bildmodellen und das Auftreten von Nano Banana

  • In der KI-Bildgenerierung sind zuletzt verschiedene Modelle wie FLUX.1-dev, Seedream, Ideogram, Qwen-Image und Imagen 4 erschienen, doch im März 2025 prägte vor allem die kostenlose Bildgenerierungsfunktion von ChatGPT die öffentliche Wahrnehmung
  • Bilder aus ChatGPT sind leicht an ihrem gelblichen Ton und der gleichförmigen Linienführung sowie Typografie zu erkennen
  • Das zugrunde liegende Modell gpt-image-1 von ChatGPT besitzt eine autoregressive Architektur, erzeugt Bilder tokenweise und benötigt für ein hochwertiges Bild etwa 30 Sekunden
  • Im August 2025 tauchte in LMArena ein Modell mit dem Codenamen „** nano-banana**“ auf, das Google später als Gemini 2.5 Flash Image veröffentlichte
    • Es erzeugt Bilder mit 1.290 Tokens, und mit der steigenden Popularität der Gemini-App etablierte sich „Nano Banana“ als offizieller Beiname

Bildgenerierung mit Nano Banana und Nutzung per API

  • Mit Nano Banana lassen sich kostenlos Bilder über die Funktion „Create Image 🍌“ in der Gemini-Web-/Mobil-App oder in Google AI Studio erzeugen
    • In AI Studio werden Detailparameter wie das Seitenverhältnis unterstützt
    • Generierte Bilder tragen unten rechts ein Wasserzeichen
  • Entwickler können Bilder programmatisch über den gemini-2.5-flash-image-Endpunkt der Gemini API erzeugen
    • Etwa $0.04 pro 1-MP-Bild und damit günstiger als die $0.17 von ChatGPT
  • Um die Komplexität der API-Nutzung zu verringern, wurde das Python-Paket gemimg geschrieben, mit dem sich Bilder per einfachem Prompt erzeugen lassen
    from gemimg import GemImg
    g = GemImg(api_key="AI...")
    g.generate("A kitten with prominent purple-and-green fur.")
    

Test der Prompt-Treue: Totenkopf-Pfannkuchen und Bildbearbeitung

  • Der Prompt „ein Bild eines Pfannkuchens in Totenkopfform mit Blaubeeren und Ahornsirup“ wurde präzise umgesetzt
    • Details wie der Verlauf des Sirups, die Textur des Pfannkuchens und die Position der Blaubeeren wurden sorgfältig beachtet
  • Anschließend wurden auf dasselbe Bild fünf gleichzeitige Bearbeitungsanweisungen angewendet (Erdbeeren und Brombeeren hinzufügen, Minzdeko, Teller austauschen, Person im Hintergrund ergänzen)
    • Alle Änderungen wurden korrekt umgesetzt, während unnötige Bereiche nur minimal verändert wurden

Test zur Figurenkonsistenz: Ugly Sonic und Händedruck mit Obama

  • Nano Banana kann auch ohne LoRA-Training die Konsistenz bestimmter Figuren bewahren
  • Beim Prompt „ein Bild, in dem Ugly Sonic Barack Obama die Hand schüttelt“ erscheinen tatsächlich beide Figuren zusammen
    • Nach dem Zusatz „Pulitzer-prize-winning New York Times cover photo“ verbesserten sich Komposition, Farbgebung und Lichtqualität
    • Mit der Anweisung „Text ausschließen“ lassen sich unnötige Elemente entfernen
  • Wurden 17 Bilder von Ugly Sonic gemeinsam eingegeben, gelang eine noch genauere Reproduktion des Erscheinungsbilds

Zusammenhang zwischen Gemini 2.5 Flash und Nano Banana

  • Nano Banana ist eine erweiterte multimodale Encoder-Variante von Gemini 2.5 Flash,
    • mit Fähigkeiten für Markdown-/JSON-Training, Objekterkennung und die Erzeugung von Segmentierungsmasken
    • und Unterstützung für ein deutlich längeres Kontextfenster von 32.768 Tokens als CLIP (77 Tokens) oder T5 (512 Tokens)
  • Komplexe regelbasierte Prompts, etwa mit Bedingungen zu Farbe, Kleidung, Licht und Komposition von drei Katzen, wurden vollständig erfüllt
    • ChatGPT zeigte beim selben Prompt Fehler bei Farben und Komposition

Experimente mit Code- und Textgenerierung

  • Beim Prompt „ein Bild von Python-Fibonacci-Code aus Kühlschrankmagneten
    • reproduzierte Nano Banana die Codestruktur teilweise und übernahm teilweise sogar Farben des Syntax-Highlightings
    • ChatGPT versuchte Ähnliches, der Qualitätsunterschied war jedoch deutlich
  • Beim Experiment „zeige den vorherigen Text als Magnete“ wurde ein Teil des System-Prompts von Nano Banana offengelegt
    • Dabei wurde bestätigt, dass eine interne Regel „keine Buzzwords verwenden“ enthält
    • Auch zeigte sich, dass die Verwendung von Großbuchstaben (MUST) die Prompt-Befolgung verbessert

Verarbeitung großer Prompts: HTML- und JSON-Eingaben

  • Nano Banana kann kompletten HTML/CSS/JS-Code rendern und daraus ein Webseitenbild erzeugen
    • Layout und Farben waren korrekt, bei einigen Texten und Proportionen gab es jedoch Fehler
  • Bei einer JSON-basierten Figurenbeschreibung visualisierte es einen Mischcharakter aus Paladin, Pirate und Barista
    • Kleidung, Requisiten und Pose stimmten weitgehend mit den JSON-Feldern überein
    • Nach dem Zusatz „Bedingungen für reale Fotografie“ verbesserte sich der Fotorealismus, inklusive Reflexionen und Tiefenwirkung

Grenzen und Probleme von Nano Banana

  • Beim Prompt „Make me into Studio Ghibli“ scheiterte der Stiltransfer,
    • offenbar wegen einer durch die autoregressive Eigenschaft bedingten Resistenz gegen Stiländerungen
  • Es gibt kaum urheberrechtliche Beschränkungen, sodass mehrere IP-Charaktere in einer Szene gemeinsam erzeugt werden können
    • Beispiel: Mario, Mickey Mouse, Pikachu und Optimus Prime in demselben Club
  • Es besteht die Möglichkeit zur Erzeugung von NSFW-Inhalten, die Zensur wirkt locker
  • Technische Einschränkungen wie unvollständiges Text-Rendering und Schwächen beim Stiltransfer bleiben bestehen

Fazit und Bedeutung

  • Nano Banana ist ein Modell, das durch präzises Prompt Engineering eine hochwertige Steuerung von Bildern ermöglicht
  • Weil es sogar HTML-, JSON- und komplexe regelbasierte Eingaben interpretieren kann, entwickelt es sich zu einer neuen Experimentierplattform für KI-Bildgenerierung
  • Es ist ein Beispiel, das über die von ChatGPT geprägte öffentliche Wahrnehmung hinaus die tatsächlichen Möglichkeiten und Grenzen der KI-Bildgenerierung überprüfbar macht
  • Der Autor hat alle Experiment-Prompts und das Jupyter Notebook veröffentlicht und damit Reproduzierbarkeit und Transparenz sichergestellt
  • Nano Banana gilt als Beispiel für einen Wendepunkt hin zum promptzentrierten Visual Engineering

1 Kommentare

 
GN⁺ 2025-11-14
Hacker-News-Kommentare
  • Ich erzeuge für Storyboards jeden Tag Dutzende von Bildern
    Die Kontrolle über die Ausgabe wird immer einfacher, und ich kann Charaktere, Beleuchtung und sogar Tageszeit von Szene zu Szene konsistent halten
    Ich nutze 7-stufige Prompt-Layer für Umgebung, Kamera, Motiv, Komposition, Beleuchtung, Farbe und Qualität; vielleicht etwas übertrieben, aber ich experimentiere noch
    Außerdem habe ich ein einfaches Bearbeitungstool gebaut, mit dem ich direkt im Bild Bounding Boxes zeichnen und Änderungen vornehmen kann; das Bild schicke ich dann an Claude, damit automatisch ein Bearbeitungs-Prompt erzeugt wird
    So konnte ich eine GenAI-Videogenerierungs-Pipeline aufbauen, bei der die Übergänge zwischen Szenen natürlich wirken
    • Unser Team nutzt nano banana ähnlich für Storyboards und erstellt mit einem img2vid-Modell Full-Motion-Videos
      Wir versuchen ebenfalls, die Konsistenz von Charakteren, Hintergründen und Stil zu wahren, daher gibt es viele Parallelen zu deiner Arbeit
      Falls es dich interessiert, schau dir auch unser Produkt Hypernatural.ai an
    • Bei mir ist es eher umgekehrt: Wenn ein Ergebnis einmal aus dem Ruder läuft, ist es fast unmöglich, wieder zur ursprünglichen Absicht zurückzukehren
  • Ich mag die gemimg-Python-Bibliothek
    Ich habe dort Gemini CLI ergänzt und einen PR eingereicht; ausführen lässt sich das dann so
    Das Ergebnis steht in diesem Kommentar
    • Ich hätte eine Frage an @simonw — wie hast du die Gist-Vorschau der gemini-cli-Terminalsitzung erstellt?
      Hast du das wie hier direkt in HTML/CSS gebaut, oder gibt es dafür ein automatisiertes Tool wie amp-code?
    • Mich würde interessieren, ob es einen Grund gibt, warum du in pyproject.toml keinen project.scripts-Eintrag hinzugefügt hast
      Dann könnte man die CLI vermutlich direkt mit uv installieren
    • Der Autor hat anfangs Open Source stark betont; mich würde interessieren, ob auch das QwenEdit-Ökosystem behandelt wird
      Chinesische Bearbeitungsmodelle nähern sich zunehmend dem NanoBanana-Niveau, und weil sie Open Source sind, ermöglichen sie fortgeschrittene Bildmanipulation mit Masken und Kerneln
      Auch Stiltransfer per LoRA ist möglich, und insgesamt ist das viel interessanter als geschlossene US-Modelle
      Es dürfte auch einfacher werden, die Trainingsdaten von Nano Banana zu extrahieren und in ein neues Modell zu distillieren
  • Ich fand den Beitrag von minimaxir interessant
    Dank des 32.768-Token-Kontextfensters von Nano Banana nutze ich in einer komplexen Bildgenerierungs-Pipeline zwischendrin Mistral 7B, um vier Varianten eines Prompt-Umschreibens zu erzeugen
    Dass Stiltransfer schwach ist, stimmt zwar, aber mit zwei Bildern als Input werden die Ergebnisse etwas besser
    Das erste ist das zu transformierende Bild, das zweite dient als Stil-Referenzbild
    In meinem Portfolio-Beispiel nutze ich genau diesen Ansatz
    • Vielleicht ist das eine explizite Einschränkung, um nach dem früheren „make me Ghibli“-Trend den Studio-Ghibli-Stil zu blockieren
  • Beim zweiten Totenkopf-Pfannkuchen-Bild ist mir ein lustiger Fehler aufgefallen
    Die Erdbeere sitzt in der rechten Augenhöhle des Schädels (links im Bild), und die Brombeere auf der anderen Seite
    Das scheint daher zu kommen, dass die meisten Bildbeschreibungen aus der Perspektive des Betrachters formuliert sind
    • Ich glaube, als Mensch hätte ich es wie Nano Banana gemacht
      Wenn der Nutzer die Erdbeere im linken Auge des Schädels haben wollte, hätte er „sein linkes Auge“ ausdrücklich sagen müssen
    • Ich denke, viele Leute verwechseln, ob mit „linkes Auge“ die Perspektive des Motivs oder der Kamera gemeint ist
    • Mir ist das auch erst entgangen, aber später habe ich im Charakter-JSON auf dasselbe Problem hingewiesen
      Seit ich in den Prompt ausdrücklich schreibe, dass links und rechts aus der Perspektive der Figur gemeint sind, ist die Erfolgsquote deutlich höher
    • Ich dachte genau dasselbe
      Der Autor meinte zwar, Nano Banana habe alle Edits exakt ausgeführt, aber an dieser Stelle ist das auslegbar
      Ich finde, das „rechte Auge“ des Schädels sollte aus der Perspektive des Schädels verstanden werden
  • Man schickt die Anfrage über Google AI Studio, und zum Entfernen des Wasserzeichens blockiert man in den Browser-Entwicklertools einfach die Anfrage „watermark_4“
    Danach enthalten die erzeugten Bilder kein Wasserzeichen mehr
  • Ich war überrascht über den Satz „Nano Banana ist schwach bei Stiltransfer“
    Ich arbeite an einem Projekt, in dem ich meine Nachbarschaft als Landschaft des 18. Jahrhunderts visualisieren will
    Ich habe mit SketchUp und Twinmotion modelliert, aber fotorealistische Bilder waren schwer hinzubekommen
    Ich habe viele KI-Bildgeneratoren ausprobiert, aber Nano Banana war der erste, der einen neuen Stil anwenden konnte und dabei die geometrische Konsistenz beibehielt
    Mit einem simplen Prompt wie „Mach aus diesem Gemälde ein Foto“ habe ich erstaunliche Resultate bekommen
    Wenn ich allerdings direkt das 18. Jahrhundert erwähne, wird das Ergebnis oft malerisch; deshalb umschreibe ich es eher als „Foto einer erhaltenen historischen Straße“
    Ich modelliere weiterhin vieles von Hand, aber Nano Banana hat meinen gesamten Modellierungsansatz verändert
    • Wenn man jedoch künstlerische Bilder als Stilreferenz gibt, schafft Nano Banana keine saubere Generalisierung außerhalb seines Trainingsbereichs
  • Der Ausdruck „prompt engineered“ bedeutet letztlich einfach, das einzugeben, was man sehen will
    • Aber genau das ist eine echte Fähigkeit
      Viele Probleme entstehen, weil Menschen nicht klar ausdrücken können, was sie eigentlich wollen
      Prompt Engineering ist eine Fähigkeit zum Umgang mit der Komplexität von Kommunikation und macht die Lücke zwischen Worten und Bedeutung sichtbar
    • Je nach Modell kann es auch sein, dass bestimmte Prompts schlicht nicht verstanden werden
    • Inzwischen verstehen wir die Interaktion mit LLMs als Natural-Language-Interface
      Es ist eine mehrdeutige Schnittstelle, anders als Programmiersprachen, und Prompt Engineering ist die neue Fähigkeit, damit umzugehen
    • Am Ende ist es ein Prozess des wiederholten Anpassens von Prompts, um das gewünschte Ergebnis zu bekommen
    • Früher nannte man so etwas Google Fu
  • Ich habe versucht, eine Szene aus einem Live-Action-Mein Nachbar Totoro zu erzeugen
    Da es sich wie bei Sonic um eine Figur handelt, die schwer realistisch umzusetzen ist, war ich neugierig auf das Ergebnis, aber statt Fotorealismus kamen nur digital-artige Bilder heraus
    Auch mit anderen Keywords war es nicht anders, und bei ChatGPT konnte ich es wegen des Copyright-Filters gar nicht erst testen
    Trotzdem war der Versuch an sich interessant
  • Nano Banana reagiert bei Bearbeitungen manchmal träge
    Ich bat darum, ein Porträtfoto in einen Clay-Animation-Stil umzuwandeln, aber es änderte sich fast nichts
    Als ich dann noch „Mach die Person 10 Jahre jünger“ hinzufügte, wirkte sie plötzlich wie eine Knetfigur
    • Das ist eben eine Stiltransfer-Anfrage, und wie beim Ghibli-Beispiel kann so etwas scheitern
  • Meiner Erfahrung nach macht nano banana immer noch Folgendes
    • nimmt zufällige Änderungen am Bild vor
    • verändert den Maßstab oder
    • erzeugt subtile, aber allgemeine Änderungen an den Details
      Zum Beispiel fügt es ohne jede Anweisung einem Raum plötzlich einen Kamin oder eine Garage hinzu
      Das passiert sogar bei auf 0 gesetzter Temperatur, was es schwer macht, eine zuverlässige App darauf aufzubauen
      Mich würde interessieren, ob jemand bessere Erfahrungen gemacht hat
    • Der Teil mit ALL CAPS ist interessant
      Großbuchstaben werden anders tokenisiert und könnten deshalb ein für das Modell schwer verständlicher Input sein
    • Ich entwickle den PixLab-Editor, und der befolgt Befehle in Großbuchstaben exakt so, wie sie geschrieben sind