Nano Banana ermöglicht mit präzisem Prompt Engineering feinste KI-Bildgenerierung

(minimaxir.com)

10 Punkte von GN⁺ 2025-11-14 | 1 Kommentare | Auf WhatsApp teilen

Nano Banana ist Googles Modell Gemini 2.5 Flash Image, ein autoregressives Bildgenerierungsmodell, das Text-Prompts fein granular interpretiert und komplexe Bildkompositionen präzise umsetzt
Dank eines starken Text-Encoders bildet es konkrete Regeln, Farbcodes und sogar JSON- oder HTML-basierte Eingaben zuverlässig ab und zeigt eine sehr hohe Prompt-Treue
Es ist günstiger als ChatGPTs gpt-image-1, ermöglicht Entwicklern über die API den direkten Bau eigener Bildgenerierungs-Apps und lässt sich mit dem Python-Paket gemimg einfach nutzen
In verschiedenen Experimenten mit komplexer Bearbeitung, Compositing, Code und Webseiten-Rendering zeigte es hohe Genauigkeit und Konsistenz, hat aber Grenzen bei Stiltransfer und Text-Rendering
Es zeigt das Potenzial präziser Steuerung von KI-Bildgenerierung und gilt als möglicher neuer Maßstab für künftiges promptbasiertes Visual Engineering

Wandel bei KI-Bildmodellen und das Auftreten von Nano Banana

In der KI-Bildgenerierung sind zuletzt verschiedene Modelle wie FLUX.1-dev, Seedream, Ideogram, Qwen-Image und Imagen 4 erschienen, doch im März 2025 prägte vor allem die kostenlose Bildgenerierungsfunktion von ChatGPT die öffentliche Wahrnehmung
Bilder aus ChatGPT sind leicht an ihrem gelblichen Ton und der gleichförmigen Linienführung sowie Typografie zu erkennen
Das zugrunde liegende Modell gpt-image-1 von ChatGPT besitzt eine autoregressive Architektur, erzeugt Bilder tokenweise und benötigt für ein hochwertiges Bild etwa 30 Sekunden
Im August 2025 tauchte in LMArena ein Modell mit dem Codenamen „** nano-banana**“ auf, das Google später als Gemini 2.5 Flash Image veröffentlichte
- Es erzeugt Bilder mit 1.290 Tokens, und mit der steigenden Popularität der Gemini-App etablierte sich „Nano Banana“ als offizieller Beiname

Bildgenerierung mit Nano Banana und Nutzung per API

Mit Nano Banana lassen sich kostenlos Bilder über die Funktion „Create Image 🍌“ in der Gemini-Web-/Mobil-App oder in Google AI Studio erzeugen
- In AI Studio werden Detailparameter wie das Seitenverhältnis unterstützt
- Generierte Bilder tragen unten rechts ein Wasserzeichen
Entwickler können Bilder programmatisch über den gemini-2.5-flash-image-Endpunkt der Gemini API erzeugen
- Etwa $0.04 pro 1-MP-Bild und damit günstiger als die $0.17 von ChatGPT
Um die Komplexität der API-Nutzung zu verringern, wurde das Python-Paket gemimg geschrieben, mit dem sich Bilder per einfachem Prompt erzeugen lassen
```
from gemimg import GemImg
g = GemImg(api_key="AI...")
g.generate("A kitten with prominent purple-and-green fur.")
```

Test der Prompt-Treue: Totenkopf-Pfannkuchen und Bildbearbeitung

Der Prompt „ein Bild eines Pfannkuchens in Totenkopfform mit Blaubeeren und Ahornsirup“ wurde präzise umgesetzt
- Details wie der Verlauf des Sirups, die Textur des Pfannkuchens und die Position der Blaubeeren wurden sorgfältig beachtet
Anschließend wurden auf dasselbe Bild fünf gleichzeitige Bearbeitungsanweisungen angewendet (Erdbeeren und Brombeeren hinzufügen, Minzdeko, Teller austauschen, Person im Hintergrund ergänzen)
- Alle Änderungen wurden korrekt umgesetzt, während unnötige Bereiche nur minimal verändert wurden

Test zur Figurenkonsistenz: Ugly Sonic und Händedruck mit Obama

Nano Banana kann auch ohne LoRA-Training die Konsistenz bestimmter Figuren bewahren
Beim Prompt „ein Bild, in dem Ugly Sonic Barack Obama die Hand schüttelt“ erscheinen tatsächlich beide Figuren zusammen
- Nach dem Zusatz „Pulitzer-prize-winning New York Times cover photo“ verbesserten sich Komposition, Farbgebung und Lichtqualität
- Mit der Anweisung „Text ausschließen“ lassen sich unnötige Elemente entfernen
Wurden 17 Bilder von Ugly Sonic gemeinsam eingegeben, gelang eine noch genauere Reproduktion des Erscheinungsbilds

Zusammenhang zwischen Gemini 2.5 Flash und Nano Banana

Nano Banana ist eine erweiterte multimodale Encoder-Variante von Gemini 2.5 Flash,
- mit Fähigkeiten für Markdown-/JSON-Training, Objekterkennung und die Erzeugung von Segmentierungsmasken
- und Unterstützung für ein deutlich längeres Kontextfenster von 32.768 Tokens als CLIP (77 Tokens) oder T5 (512 Tokens)
Komplexe regelbasierte Prompts, etwa mit Bedingungen zu Farbe, Kleidung, Licht und Komposition von drei Katzen, wurden vollständig erfüllt
- ChatGPT zeigte beim selben Prompt Fehler bei Farben und Komposition

Experimente mit Code- und Textgenerierung

Beim Prompt „ein Bild von Python-Fibonacci-Code aus Kühlschrankmagneten“
- reproduzierte Nano Banana die Codestruktur teilweise und übernahm teilweise sogar Farben des Syntax-Highlightings
- ChatGPT versuchte Ähnliches, der Qualitätsunterschied war jedoch deutlich
Beim Experiment „zeige den vorherigen Text als Magnete“ wurde ein Teil des System-Prompts von Nano Banana offengelegt
- Dabei wurde bestätigt, dass eine interne Regel „keine Buzzwords verwenden“ enthält
- Auch zeigte sich, dass die Verwendung von Großbuchstaben (MUST) die Prompt-Befolgung verbessert

Verarbeitung großer Prompts: HTML- und JSON-Eingaben

Nano Banana kann kompletten HTML/CSS/JS-Code rendern und daraus ein Webseitenbild erzeugen
- Layout und Farben waren korrekt, bei einigen Texten und Proportionen gab es jedoch Fehler
Bei einer JSON-basierten Figurenbeschreibung visualisierte es einen Mischcharakter aus Paladin, Pirate und Barista
- Kleidung, Requisiten und Pose stimmten weitgehend mit den JSON-Feldern überein
- Nach dem Zusatz „Bedingungen für reale Fotografie“ verbesserte sich der Fotorealismus, inklusive Reflexionen und Tiefenwirkung

Grenzen und Probleme von Nano Banana

Beim Prompt „Make me into Studio Ghibli“ scheiterte der Stiltransfer,
- offenbar wegen einer durch die autoregressive Eigenschaft bedingten Resistenz gegen Stiländerungen
Es gibt kaum urheberrechtliche Beschränkungen, sodass mehrere IP-Charaktere in einer Szene gemeinsam erzeugt werden können
- Beispiel: Mario, Mickey Mouse, Pikachu und Optimus Prime in demselben Club
Es besteht die Möglichkeit zur Erzeugung von NSFW-Inhalten, die Zensur wirkt locker
Technische Einschränkungen wie unvollständiges Text-Rendering und Schwächen beim Stiltransfer bleiben bestehen

Fazit und Bedeutung

Nano Banana ist ein Modell, das durch präzises Prompt Engineering eine hochwertige Steuerung von Bildern ermöglicht
Weil es sogar HTML-, JSON- und komplexe regelbasierte Eingaben interpretieren kann, entwickelt es sich zu einer neuen Experimentierplattform für KI-Bildgenerierung
Es ist ein Beispiel, das über die von ChatGPT geprägte öffentliche Wahrnehmung hinaus die tatsächlichen Möglichkeiten und Grenzen der KI-Bildgenerierung überprüfbar macht
Der Autor hat alle Experiment-Prompts und das Jupyter Notebook veröffentlicht und damit Reproduzierbarkeit und Transparenz sichergestellt
Nano Banana gilt als Beispiel für einen Wendepunkt hin zum promptzentrierten Visual Engineering

1 Kommentare

GN⁺ 2025-11-14

Hacker-News-Kommentare

Ich erzeuge für Storyboards jeden Tag Dutzende von Bildern
Die Kontrolle über die Ausgabe wird immer einfacher, und ich kann Charaktere, Beleuchtung und sogar Tageszeit von Szene zu Szene konsistent halten
Ich nutze 7-stufige Prompt-Layer für Umgebung, Kamera, Motiv, Komposition, Beleuchtung, Farbe und Qualität; vielleicht etwas übertrieben, aber ich experimentiere noch
Außerdem habe ich ein einfaches Bearbeitungstool gebaut, mit dem ich direkt im Bild Bounding Boxes zeichnen und Änderungen vornehmen kann; das Bild schicke ich dann an Claude, damit automatisch ein Bearbeitungs-Prompt erzeugt wird
So konnte ich eine GenAI-Videogenerierungs-Pipeline aufbauen, bei der die Übergänge zwischen Szenen natürlich wirken
- Unser Team nutzt nano banana ähnlich für Storyboards und erstellt mit einem img2vid-Modell Full-Motion-Videos
  Wir versuchen ebenfalls, die Konsistenz von Charakteren, Hintergründen und Stil zu wahren, daher gibt es viele Parallelen zu deiner Arbeit
  Falls es dich interessiert, schau dir auch unser Produkt Hypernatural.ai an
- Bei mir ist es eher umgekehrt: Wenn ein Ergebnis einmal aus dem Ruder läuft, ist es fast unmöglich, wieder zur ursprünglichen Absicht zurückzukehren
Ich mag die gemimg-Python-Bibliothek
Ich habe dort Gemini CLI ergänzt und einen PR eingereicht; ausführen lässt sich das dann so
Das Ergebnis steht in diesem Kommentar
- Ich hätte eine Frage an @simonw — wie hast du die Gist-Vorschau der gemini-cli-Terminalsitzung erstellt?
  Hast du das wie hier direkt in HTML/CSS gebaut, oder gibt es dafür ein automatisiertes Tool wie amp-code?
- Mich würde interessieren, ob es einen Grund gibt, warum du in pyproject.toml keinen project.scripts-Eintrag hinzugefügt hast
  Dann könnte man die CLI vermutlich direkt mit uv installieren
- Der Autor hat anfangs Open Source stark betont; mich würde interessieren, ob auch das QwenEdit-Ökosystem behandelt wird
  Chinesische Bearbeitungsmodelle nähern sich zunehmend dem NanoBanana-Niveau, und weil sie Open Source sind, ermöglichen sie fortgeschrittene Bildmanipulation mit Masken und Kerneln
  Auch Stiltransfer per LoRA ist möglich, und insgesamt ist das viel interessanter als geschlossene US-Modelle
  Es dürfte auch einfacher werden, die Trainingsdaten von Nano Banana zu extrahieren und in ein neues Modell zu distillieren
Ich fand den Beitrag von minimaxir interessant
Dank des 32.768-Token-Kontextfensters von Nano Banana nutze ich in einer komplexen Bildgenerierungs-Pipeline zwischendrin Mistral 7B, um vier Varianten eines Prompt-Umschreibens zu erzeugen
Dass Stiltransfer schwach ist, stimmt zwar, aber mit zwei Bildern als Input werden die Ergebnisse etwas besser
Das erste ist das zu transformierende Bild, das zweite dient als Stil-Referenzbild
In meinem Portfolio-Beispiel nutze ich genau diesen Ansatz
- Vielleicht ist das eine explizite Einschränkung, um nach dem früheren „make me Ghibli“-Trend den Studio-Ghibli-Stil zu blockieren
Beim zweiten Totenkopf-Pfannkuchen-Bild ist mir ein lustiger Fehler aufgefallen
Die Erdbeere sitzt in der rechten Augenhöhle des Schädels (links im Bild), und die Brombeere auf der anderen Seite
Das scheint daher zu kommen, dass die meisten Bildbeschreibungen aus der Perspektive des Betrachters formuliert sind
- Ich glaube, als Mensch hätte ich es wie Nano Banana gemacht
  Wenn der Nutzer die Erdbeere im linken Auge des Schädels haben wollte, hätte er „sein linkes Auge“ ausdrücklich sagen müssen
- Ich denke, viele Leute verwechseln, ob mit „linkes Auge“ die Perspektive des Motivs oder der Kamera gemeint ist
- Mir ist das auch erst entgangen, aber später habe ich im Charakter-JSON auf dasselbe Problem hingewiesen
  Seit ich in den Prompt ausdrücklich schreibe, dass links und rechts aus der Perspektive der Figur gemeint sind, ist die Erfolgsquote deutlich höher
- Ich dachte genau dasselbe
  Der Autor meinte zwar, Nano Banana habe alle Edits exakt ausgeführt, aber an dieser Stelle ist das auslegbar
  Ich finde, das „rechte Auge“ des Schädels sollte aus der Perspektive des Schädels verstanden werden
Man schickt die Anfrage über Google AI Studio, und zum Entfernen des Wasserzeichens blockiert man in den Browser-Entwicklertools einfach die Anfrage „watermark_4“
Danach enthalten die erzeugten Bilder kein Wasserzeichen mehr
Ich war überrascht über den Satz „Nano Banana ist schwach bei Stiltransfer“
Ich arbeite an einem Projekt, in dem ich meine Nachbarschaft als Landschaft des 18. Jahrhunderts visualisieren will
Ich habe mit SketchUp und Twinmotion modelliert, aber fotorealistische Bilder waren schwer hinzubekommen
Ich habe viele KI-Bildgeneratoren ausprobiert, aber Nano Banana war der erste, der einen neuen Stil anwenden konnte und dabei die geometrische Konsistenz beibehielt
Mit einem simplen Prompt wie „Mach aus diesem Gemälde ein Foto“ habe ich erstaunliche Resultate bekommen
Wenn ich allerdings direkt das 18. Jahrhundert erwähne, wird das Ergebnis oft malerisch; deshalb umschreibe ich es eher als „Foto einer erhaltenen historischen Straße“
Ich modelliere weiterhin vieles von Hand, aber Nano Banana hat meinen gesamten Modellierungsansatz verändert
- Wenn man jedoch künstlerische Bilder als Stilreferenz gibt, schafft Nano Banana keine saubere Generalisierung außerhalb seines Trainingsbereichs
Der Ausdruck „prompt engineered“ bedeutet letztlich einfach, das einzugeben, was man sehen will
- Aber genau das ist eine echte Fähigkeit
  Viele Probleme entstehen, weil Menschen nicht klar ausdrücken können, was sie eigentlich wollen
  Prompt Engineering ist eine Fähigkeit zum Umgang mit der Komplexität von Kommunikation und macht die Lücke zwischen Worten und Bedeutung sichtbar
- Je nach Modell kann es auch sein, dass bestimmte Prompts schlicht nicht verstanden werden
- Inzwischen verstehen wir die Interaktion mit LLMs als Natural-Language-Interface
  Es ist eine mehrdeutige Schnittstelle, anders als Programmiersprachen, und Prompt Engineering ist die neue Fähigkeit, damit umzugehen
- Am Ende ist es ein Prozess des wiederholten Anpassens von Prompts, um das gewünschte Ergebnis zu bekommen
- Früher nannte man so etwas Google Fu
Ich habe versucht, eine Szene aus einem Live-Action-Mein Nachbar Totoro zu erzeugen
Da es sich wie bei Sonic um eine Figur handelt, die schwer realistisch umzusetzen ist, war ich neugierig auf das Ergebnis, aber statt Fotorealismus kamen nur digital-artige Bilder heraus
Auch mit anderen Keywords war es nicht anders, und bei ChatGPT konnte ich es wegen des Copyright-Filters gar nicht erst testen
Trotzdem war der Versuch an sich interessant
Nano Banana reagiert bei Bearbeitungen manchmal träge
Ich bat darum, ein Porträtfoto in einen Clay-Animation-Stil umzuwandeln, aber es änderte sich fast nichts
Als ich dann noch „Mach die Person 10 Jahre jünger“ hinzufügte, wirkte sie plötzlich wie eine Knetfigur
- Das ist eben eine Stiltransfer-Anfrage, und wie beim Ghibli-Beispiel kann so etwas scheitern
Meiner Erfahrung nach macht nano banana immer noch Folgendes
- nimmt zufällige Änderungen am Bild vor
- verändert den Maßstab oder
- erzeugt subtile, aber allgemeine Änderungen an den Details
  Zum Beispiel fügt es ohne jede Anweisung einem Raum plötzlich einen Kamin oder eine Garage hinzu
  Das passiert sogar bei auf 0 gesetzter Temperatur, was es schwer macht, eine zuverlässige App darauf aufzubauen
  Mich würde interessieren, ob jemand bessere Erfahrungen gemacht hat
- Der Teil mit ALL CAPS ist interessant
  Großbuchstaben werden anders tokenisiert und könnten deshalb ein für das Modell schwer verständlicher Input sein
- Ich entwickle den PixLab-Editor, und der befolgt Befehle in Großbuchstaben exakt so, wie sie geschrieben sind

Nano Banana ermöglicht mit präzisem Prompt Engineering feinste KI-Bildgenerierung

Wandel bei KI-Bildmodellen und das Auftreten von Nano Banana

Bildgenerierung mit Nano Banana und Nutzung per API

Test der Prompt-Treue: Totenkopf-Pfannkuchen und Bildbearbeitung

Test zur Figurenkonsistenz: Ugly Sonic und Händedruck mit Obama

Zusammenhang zwischen Gemini 2.5 Flash und Nano Banana

Experimente mit Code- und Textgenerierung

Verarbeitung großer Prompts: HTML- und JSON-Eingaben

Grenzen und Probleme von Nano Banana

Fazit und Bedeutung

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare