21 Punkte von GN⁺ 2025-09-12 | 1 Kommentare | Auf WhatsApp teilen
  • Eine Open-Source-Sammlung mit vielfältigen Beispielen für Bildgenerierung und -bearbeitung mit Googles Nano-banana
  • Zeigt kreative Transformationen und Multi-Image-Bearbeitung auf Basis von Googles Bildgenerierungstechnologie
  • Jeder Fall ist ein reales Anwendungsbeispiel, gesammelt aus Communities wie Twitter/X, Xiaohongshu usw.
  • Bietet zahlreiche experimentelle und praxisnahe Transformationsbeispiele durch die Kombination von Text-Prompts und Eingabebildern
  • Prompt-Design und Eingabeanleitungen sind dokumentiert, sodass sie sofort von allen genutzt werden können

Überblick

  • Dieses Repository ist eine kuratierte Galerie mit verschiedenen Bildern und Prompt-Beispielen, die mit den Bildgenerierungs- und Bearbeitungstechniken von Nano-banana erstellt wurden
  • Es zeigt die unbegrenzten Möglichkeiten der Bildgenerierung und -bearbeitung von Google, hilft beim Verständnis von Nano-banana und lässt zugleich die Stärke von Multi-Image-Fusion und kreativer Bearbeitung erleben
  • Die Beispiele stammen hauptsächlich von Twitter/X, Xiaohongshu und anderen Self-Media-Plattformen
  • Das Repository dokumentiert das aktuelle Aktualisierungsdatum und die Versionshistorie

Menü

Jeder Fall besteht aus einer Kombination aus Eingabebildern und Prompts sowie einem Ausgabebeispiel.

Eingabe- & Prompt-Beispiele

  • Eingabe: Es werden verschiedene Typen benötigt, etwa Referenzbilder, Google-Maps-Bilder, Porträtfotos, Skizzen und Materialbilder
  • Prompt: Enthält auf Englisch formulierte detaillierte Anforderungen für Bildtransformation, Bearbeitung, Design, Farbkorrektur usw.

Typische Prompt-Struktur

  • Stil von Personen oder Objekten, Frisur, Hintergrundtransformation usw.
  • Einsetzbar für viele Zwecke wie Produkte, Gebäude, Charaktere, Essen, Comic-Stile, Ausweisfotos, Mockups usw.
  • Der Teil in [Klammern] kann je nach Verwendungszweck angepasst werden, um eine präzise Anleitung zu geben

Beispielablauf

  • Bild hochladen → Prompt eingeben → Ergebnis prüfen (Bildlink)
  • Teilweise im Format einer Tabelle für „Eingabe/Ergebnis“, teilweise nur mit dem Ausgabebild

Zusammenfassung wichtiger Fallbeispiele

  • Charakter-/Produkttransformation: Erzeugung von Porträtfotos als Charakter-, Figuren-, Lego- oder Gundam-Style-Verpackungen
  • Cosplay/Design: Generierung von Cosplay-Fotos auf Illustrationsbasis, Charakter-Ansichten aus drei Perspektiven und Ausdrucks-Sheets
  • Bildkorrektur/-restaurierung: Restaurierung alter Fotos, Entfernung transparenter Hintergründe, Verbesserung von Farbe und Helligkeit, Rauschwiederherstellung
  • Compositing/Stilwechsel: Comics bzw. schwarzweiße stumme Vier-Bilder-Strips, Comic-Stil-Transformationen, Miniaturisierung, Anwendung von Materialien/Filtern, Änderungen von Frisur/Make-up
  • Datenvisualisierung: Infografiken zur Zusammenfassung von Blogs/Artikeln, Anzeige von Kalorien- und Nährwertangaben
  • Bildung/Präsentation: Zeichnungen von Organmodellen, Lösungen für Mathematikaufgaben, Hinzufügen erklärender Anmerkungen usw.

Prompt-Leitfaden und Referenzen

  • Zu jedem Prompt und jeder Fallbeschreibung gibt es angepasste Leitfäden für Eingabewerte und [Ersatzinhalte]
  • Kombination mehrerer Bilder für Anwendungen wie Storys, Fashion-Boards und Pose-Sheets
  • Auch technische Ergebnisse (Wireframes, Hologramme, 3D-Darstellungen) sind möglich

Community-Beteiligung und Dank

  • Das Material wird fortlaufend erweitert, vor allem durch Personen, die reale Beispiele aus der AI-Community teilen
  • Neue Nutzungsideen oder kreative Arbeiten können frei vorgeschlagen werden

Bedeutung und Besonderheiten des Projekts

  • Ein GitHub-Repository, das umfangreich reale Anwendungsbeispiele aktueller Bildgenerierungsalgorithmen bündelt
  • Detaillierte Optionen der Nano-banana-Prompts und Ausgaben sowie die anwendungsbezogene Nutzung pro Fall sind auf einen Blick ersichtlich
  • Bietet hohen Referenzwert und praktische Nutzbarkeit für Fachdesigner, AI-Forschende, Entwickler und andere
  • Jedes Beispiel lässt sich leicht für unterschiedliche Ziele der Bildbearbeitung, -generierung und -transformation wiederverwenden

1 Kommentare

 
GN⁺ 2025-09-12
Hacker-News-Kommentare
  • Ich war beeindruckt davon, wie erstaunliche Ergebnisse Nano-Banana zeigt. Ich betreibe eine Website zum Vergleich modernster Bildmodelle, bei der mein wichtigstes Kriterium ist, wie präzise die Ergebnisse bei verschiedenen Text-zu-Bild-Prompts ausfallen. Kürzlich habe ich außerdem ein Editing Comparison Showdown hinzugefügt, das die Fähigkeit bewertet, bestehende Bilder lokal per Text zu bearbeiten. Derzeit vergleiche ich 6 multimodale Modelle (Nano-Banana, Kontext Max, Qwen 20b usw.). Die Ergebnisse kann man hier sehen. Gemini Flash 2.5 liegt mit 7 von 12 Punkten auf Platz 1, Kontext hat 5 Punkte, was ziemlich beeindruckend ist, wenn man bedenkt, dass man sogar ein Entwicklungsmodell lokal ausführen kann
    • Bei Nano Banana kam es bei mir oft vor, dass trotz der Aufforderung, etwas deutlich zu verändern, einfach dasselbe Bild erzeugt wurde. Manchmal kommt seltsamerweise doch ein korrektes Ergebnis heraus. Falls jemand dieses Phänomen kennt oder eine Lösung weiß, wäre ich dankbar
    • Uhren kann es immer noch nicht richtig darstellen (z. B. eine Uhr mit 1:15 am). Auch der in Comic-Bildern erzeugte Text ist nicht zu 100 % korrekt
    • Ich würde empfehlen, gpt-image-1 hinzuzufügen. Es ist streng genommen kein Editiermodell, weil es globale Pixel verändert, aber bei sehr komplexen Prompts und Bildreferenzen wirkt es instruktionsgenauer als Nano Banana
  • Beeindruckend an diesem Modell ist, dass es praktisch nur durch die eigene Vorstellungskraft begrenzt ist und nur $0.04 pro Bild kostet. Das steht nicht auf der Seite, aber es handelt sich um Googles Gemini Image Generation-Modell (offizielle Dokumentation). Die Beispielsammlung ist auch gut. Allerdings fand ich es etwas merkwürdig, dass das zweite Beispiel für ein Arbeitsumfeld eher ungeeignet wirkt
    • Ich möchte betonen, dass Nano Banana besonders für die Bildbearbeitung optimiert ist (mehr Informationen)
    • Ich frage mich, ob das ein einzelnes Modell oder eine Modell-Pipeline ist
  • Einige Beispiele enthalten NSFW-Elemente. In großen Teilen der US-Tech-Branche könnte das Teilen der URL oben heikel sein, daher wäre es möglicherweise besser, nur einzelne unbedenkliche Beispiele auszuwählen und zu zeigen. Zur Einordnung: Die Hälfte von Fall 1 zeigt eine Anime-/Manga-artige Frau im Maid-Outfit, die ihren Rock anhebt und ihre Unterwäsche sichtbar macht. Ich halte das für den problematischsten Teil der Beispiele, die Besucher direkt auf der ersten Seite sehen
    • Es hat mich wirklich überrascht, dass dieses Unterwäsche-Beispiel erzeugt wurde. Als ich Nano Banana benutzt habe (Safety-Filter auf "off"), wurde sogar ein Comic-Stil-Bild mit einem verfluchten Samurai-Helm und einem liegenden Leichnam abgelehnt
    • Noch problematischer fand ich, dass das Referenzbild ganz offensichtlich hochwertige digitale Kunst eines Künstlers ist. Unabhängig von juristischen Fragen im AI-/LLM-Bereich fühlt es sich moralisch unangenehm an, das Werk anderer so offen in offizieller Dokumentation zu verwenden
  • Ich verstehe ehrlich gesagt nicht, warum Leute gute Ergebnisse bekommen. Ich habe hier Nano Banana (gemini-2.5-flash-image-preview) ausgewählt und ausprobiert, und die Ergebnisse waren Schrott. Wenn ich ein Referenzbild einer Figur und eine Szene hochlade und darum bitte, die Figur in diese Szene einzufügen, wird sie einfach nur hineinkopiert, selbst wenn Stil und Farben überhaupt nicht passen. ChatGPT liefert da eher bessere Ergebnisse ab (auch wenn es manchmal nicht ähnlich aussieht, ist es immer noch viel besser als etwas, das man in zwei Minuten in Paint zusammenbastelt). Verwende ich vielleicht das falsche Modell?
    • Ich erlebe genau dasselbe. Wenn Nano Banana funktioniert, dann wirklich sehr gut, aber in 90 % der Fälle sind die Ergebnisse seltsam oder von niedriger Qualität. Es wirkt wie Ausschneiden-und-Einfügen oder Paint-over, und selbst vernünftige Anfragen werden aus "Safety"-Gründen abgelehnt (meiner Erfahrung nach sind Bilder mit realen Menschen fast unmöglich). Das ist eher frustrierend als beeindruckend
    • Nach meiner Erfahrung setzt Nano Banana sehr aggressiv auf Copy-and-paste, wenn es glaubt, dass das ausreicht. Man muss im Prompt explizit sagen, dass die Figur natürlich in die Szene integriert werden soll. Mit den richtigen Prompts ist es anderen Modellen deutlich überlegen, aber der Prompting-Prozess selbst ist lästig und umständlich
    • Wahrscheinlich hilft es, Prompts schrittweise zu verändern oder Gemini 2.5 pro um eine Verbesserung des Prompts zu bitten und diesen dann an Gemini 2.5 Flash weiterzugeben, um iterativ zu lernen, was funktioniert
    • Bei mir kommt ebenfalls nur absoluter Müll heraus. Ich wollte ein Foto meiner Frau (32) hochladen, um auszuprobieren, wie sie mit Pony aussehen würde, aber wegen Safety-Problemen wurde das meistens abgelehnt. Wenn es gelegentlich doch funktionierte, war es ein komplett anderes Gesicht. Ein einziges Mal kam etwas Brauchbares heraus, aber eine Anpassung des Ponys war nicht möglich; stattdessen bekam ich immer wieder dasselbe Ergebnis und zwischendurch oft "Inhalt blockiert"
  • Meiner Meinung nach bleibt die Leistung dieses Modells hinter den Erwartungen zurück. Die Beispielbilder wirken selektiv ausgewählt. Hier ein paar Fehlversuche von mir: Auf einem Foto mit starken Gesichtsschatten konnte es die Schatten nicht entfernen, bei einem alten Schwarzweißfoto, das ich als scharfes Farbfoto im Stil einer modernen DSLR haben wollte, wurden die Farben nur blass eingefärbt, bei der Anforderung eines 3x3-Rasters mit Frisuren wiederholte es ständig 2x3 und schaffte irgendwann zwar 3x3, mischte dann aber Ethnien durcheinander, und auch das Verschmelzen eines echten Bildes mit einem generierten Bild war unmöglich (z. B. ein Delfin im Tutu wirkte wie ein grobes Copy-paste)
    • Das AR-Building-Highlight-Beispiel war cool. Mit demselben Prompt hebt es im Skyline-Bild das markanteste Gebäude gut hervor, aber sobald man ein anderes Gebäude angibt, scheitert es komplett. Bei einem Bild von Midtown Manhattan bat ich darum, das Chrysler Building zu finden und hervorzuheben, und es behauptete, es sei nicht im Bild; bei 432 Park Ave erschien stattdessen ein zufälliges Gebäude in der Bildmitte. Auch bei einem Foto des Museum Campus in Chicago wurde auf Anfrage eines bestimmten Gebäudes stattdessen das eigentlich gar nicht sichtbare Hancock Center hervorgehoben. Auch die Beschreibungen waren falsch, und manchmal war Text kaputt
    • Auch die Beispiele sind nicht perfekt. Beim Prompt "Meine Fotos nach Epochen" wurde das Gesicht trotz der Anweisung, es nicht zu verändern, komplett verändert, "OOTD Outfit" verwendete die falsche Kamera, "Virtual Makeup Try-On" scheiterte bei der Make-up-Darstellung, "Lighting Control" hatte die Beleuchtung nicht im Griff, und bei "Design a Chess Set" hieß es, kein Eingabebild sei nötig, obwohl es in Wirklichkeit doch nötig war. Trotzdem ist es für Leute ohne Photoshop oder um einen ersten manuellen Entwurf zu bekommen durchaus brauchbar
    • Ehrlich gesagt finde ich es ganz normal, dass Werbedemos in jedem Projekt immer die gelungensten Beispiele herauspicken
  • Ich habe kürzlich ein Paket veröffentlicht, mit dem sich Nano-Banana-Bilder in Python leicht erzeugen lassen (GitHub-Link). Beim Testen ist mir ein interessanter Prompt-Engineering-Trend aufgefallen: a) Markdown-Listen im LLM-Stil zu verwenden und b) klassische AI-Bild-Keywords wie "award-winning" oder "DSLR camera" einzusetzen, funktioniert bei Gemini 2.5 Flash Image sehr gut. Dieses Modell hat einen größeren Text-Encoder und einen größeren Trainingsdatensatz und kann daher besser unterscheiden, welche Eigenschaften eine tatsächliche Formel hat. Auch in Googles Entwicklerdokumentation wird die Verwendung solcher Keywords empfohlen. Und dank des Kontextfensters von 32k sind auch interessante Dinge möglich, etwa HTML als Bild rendern oder mit ausgefeilten JSON-Eingaben konsistente Ergebnisse erzielen
  • Ich halte das für einen erstaunlichen Fortschritt. Noch vor nicht allzu langer Zeit war es schwierig, dieselbe Figur mehrfach konsistent auszugeben. Jetzt sehen wir Kombinationen und Konsistenz auf diesem Niveau. Das Entwicklungstempo generativer Modelle ist wirklich enorm. Vielen Dank an die Ersteller und Mitwirkenden, die so viele Beispiele zusammengetragen haben. Das hilft sehr dabei zu verstehen, was das Tool in der Praxis eigentlich ist
  • Mir ist kürzlich klar geworden, dass ich früher ziemlich glücklich mit dem Gedanken war, dass unsere Fähigkeit, etwa Frisurenveränderungen im Kopf zu visualisieren, etwas Besonderes des Menschen sei. Jetzt zu sehen, wie Maschinen diese Fähigkeit auf einem ähnlichen oder sogar höheren Niveau als meine Vorstellungskraft reproduzieren, fühlt sich etwas unangenehm an — als wäre meine Vorstellungskraft womöglich auch nichts Besonderes, so wie ich eben auch nicht besonders stark darin bin, Kleiderbügel zu heben
    • Ich bin eher der Typ, der sich im Kopf keine Bilder vorstellen kann und immer nur intellektuell und logisch denkt, deshalb ist deine Vorstellungskraft immer noch eine besondere Fähigkeit. Für normale Leute wirkt das wie eine echte Superkraft. Ich würde AI mit Batman vergleichen (mächtig, wenn Geld und Utility Belt da sind, aber ohne das hilflos) und menschliche Vorstellungskraft mit Superman (eine angeborene Fähigkeit, die jederzeit abrufbar ist)
    • Ich finde es wirklich besonders, dass man sich über Bilder freuen, über sie lachen, staunen oder von ihnen schockiert sein kann, die man nur im eigenen Kopf sieht. Menschen haben einen Daseinsgrund und Gefühle; man kann einen Sonnenuntergang sehen und an Lichtstreuung denken oder einfach nur das Staunen genießen. Jedes Mal, wenn man einen Moment ganz annimmt, fühlt es sich magisch an. Dass ich dir antworten kann und es Hacker News gibt, ist ein Wunder
    • Ich habe Aphantasie (also die Unfähigkeit, sich im Kopf Bilder vorzustellen), und ich freue mich darüber, dass jetzt alle unter denselben Bedingungen imaginieren können
    • Ich frage mich, ob Maschinen in Zukunft selbstständig neue Kunststile erschaffen können. Comic-/Anime-Stile verändern sich zum Beispiel im Laufe der Zeit; wenn Menschen diese Entwicklung irgendwann stoppen würden, könnten Maschinen sie weiterführen? Im Prinzip vermutlich ja (Menschen sind schließlich auch biologische Maschinen), aber mit der heutigen AI-Architektur ist das wohl noch weit entfernt
    • Fairerweise sollte man sagen, dass diese Fähigkeit des Modells selbst auf den Trainingsdaten beruht, die wir geschaffen haben
  • Ich nutze Nano Banana tatsächlich sehr nützlich, um für meinen Sohn und die Kinder von Freunden fotobasierte Malbücher zu erstellen (Beispiele und Code). Es schafft es, den Schwarzweiß-Malbuchstil gut beizubehalten und zugleich einige Details des Originalfotos zu bewahren
  • Ich finde es unangenehm, dass es so viele Beispiele mit sexualisierten sehr jungen Frauen gibt. Fall 1/B zeigt eine weibliche Figur, die ihren Rock anhebt und ihre Unterwäsche zeigt. Das Modell ist ziemlich beeindruckend, aber solche unreifen Inhalte ruinieren meiner Meinung nach die PR. Ich habe nachgezählt: 26 Beispiele mit jungen Frauen, 9 mit Männern. Praktisch nur das "Lena"-Beispiel fehlt noch (Lenna-Referenz)
    • Mir ging es am Anfang genauso unangenehm. Vielleicht liegt es daran, dass wir alle älter geworden sind, aber so hat es sich angefühlt
    • Man muss wohl anerkennen, dass der Motor technologischen Fortschritts schon immer sexuelles Verlangen war, ob es einem gefällt oder nicht. VHS, Online-Zahlungen, Video-Streaming — all das wurde letztlich von solcher Nachfrage getrieben. Ich musste auch an das berühmte Lied "The Internet is for Porn" denken
    • Wenn du dir ansiehst, was prähistorische Bildhauer so geschnitzt haben, wirst du noch überraschter sein. Bevor ich die Seite geprüft hatte, las ich die Kommentare und dachte erst: Fall 1 war ein Kind und dann kommt als Nächstes eine sexy Maid — bitte nicht sagen, dass diese beiden Dinge in einem Bild kombiniert wurden