Nano Banana Pro: Googles Bildgenerierungsmodell auf Basis von Gemini 3 Pro

(blog.google)

11 Punkte von GN⁺ 2025-11-21 | 1 Kommentare | Auf WhatsApp teilen

Nano Banana Pro ist Googles neuestes Modell zur Bildgenerierung und -bearbeitung auf Basis von Gemini 3 Pro und bietet Funktionen, um visuelle Ideen präzise umzusetzen
Durch verbessertes Text-Rendering und mehrsprachige Unterstützung lassen sich gut lesbare Texte für Poster, Mockups und Infografiken direkt in Bilder einfügen
Mit Kombination von bis zu 14 Bildern, konsistenter Darstellung von 5 Personen und Unterstützung für 2K- bis 4K-Auflösungen wird die Erstellung hochwertiger visueller Inhalte unterstützt
Integriert in verschiedene Google-Produkte wie Google Ads, Workspace, die Gemini-App und AI Studio, sodass Verbraucher, Profis und Entwickler es gleichermaßen nutzen können
SynthID-Wasserzeichen sorgen für Transparenz bei KI-generierten Bildern, und die Erkennungsfunktion für KI-Inhalte wird direkt in der Gemini-App bereitgestellt

Überblick über Nano Banana Pro

Nano Banana Pro ist ein Modell, das mithilfe von Gemini 3 Pros Schlussfolgerungsfähigkeit und Weltwissen visuelle Informationen präzise visualisiert
- Eine Upgrade-Version, die nach der vorherigen Version Nano Banana (Gemini 2.5 Flash Image) veröffentlicht wurde
- Unterstützt verschiedene Designaufgaben wie Ideenfindung, Datenvisualisierung und das Umwandeln handschriftlicher Notizen in Diagramme

Hauptfunktionen

Präzise und kontextreiche visuelle Inhalte erzeugen
- Mit den fortgeschrittenen Schlussfolgerungsfähigkeiten von Gemini 3 lassen sich faktenbasierte Inhalte wie Bildungsinfografiken und Diagramme erstellen
- In Verbindung mit Echtzeitinformationen aus der Google Search können Wetter, Sport und Rezepte als Echtzeitdaten visualisiert werden
Mehrsprachiges Text-Rendering
- Text innerhalb von Bildern wird präzise und gut lesbar dargestellt und kann in mehrere Sprachen übersetzt und lokalisiert werden
- Eignet sich durch verschiedene Schriftarten, Texturen und Typografie-Stile für Poster oder Markeninhalte
Hochwertige visuelle Darstellung
- Erstellung komplexer Kompositbilder mit Kombination von bis zu 14 Bildern und konsistenter Darstellung von 5 Personen
- Bietet feingranulare Bearbeitungssteuerung wie lokale Bearbeitung, Anpassung des Kamerawinkels, Farbkorrektur und Wechsel der Beleuchtung
- Unterstützt 2K- und 4K-Auflösungen sowie verschiedene Seitenverhältnisse für Print- und digitale Plattformen

Einsatzumgebungen

Für Verbraucher und Studierende
- Nano Banana Pro kann in der Funktion „Create images“ der Gemini-App verwendet werden
- Kostenlose Nutzer erhalten eine begrenzte Anzahl an Generierungen, danach wird auf das Standard-Nano-Banana-Modell umgestellt
- Abonnenten von Google AI Plus, Pro und Ultra erhalten höhere Generierungslimits
Für Profis
- Die Bildgenerierungsfunktion von Google Ads wurde auf Nano Banana Pro aktualisiert
- Auch in Slides und Vids von Google Workspace nutzbar
Für Entwickler und Unternehmen
- Erweiterte Unterstützung in Gemini API, Google AI Studio, Vertex AI, Antigravity und Gemini Enterprise
Für Kreative
- Über das Tool Flow erhalten Videoproduzenten und Marketer eine feingranulare Steuerung auf Szenenebene

Identifikation und Transparenz von KI-generierten Bildern

Alle mit Nano Banana Pro erzeugten Bilder werden mit einem digitalen SynthID-Wasserzeichen versehen, sodass ihre Herkunft identifizierbar ist
- In der Gemini-App können Bilder hochgeladen werden, um direkt zu prüfen, ob sie „von Google AI erzeugt“ wurden
- Bilder von kostenlosen und Pro-Nutzern erhalten zusätzlich ein sichtbares Wasserzeichen (Gemini sparkle)
- Ultra-Abonnenten und Entwicklerwerkzeuge in AI Studio bieten eine saubere Leinwand ohne Wasserzeichen
SynthID soll künftig auch auf Audio- und Videoinhalte ausgeweitet werden

1 Kommentare

GN⁺ 2025-11-21

Hacker-News-Kommentare

Diese Woche fühlte es sich an, als würde Google sich wie Godzilla bewegen
Ich habe zum ersten Mal eine Karte in AI Studio hinterlegt, aber der Bezahlvorgang war viel zu kompliziert
Obwohl ich alles eingerichtet hatte, bekam ich weiterhin den Fehler „permission denied“
Wenn man so weit gehen muss, um überhaupt bezahlen zu können, ist es egal, wie gut das Modell ist
- Es tut uns leid, dass die Erfahrung so unerquicklich war
  Das Team arbeitet intensiv daran, die Zugänglichkeit zu verbessern
  Um Reibung bei der Bezahlung zu verringern, bereiten wir ein integriertes Bezahlsystem in AI Studio vor, das im Januar weltweit eingeführt werden soll
- Die Google APIs haben insgesamt eine viel zu hohe Einstiegshürde
  Bei anderen Diensten reicht ein API-Key, aber bei Google muss man ein Konto erstellen → eine App erstellen → den Dienst aktivieren → eine OAuth-App erstellen → JSON herunterladen
- Wenn du einfach nur die API nutzen willst, empfehle ich Fal.ais Nano-Banana-Pro
  Die Anmeldung ist deutlich einfacher, und es werden verschiedene AI-Modelle angeboten
- Ich nutze auch die Bezahlpläne von Claude und OpenAI, aber bei Gemini ist die Bezahlung so schwierig, dass schon der Versuch mühsam ist
  Für einen einfachen Test ein GCP-Projekt anzulegen, ist einfach zu viel
- Die Hürden bei Googles AI-Produkten sind so groß, dass allein das Bauen eines besseren Developer-Frontends dafür schon eine Geschäftschance wäre
Ich habe mit Nano Banana Pro alle Prompt-Tests rund ums Editieren erneut durchgeführt
SHRDLU, M&M Van Halen und der Scorpio-Street-Test wurden bestanden
Die Ergebnisse sind hier zu sehen
NB Pro zeigte klar bessere Leistung als das ursprüngliche NB
- Im Giraffen-Editier-Test sah das Ergebnis von NB Pro besser aus als das von Seedream, aber die Bewertung ist umgekehrt ausgefallen
  Der Test selbst war wohl nicht ganz passend
- NB Pro hätte den Giraffen-Test bestehen müssen
  Das Ergebnis ist nicht perfekt, aber es hat die Anforderung erfüllt
- Der Schiefe-Turm-von-Pisa-Test war interessant
  Prompts, die klares Wissen erfordern, werden bestanden, aber ein einfach schiefes Objekt geradezurichten, bleibt weiterhin schwierig
- Es wäre in jedem Test einfacher zu vergleichen, wenn das Originalbild immer mit angezeigt würde
  Statt eines Sliders wäre eine gleichzeitige Anzeige von Original und Ergebnis wohl intuitiver
- Die Seite ist wirklich nützlich. Ich frage mich, ob ihr auch ein Text-zu-Bild-Benchmark mit NB Pro plant
Ich habe mehrere Monate lang Nano-Banana-Prompt-Engineering analysiert, und nun hat Google eine neue Version veröffentlicht
Das neue Modell funktioniert direkt im gemimg-Paket
Allerdings ist es teuer, daher ist es schwer, es als Standardmodell festzulegen
Laut Dokumentation erzeugt das Modell bis zu zwei Zwischenbilder (Thinking-Phase)
Das könnte ein Grund für die höheren Kosten sein
- Das Prompt-Beispiel „Erdbeere im linken Auge, Brombeere im rechten Auge“ war interessant
  Das Modell erkannte links und rechts aus Sicht des Betrachters und platzierte es deshalb falsch
  Solche Fehler bei relativen Anweisungen sind auch im medizinischen Bereich ein häufiges Problem
  Beispiel-Link
- Max’ Nano-Banana-Guide ist weiterhin gültig
  Die meisten Prompts funktionieren auch mit NB Pro gut
  Guide-Link
  Meine Versuchsergebnisse teile ich ebenfalls
- Die Kosten pro Eingabebild liegen bei $0.0011, nicht bei $0.06
- gemimg Version 0.3.2 wurde veröffentlicht, und die meisten Bildfehler in NB Pro wurden behoben
  Die „Transformation im Studio-Ghibli-Stil“ ist deutlich präziser als bei ChatGPT
  Allerdings geraten zu realistische Bilder manchmal ins Uncanny Valley
- Der gemimg-Wrapper bleibt weiterhin nützlich
  Es hat mich erneut daran erinnert, wie wichtig anpassungsfähiges Tool-Design ist, um auf technische Veränderungen zu reagieren
Die Fähigkeit, mit kurzen Prompts eine komplette Infografik zu erzeugen, ist erstaunlich
Ich habe nach „Wie das Datasette-Projekt funktioniert“ gefragt und ein erstaunlich ausgereiftes Ergebnis bekommen
Ergebnis-Link
- Diese Funktion könnte in SaaS die Erstellung von Event-Flyern grundlegend verändern
  Bisher wurde Text separat gerendert, aber jetzt scheint alles in einem Durchgang möglich zu sein
- Daran, auf einer Klaviatur das mittlere C zu finden, ist es gescheitert
  Siehe Ergebnisbild
- Selbst für ein Projekt mit kaum Informationen, player.html, erzeugt es gute Infografiken
  GitHub-Link
  Es wandelt sie auch automatisch in ein quadratisches Format für Instagram um
- Ich frage mich, ob die Datasette-Infografik tatsächlich mit der realen Funktionsweise übereinstimmt
AI-Bilder erzeugen keine offensichtlich sichtbaren Artefakte mehr, aber wegen ihres Stils wirken sie weiterhin erkennbar nach AI
Gerade Infografiken ließen sich noch von menschgemachten unterscheiden
Das wirkt wie ein Ergebnis eines überrepräsentierten bestimmten Datensatzes
- Menschen sind extrem empfindlich für feine visuelle Unterschiede
  Auf Mittelwerte trainierte Modelle erzeugen einen „durchschnittlichen Bildraum“
  Dieses Beispiel zeigt, dass mit Feintuning auch realistische Resultate möglich sind
- Es ist nicht nur ein Datenproblem
  Manche Modelle entfernen Stil absichtlich, wodurch ein künstlicher Eindruck entsteht
  Offene Modelle lassen sich mit LoRA fein abstimmen, bei geschlossenen Modellen ist das schwierig
- Die meisten Modelle werden mit Daten aus dem gesamten Web trainiert und liefern deshalb vorhersehbare Durchschnittsergebnisse
  Wenn man originelle Bilder will, muss schon der Prompt kreativer sein
- Bei Texturen, Proportionen und Beleuchtung bleiben weiterhin subtile Fehler bestehen
  Deshalb gilt die Bildbearbeitungsfunktion als die nächste Aufgabe
- Mit menschlichem Feedback feinabgestimmte Modelle lernen den „Durchschnittsgeschmack“, wodurch Individualität verloren geht
  Frühe Modelle hatten geringere Qualität, lieferten aber interessantere Ergebnisse
SynthID ist ein guter erster Schritt, hat aber die Grenze, dass sich AI-Inhalte ohne Wasserzeichen nicht unterscheiden lassen
Große Unternehmen sollten standardisierte Identifikatoren einführen
- Ich halte es für riskant, wenn Regierungen Wasserzeichen verpflichtend machen
  Hätte es solche Regeln auch für Photoshop gegeben, wäre Kreativität stark eingeschränkt worden
- Apple wird wohl irgendwann etwas wie Real Photos einführen
  Also eine Funktion, die beweist, dass ein Foto mit einer echten Kamera aufgenommen wurde, und es in iMessage mit einem Verifizierungszeichen versieht
- Unternehmen setzen Wasserzeichen wegen des Managements des erneuten Trainings mit Daten ein
  Am Ende werden die wichtigsten kommerziellen Modelle Wasserzeichen standardmäßig erzwingen
- Wenn ein Standard-Identifier eingeführt wird, wird es auch Software geben, die ihn entfernt
  Das wird ein endloses Katz-und-Maus-Spiel
- Es gibt das C2PA-Projekt, das versucht, dieses Problem zu lösen
2D-Animatoren können vorerst noch beruhigt sein
Ich habe versucht, Sprite-Sheets zu erzeugen, aber statt natürlicher Zwischenbewegungen (Interpolation) wurden nur Frames schlicht wiederholt
Sammlung offizieller Materialien
Developer Blog
DeepMind-Seite
Model-Card-PDF
SynthID-Einführung
Dieses Modell ist das erste Bildgenerierungsmodell, das meinen Klavier-Test bestanden hat
Es wiederholt das Muster der schwarzen Tasten pro Oktave korrekt
Frühere Modelle haben die Tastenanordnung immer falsch dargestellt
- Aber sobald man vom Standard mit 88 Tasten abweicht, gibt es weiterhin viele Fehler
  Auch Aufforderungen, bestimmte Töne farblich zu markieren, werden zufällig umgesetzt
  Das Klavier ist ein standardisiertes Objekt und müsste daher reichlich Trainingsdaten haben, trotzdem fehlt es an Verständnis
- Sich wiederholende Muster über lange Strecken konsistent beizubehalten, ist schwierig
  Dass über alle 88 Tasten hinweg Konsistenz gehalten wurde, ist beeindruckend
Jetzt kann das Modell Text natürlich innerhalb eines Bildes rendern
Eine Funktion, die früher unmöglich war, fühlt sich jetzt fast wie ein Standard an
- Dem stimme ich zu. Aber in Bereichen, in denen sich visuelle Gestaltung und Code überschneiden, etwa bei der Icon-Erstellung, bleibt es weiterhin schwach
  Feines Design bei Kurven, Abständen und Balance macht der Mensch noch immer besser selbst

Nano Banana Pro: Googles Bildgenerierungsmodell auf Basis von Gemini 3 Pro

Überblick über Nano Banana Pro

Hauptfunktionen

Einsatzumgebungen

Identifikation und Transparenz von KI-generierten Bildern

Verwandte Materialien

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare