- Nano Banana Pro ist Googles neuestes Modell zur Bildgenerierung und -bearbeitung auf Basis von Gemini 3 Pro und bietet Funktionen, um visuelle Ideen präzise umzusetzen
- Durch verbessertes Text-Rendering und mehrsprachige Unterstützung lassen sich gut lesbare Texte für Poster, Mockups und Infografiken direkt in Bilder einfügen
- Mit Kombination von bis zu 14 Bildern, konsistenter Darstellung von 5 Personen und Unterstützung für 2K- bis 4K-Auflösungen wird die Erstellung hochwertiger visueller Inhalte unterstützt
- Integriert in verschiedene Google-Produkte wie Google Ads, Workspace, die Gemini-App und AI Studio, sodass Verbraucher, Profis und Entwickler es gleichermaßen nutzen können
- SynthID-Wasserzeichen sorgen für Transparenz bei KI-generierten Bildern, und die Erkennungsfunktion für KI-Inhalte wird direkt in der Gemini-App bereitgestellt
Überblick über Nano Banana Pro
- Nano Banana Pro ist ein Modell, das mithilfe von Gemini 3 Pros Schlussfolgerungsfähigkeit und Weltwissen visuelle Informationen präzise visualisiert
- Eine Upgrade-Version, die nach der vorherigen Version Nano Banana (Gemini 2.5 Flash Image) veröffentlicht wurde
- Unterstützt verschiedene Designaufgaben wie Ideenfindung, Datenvisualisierung und das Umwandeln handschriftlicher Notizen in Diagramme
Hauptfunktionen
- Präzise und kontextreiche visuelle Inhalte erzeugen
- Mit den fortgeschrittenen Schlussfolgerungsfähigkeiten von Gemini 3 lassen sich faktenbasierte Inhalte wie Bildungsinfografiken und Diagramme erstellen
- In Verbindung mit Echtzeitinformationen aus der Google Search können Wetter, Sport und Rezepte als Echtzeitdaten visualisiert werden
- Mehrsprachiges Text-Rendering
- Text innerhalb von Bildern wird präzise und gut lesbar dargestellt und kann in mehrere Sprachen übersetzt und lokalisiert werden
- Eignet sich durch verschiedene Schriftarten, Texturen und Typografie-Stile für Poster oder Markeninhalte
- Hochwertige visuelle Darstellung
- Erstellung komplexer Kompositbilder mit Kombination von bis zu 14 Bildern und konsistenter Darstellung von 5 Personen
- Bietet feingranulare Bearbeitungssteuerung wie lokale Bearbeitung, Anpassung des Kamerawinkels, Farbkorrektur und Wechsel der Beleuchtung
- Unterstützt 2K- und 4K-Auflösungen sowie verschiedene Seitenverhältnisse für Print- und digitale Plattformen
Einsatzumgebungen
- Für Verbraucher und Studierende
- Nano Banana Pro kann in der Funktion „Create images“ der Gemini-App verwendet werden
- Kostenlose Nutzer erhalten eine begrenzte Anzahl an Generierungen, danach wird auf das Standard-Nano-Banana-Modell umgestellt
- Abonnenten von Google AI Plus, Pro und Ultra erhalten höhere Generierungslimits
- Für Profis
- Die Bildgenerierungsfunktion von Google Ads wurde auf Nano Banana Pro aktualisiert
- Auch in Slides und Vids von Google Workspace nutzbar
- Für Entwickler und Unternehmen
- Erweiterte Unterstützung in Gemini API, Google AI Studio, Vertex AI, Antigravity und Gemini Enterprise
- Für Kreative
- Über das Tool Flow erhalten Videoproduzenten und Marketer eine feingranulare Steuerung auf Szenenebene
Identifikation und Transparenz von KI-generierten Bildern
- Alle mit Nano Banana Pro erzeugten Bilder werden mit einem digitalen SynthID-Wasserzeichen versehen, sodass ihre Herkunft identifizierbar ist
- In der Gemini-App können Bilder hochgeladen werden, um direkt zu prüfen, ob sie „von Google AI erzeugt“ wurden
- Bilder von kostenlosen und Pro-Nutzern erhalten zusätzlich ein sichtbares Wasserzeichen (Gemini sparkle)
- Ultra-Abonnenten und Entwicklerwerkzeuge in AI Studio bieten eine saubere Leinwand ohne Wasserzeichen
- SynthID soll künftig auch auf Audio- und Videoinhalte ausgeweitet werden
Verwandte Materialien
- Build with Nano Banana Pro: Einführung in das Gemini-3-Pro-Image-Modell für Entwickler
- Prompting Tips for Nano Banana Pro: Leitfaden für effektives Prompting
- AI Image Verification in Gemini App: Erklärung der bildbasierten Verifikationsfunktion auf Basis von SynthID
Keine zusätzlichen Informationen im Originaltext
1 Kommentare
Hacker-News-Kommentare
Diese Woche fühlte es sich an, als würde Google sich wie Godzilla bewegen
Ich habe zum ersten Mal eine Karte in AI Studio hinterlegt, aber der Bezahlvorgang war viel zu kompliziert
Obwohl ich alles eingerichtet hatte, bekam ich weiterhin den Fehler „permission denied“
Wenn man so weit gehen muss, um überhaupt bezahlen zu können, ist es egal, wie gut das Modell ist
Das Team arbeitet intensiv daran, die Zugänglichkeit zu verbessern
Um Reibung bei der Bezahlung zu verringern, bereiten wir ein integriertes Bezahlsystem in AI Studio vor, das im Januar weltweit eingeführt werden soll
Bei anderen Diensten reicht ein API-Key, aber bei Google muss man ein Konto erstellen → eine App erstellen → den Dienst aktivieren → eine OAuth-App erstellen → JSON herunterladen
Die Anmeldung ist deutlich einfacher, und es werden verschiedene AI-Modelle angeboten
Für einen einfachen Test ein GCP-Projekt anzulegen, ist einfach zu viel
Ich habe mit Nano Banana Pro alle Prompt-Tests rund ums Editieren erneut durchgeführt
SHRDLU, M&M Van Halen und der Scorpio-Street-Test wurden bestanden
Die Ergebnisse sind hier zu sehen
NB Pro zeigte klar bessere Leistung als das ursprüngliche NB
Der Test selbst war wohl nicht ganz passend
Das Ergebnis ist nicht perfekt, aber es hat die Anforderung erfüllt
Prompts, die klares Wissen erfordern, werden bestanden, aber ein einfach schiefes Objekt geradezurichten, bleibt weiterhin schwierig
Statt eines Sliders wäre eine gleichzeitige Anzeige von Original und Ergebnis wohl intuitiver
Ich habe mehrere Monate lang Nano-Banana-Prompt-Engineering analysiert, und nun hat Google eine neue Version veröffentlicht
Das neue Modell funktioniert direkt im gemimg-Paket
Allerdings ist es teuer, daher ist es schwer, es als Standardmodell festzulegen
Laut Dokumentation erzeugt das Modell bis zu zwei Zwischenbilder (Thinking-Phase)
Das könnte ein Grund für die höheren Kosten sein
Das Modell erkannte links und rechts aus Sicht des Betrachters und platzierte es deshalb falsch
Solche Fehler bei relativen Anweisungen sind auch im medizinischen Bereich ein häufiges Problem
Beispiel-Link
Die meisten Prompts funktionieren auch mit NB Pro gut
Guide-Link
Meine Versuchsergebnisse teile ich ebenfalls
Die „Transformation im Studio-Ghibli-Stil“ ist deutlich präziser als bei ChatGPT
Allerdings geraten zu realistische Bilder manchmal ins Uncanny Valley
Es hat mich erneut daran erinnert, wie wichtig anpassungsfähiges Tool-Design ist, um auf technische Veränderungen zu reagieren
Die Fähigkeit, mit kurzen Prompts eine komplette Infografik zu erzeugen, ist erstaunlich
Ich habe nach „Wie das Datasette-Projekt funktioniert“ gefragt und ein erstaunlich ausgereiftes Ergebnis bekommen
Ergebnis-Link
Bisher wurde Text separat gerendert, aber jetzt scheint alles in einem Durchgang möglich zu sein
Siehe Ergebnisbild
player.html, erzeugt es gute InfografikenGitHub-Link
Es wandelt sie auch automatisch in ein quadratisches Format für Instagram um
AI-Bilder erzeugen keine offensichtlich sichtbaren Artefakte mehr, aber wegen ihres Stils wirken sie weiterhin erkennbar nach AI
Gerade Infografiken ließen sich noch von menschgemachten unterscheiden
Das wirkt wie ein Ergebnis eines überrepräsentierten bestimmten Datensatzes
Auf Mittelwerte trainierte Modelle erzeugen einen „durchschnittlichen Bildraum“
Dieses Beispiel zeigt, dass mit Feintuning auch realistische Resultate möglich sind
Manche Modelle entfernen Stil absichtlich, wodurch ein künstlicher Eindruck entsteht
Offene Modelle lassen sich mit LoRA fein abstimmen, bei geschlossenen Modellen ist das schwierig
Wenn man originelle Bilder will, muss schon der Prompt kreativer sein
Deshalb gilt die Bildbearbeitungsfunktion als die nächste Aufgabe
Frühe Modelle hatten geringere Qualität, lieferten aber interessantere Ergebnisse
SynthID ist ein guter erster Schritt, hat aber die Grenze, dass sich AI-Inhalte ohne Wasserzeichen nicht unterscheiden lassen
Große Unternehmen sollten standardisierte Identifikatoren einführen
Hätte es solche Regeln auch für Photoshop gegeben, wäre Kreativität stark eingeschränkt worden
Also eine Funktion, die beweist, dass ein Foto mit einer echten Kamera aufgenommen wurde, und es in iMessage mit einem Verifizierungszeichen versieht
Am Ende werden die wichtigsten kommerziellen Modelle Wasserzeichen standardmäßig erzwingen
Das wird ein endloses Katz-und-Maus-Spiel
2D-Animatoren können vorerst noch beruhigt sein
Ich habe versucht, Sprite-Sheets zu erzeugen, aber statt natürlicher Zwischenbewegungen (Interpolation) wurden nur Frames schlicht wiederholt
Sammlung offizieller Materialien
Developer Blog
DeepMind-Seite
Model-Card-PDF
SynthID-Einführung
Dieses Modell ist das erste Bildgenerierungsmodell, das meinen Klavier-Test bestanden hat
Es wiederholt das Muster der schwarzen Tasten pro Oktave korrekt
Frühere Modelle haben die Tastenanordnung immer falsch dargestellt
Auch Aufforderungen, bestimmte Töne farblich zu markieren, werden zufällig umgesetzt
Das Klavier ist ein standardisiertes Objekt und müsste daher reichlich Trainingsdaten haben, trotzdem fehlt es an Verständnis
Dass über alle 88 Tasten hinweg Konsistenz gehalten wurde, ist beeindruckend
Jetzt kann das Modell Text natürlich innerhalb eines Bildes rendern
Eine Funktion, die früher unmöglich war, fühlt sich jetzt fast wie ein Standard an
Feines Design bei Kurven, Abständen und Balance macht der Mensch noch immer besser selbst