11 Punkte von GN⁺ 2025-11-21 | 1 Kommentare | Auf WhatsApp teilen
  • Nano Banana Pro ist Googles neuestes Modell zur Bildgenerierung und -bearbeitung auf Basis von Gemini 3 Pro und bietet Funktionen, um visuelle Ideen präzise umzusetzen
  • Durch verbessertes Text-Rendering und mehrsprachige Unterstützung lassen sich gut lesbare Texte für Poster, Mockups und Infografiken direkt in Bilder einfügen
  • Mit Kombination von bis zu 14 Bildern, konsistenter Darstellung von 5 Personen und Unterstützung für 2K- bis 4K-Auflösungen wird die Erstellung hochwertiger visueller Inhalte unterstützt
  • Integriert in verschiedene Google-Produkte wie Google Ads, Workspace, die Gemini-App und AI Studio, sodass Verbraucher, Profis und Entwickler es gleichermaßen nutzen können
  • SynthID-Wasserzeichen sorgen für Transparenz bei KI-generierten Bildern, und die Erkennungsfunktion für KI-Inhalte wird direkt in der Gemini-App bereitgestellt

Überblick über Nano Banana Pro

  • Nano Banana Pro ist ein Modell, das mithilfe von Gemini 3 Pros Schlussfolgerungsfähigkeit und Weltwissen visuelle Informationen präzise visualisiert
    • Eine Upgrade-Version, die nach der vorherigen Version Nano Banana (Gemini 2.5 Flash Image) veröffentlicht wurde
    • Unterstützt verschiedene Designaufgaben wie Ideenfindung, Datenvisualisierung und das Umwandeln handschriftlicher Notizen in Diagramme

Hauptfunktionen

  • Präzise und kontextreiche visuelle Inhalte erzeugen
    • Mit den fortgeschrittenen Schlussfolgerungsfähigkeiten von Gemini 3 lassen sich faktenbasierte Inhalte wie Bildungsinfografiken und Diagramme erstellen
    • In Verbindung mit Echtzeitinformationen aus der Google Search können Wetter, Sport und Rezepte als Echtzeitdaten visualisiert werden
  • Mehrsprachiges Text-Rendering
    • Text innerhalb von Bildern wird präzise und gut lesbar dargestellt und kann in mehrere Sprachen übersetzt und lokalisiert werden
    • Eignet sich durch verschiedene Schriftarten, Texturen und Typografie-Stile für Poster oder Markeninhalte
  • Hochwertige visuelle Darstellung
    • Erstellung komplexer Kompositbilder mit Kombination von bis zu 14 Bildern und konsistenter Darstellung von 5 Personen
    • Bietet feingranulare Bearbeitungssteuerung wie lokale Bearbeitung, Anpassung des Kamerawinkels, Farbkorrektur und Wechsel der Beleuchtung
    • Unterstützt 2K- und 4K-Auflösungen sowie verschiedene Seitenverhältnisse für Print- und digitale Plattformen

Einsatzumgebungen

  • Für Verbraucher und Studierende
    • Nano Banana Pro kann in der Funktion „Create images“ der Gemini-App verwendet werden
    • Kostenlose Nutzer erhalten eine begrenzte Anzahl an Generierungen, danach wird auf das Standard-Nano-Banana-Modell umgestellt
    • Abonnenten von Google AI Plus, Pro und Ultra erhalten höhere Generierungslimits
  • Für Profis
    • Die Bildgenerierungsfunktion von Google Ads wurde auf Nano Banana Pro aktualisiert
    • Auch in Slides und Vids von Google Workspace nutzbar
  • Für Entwickler und Unternehmen
    • Erweiterte Unterstützung in Gemini API, Google AI Studio, Vertex AI, Antigravity und Gemini Enterprise
  • Für Kreative
    • Über das Tool Flow erhalten Videoproduzenten und Marketer eine feingranulare Steuerung auf Szenenebene

Identifikation und Transparenz von KI-generierten Bildern

  • Alle mit Nano Banana Pro erzeugten Bilder werden mit einem digitalen SynthID-Wasserzeichen versehen, sodass ihre Herkunft identifizierbar ist
    • In der Gemini-App können Bilder hochgeladen werden, um direkt zu prüfen, ob sie „von Google AI erzeugt“ wurden
    • Bilder von kostenlosen und Pro-Nutzern erhalten zusätzlich ein sichtbares Wasserzeichen (Gemini sparkle)
    • Ultra-Abonnenten und Entwicklerwerkzeuge in AI Studio bieten eine saubere Leinwand ohne Wasserzeichen
  • SynthID soll künftig auch auf Audio- und Videoinhalte ausgeweitet werden

Verwandte Materialien

  • Build with Nano Banana Pro: Einführung in das Gemini-3-Pro-Image-Modell für Entwickler
  • Prompting Tips for Nano Banana Pro: Leitfaden für effektives Prompting
  • AI Image Verification in Gemini App: Erklärung der bildbasierten Verifikationsfunktion auf Basis von SynthID

Keine zusätzlichen Informationen im Originaltext

1 Kommentare

 
GN⁺ 2025-11-21
Hacker-News-Kommentare
  • Diese Woche fühlte es sich an, als würde Google sich wie Godzilla bewegen
    Ich habe zum ersten Mal eine Karte in AI Studio hinterlegt, aber der Bezahlvorgang war viel zu kompliziert
    Obwohl ich alles eingerichtet hatte, bekam ich weiterhin den Fehler „permission denied“
    Wenn man so weit gehen muss, um überhaupt bezahlen zu können, ist es egal, wie gut das Modell ist

    • Es tut uns leid, dass die Erfahrung so unerquicklich war
      Das Team arbeitet intensiv daran, die Zugänglichkeit zu verbessern
      Um Reibung bei der Bezahlung zu verringern, bereiten wir ein integriertes Bezahlsystem in AI Studio vor, das im Januar weltweit eingeführt werden soll
    • Die Google APIs haben insgesamt eine viel zu hohe Einstiegshürde
      Bei anderen Diensten reicht ein API-Key, aber bei Google muss man ein Konto erstellen → eine App erstellen → den Dienst aktivieren → eine OAuth-App erstellen → JSON herunterladen
    • Wenn du einfach nur die API nutzen willst, empfehle ich Fal.ais Nano-Banana-Pro
      Die Anmeldung ist deutlich einfacher, und es werden verschiedene AI-Modelle angeboten
    • Ich nutze auch die Bezahlpläne von Claude und OpenAI, aber bei Gemini ist die Bezahlung so schwierig, dass schon der Versuch mühsam ist
      Für einen einfachen Test ein GCP-Projekt anzulegen, ist einfach zu viel
    • Die Hürden bei Googles AI-Produkten sind so groß, dass allein das Bauen eines besseren Developer-Frontends dafür schon eine Geschäftschance wäre
  • Ich habe mit Nano Banana Pro alle Prompt-Tests rund ums Editieren erneut durchgeführt
    SHRDLU, M&M Van Halen und der Scorpio-Street-Test wurden bestanden
    Die Ergebnisse sind hier zu sehen
    NB Pro zeigte klar bessere Leistung als das ursprüngliche NB

    • Im Giraffen-Editier-Test sah das Ergebnis von NB Pro besser aus als das von Seedream, aber die Bewertung ist umgekehrt ausgefallen
      Der Test selbst war wohl nicht ganz passend
    • NB Pro hätte den Giraffen-Test bestehen müssen
      Das Ergebnis ist nicht perfekt, aber es hat die Anforderung erfüllt
    • Der Schiefe-Turm-von-Pisa-Test war interessant
      Prompts, die klares Wissen erfordern, werden bestanden, aber ein einfach schiefes Objekt geradezurichten, bleibt weiterhin schwierig
    • Es wäre in jedem Test einfacher zu vergleichen, wenn das Originalbild immer mit angezeigt würde
      Statt eines Sliders wäre eine gleichzeitige Anzeige von Original und Ergebnis wohl intuitiver
    • Die Seite ist wirklich nützlich. Ich frage mich, ob ihr auch ein Text-zu-Bild-Benchmark mit NB Pro plant
  • Ich habe mehrere Monate lang Nano-Banana-Prompt-Engineering analysiert, und nun hat Google eine neue Version veröffentlicht
    Das neue Modell funktioniert direkt im gemimg-Paket
    Allerdings ist es teuer, daher ist es schwer, es als Standardmodell festzulegen
    Laut Dokumentation erzeugt das Modell bis zu zwei Zwischenbilder (Thinking-Phase)
    Das könnte ein Grund für die höheren Kosten sein

    • Das Prompt-Beispiel „Erdbeere im linken Auge, Brombeere im rechten Auge“ war interessant
      Das Modell erkannte links und rechts aus Sicht des Betrachters und platzierte es deshalb falsch
      Solche Fehler bei relativen Anweisungen sind auch im medizinischen Bereich ein häufiges Problem
      Beispiel-Link
    • Max’ Nano-Banana-Guide ist weiterhin gültig
      Die meisten Prompts funktionieren auch mit NB Pro gut
      Guide-Link
      Meine Versuchsergebnisse teile ich ebenfalls
    • Die Kosten pro Eingabebild liegen bei $0.0011, nicht bei $0.06
    • gemimg Version 0.3.2 wurde veröffentlicht, und die meisten Bildfehler in NB Pro wurden behoben
      Die „Transformation im Studio-Ghibli-Stil“ ist deutlich präziser als bei ChatGPT
      Allerdings geraten zu realistische Bilder manchmal ins Uncanny Valley
    • Der gemimg-Wrapper bleibt weiterhin nützlich
      Es hat mich erneut daran erinnert, wie wichtig anpassungsfähiges Tool-Design ist, um auf technische Veränderungen zu reagieren
  • Die Fähigkeit, mit kurzen Prompts eine komplette Infografik zu erzeugen, ist erstaunlich
    Ich habe nach „Wie das Datasette-Projekt funktioniert“ gefragt und ein erstaunlich ausgereiftes Ergebnis bekommen
    Ergebnis-Link

    • Diese Funktion könnte in SaaS die Erstellung von Event-Flyern grundlegend verändern
      Bisher wurde Text separat gerendert, aber jetzt scheint alles in einem Durchgang möglich zu sein
    • Daran, auf einer Klaviatur das mittlere C zu finden, ist es gescheitert
      Siehe Ergebnisbild
    • Selbst für ein Projekt mit kaum Informationen, player.html, erzeugt es gute Infografiken
      GitHub-Link
      Es wandelt sie auch automatisch in ein quadratisches Format für Instagram um
    • Ich frage mich, ob die Datasette-Infografik tatsächlich mit der realen Funktionsweise übereinstimmt
  • AI-Bilder erzeugen keine offensichtlich sichtbaren Artefakte mehr, aber wegen ihres Stils wirken sie weiterhin erkennbar nach AI
    Gerade Infografiken ließen sich noch von menschgemachten unterscheiden
    Das wirkt wie ein Ergebnis eines überrepräsentierten bestimmten Datensatzes

    • Menschen sind extrem empfindlich für feine visuelle Unterschiede
      Auf Mittelwerte trainierte Modelle erzeugen einen „durchschnittlichen Bildraum“
      Dieses Beispiel zeigt, dass mit Feintuning auch realistische Resultate möglich sind
    • Es ist nicht nur ein Datenproblem
      Manche Modelle entfernen Stil absichtlich, wodurch ein künstlicher Eindruck entsteht
      Offene Modelle lassen sich mit LoRA fein abstimmen, bei geschlossenen Modellen ist das schwierig
    • Die meisten Modelle werden mit Daten aus dem gesamten Web trainiert und liefern deshalb vorhersehbare Durchschnittsergebnisse
      Wenn man originelle Bilder will, muss schon der Prompt kreativer sein
    • Bei Texturen, Proportionen und Beleuchtung bleiben weiterhin subtile Fehler bestehen
      Deshalb gilt die Bildbearbeitungsfunktion als die nächste Aufgabe
    • Mit menschlichem Feedback feinabgestimmte Modelle lernen den „Durchschnittsgeschmack“, wodurch Individualität verloren geht
      Frühe Modelle hatten geringere Qualität, lieferten aber interessantere Ergebnisse
  • SynthID ist ein guter erster Schritt, hat aber die Grenze, dass sich AI-Inhalte ohne Wasserzeichen nicht unterscheiden lassen
    Große Unternehmen sollten standardisierte Identifikatoren einführen

    • Ich halte es für riskant, wenn Regierungen Wasserzeichen verpflichtend machen
      Hätte es solche Regeln auch für Photoshop gegeben, wäre Kreativität stark eingeschränkt worden
    • Apple wird wohl irgendwann etwas wie Real Photos einführen
      Also eine Funktion, die beweist, dass ein Foto mit einer echten Kamera aufgenommen wurde, und es in iMessage mit einem Verifizierungszeichen versieht
    • Unternehmen setzen Wasserzeichen wegen des Managements des erneuten Trainings mit Daten ein
      Am Ende werden die wichtigsten kommerziellen Modelle Wasserzeichen standardmäßig erzwingen
    • Wenn ein Standard-Identifier eingeführt wird, wird es auch Software geben, die ihn entfernt
      Das wird ein endloses Katz-und-Maus-Spiel
    • Es gibt das C2PA-Projekt, das versucht, dieses Problem zu lösen
  • 2D-Animatoren können vorerst noch beruhigt sein
    Ich habe versucht, Sprite-Sheets zu erzeugen, aber statt natürlicher Zwischenbewegungen (Interpolation) wurden nur Frames schlicht wiederholt

  • Sammlung offizieller Materialien
    Developer Blog
    DeepMind-Seite
    Model-Card-PDF
    SynthID-Einführung

  • Dieses Modell ist das erste Bildgenerierungsmodell, das meinen Klavier-Test bestanden hat
    Es wiederholt das Muster der schwarzen Tasten pro Oktave korrekt
    Frühere Modelle haben die Tastenanordnung immer falsch dargestellt

    • Aber sobald man vom Standard mit 88 Tasten abweicht, gibt es weiterhin viele Fehler
      Auch Aufforderungen, bestimmte Töne farblich zu markieren, werden zufällig umgesetzt
      Das Klavier ist ein standardisiertes Objekt und müsste daher reichlich Trainingsdaten haben, trotzdem fehlt es an Verständnis
    • Sich wiederholende Muster über lange Strecken konsistent beizubehalten, ist schwierig
      Dass über alle 88 Tasten hinweg Konsistenz gehalten wurde, ist beeindruckend
  • Jetzt kann das Modell Text natürlich innerhalb eines Bildes rendern
    Eine Funktion, die früher unmöglich war, fühlt sich jetzt fast wie ein Standard an

    • Dem stimme ich zu. Aber in Bereichen, in denen sich visuelle Gestaltung und Code überschneiden, etwa bei der Icon-Erstellung, bleibt es weiterhin schwach
      Feines Design bei Kurven, Abständen und Balance macht der Mensch noch immer besser selbst