1 Punkte von GN⁺ 3 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • Nano Banana 2 Lite, neu in der Gemini-Image-Familie von Google DeepMind, ist ein Modell für schnellere und günstigere Bildgenerierung und -bearbeitung und zielt darauf ab, die Kostenlast bei visuellen Aufgaben mit vielen Iterationen zu senken
  • Die Kernachsen sind niedrige Latenz und Kosteneffizienz im großen Maßstab; im Vergleich zu schwergewichtigeren Produktionsmodellen können Tausende Bilder zu geringeren Kosten erzeugt werden
  • Bei der Qualität unterstützt es unter Beibehaltung der Steuerbarkeit und Genauigkeit der Nano-Banana-Familie Charakterkonsistenz, präzise Bearbeitung und die Nutzung von Wissen über die reale Welt
  • Beispiele wie Space Lift, Gridscape, Peek-A-Word und Anywhere zeigen Nutzererlebnisse, die möglich werden, wenn Bildgenerierung schnell genug ist, um den App-Flow nicht zu unterbrechen
  • Bei kleinen Gesichtern, korrekter Rechtschreibung, Detaildarstellung, datenbasierten Ergebnissen, Übersetzung und Lokalisierung sowie komplexer Bearbeitung und Komposition können Fehler auftreten, daher ist eine Prüfung der generierten Ergebnisse erforderlich

Gemini-Image-Modell mit Fokus auf schnelle Generierung und niedrige Kosten

  • Nano Banana 2 Lite ist ein von Google DeepMind vorgestelltes Gemini-Image-Modell mit dem Ziel schneller Bildgenerierung und -bearbeitung bei niedrigen Kosten
  • Hauptnutzer sind Kreative, Unternehmen und Entwickler, zugeschnitten auf Workflows, in denen mehrere visuelle Ideen schnell erkundet werden
  • Google DeepMind bezeichnet das Modell als das bislang schnellste und effizienteste Gemini-Image-Modell und erklärt, dass es Hochgeschwindigkeits-Generierung und -Bearbeitung zu den niedrigsten Kosten bietet
  • Zugriff ist über folgende Wege möglich

Balance aus Geschwindigkeit, Kosten und Qualität

  • Der Kern ist die Reduzierung der Latenz, um schnelle Exploration und iterative Arbeit zu unterstützen
  • Bei groß angelegter Generierung lassen sich Tausende Bilder zu deutlich geringeren Kosten als mit schwergewichtigeren Produktionsmodellen erstellen
  • Die Qualität zielt darauf ab, die von Nano Banana erwartete Steuerbarkeit und Genauigkeit schneller bereitzustellen
    • Wahrung der Charakterkonsistenz
    • Präzise visuelle Bearbeitung
    • Nutzung von Wissen über die reale Welt
  • Je detaillierter gewünschte Elemente wie Charaktere, Hintergrund und Gesamtstimmung im Prompt beschrieben werden, desto näher kann das Ergebnis am beabsichtigten Bild liegen
  • Prompt-Leitfäden werden unter View prompt guide und Learn how to prompt bereitgestellt

App-Beispiele, die von schneller Bildgenerierung ausgehen

  • Space Lift ist eine App, die nach dem Hochladen eines Raumfotos sofort verschiedene Einrichtungskonzepte von Mid-Century Modern bis Bohemian Chic erzeugt
  • Gridscape erstellt auf einer unendlichen Leinwand Informationsknoten aus Texten und Bildern, die von Nano Banana 2 Lite und Gemini 3.1 Flash Lite erzeugt werden, wenn eine Frage eingegeben wird
    • Nutzer können verwandte Konzepte über klickbare Pfade tiefer erkunden
  • Peek-A-Word verwandelt ausgewählten Text in KI-generiertes Anschauungsmaterial und bietet kompakte Definitionen und Kontextbilder in einem gemeinsamen Raum
    • Der Fokus liegt darauf, den Lernfluss ohne App- oder Tab-Wechsel aufrechtzuerhalten
  • Anywhere ist eine interaktive 3D-Globus-App, die mit Nano Banana 2 Lite erstellt wurde
    • Beim Anhängen eines Bildes erzeugt sie eine personalisierte Postkartenserie mit Sehenswürdigkeiten aus aller Welt als Hintergrund
    • Nutzer können den Globus drehen und auf Fotos klicken, um Informationen zu virtuellen Reisezielen zu sehen

Vergleichsmetriken und Model Card

  • Google DeepMind bezeichnet Nano Banana 2 Lite als sein bislang effizientestes Modell und erklärt, dass es eine gute Balance aus Qualität und Geschwindigkeit bietet
  • Zum Vergleich gehört auch das Premium-Modell Nano Banana 2
  • Die Vergleichsbereiche umfassen Qualitätsaspekte der Bildgenerierung wie Prompt-Treue, Detaildarstellung und Steuerbarkeit
  • Im Performance-Abschnitt werden folgende Metriken genannt
    • Image Editing: Elo-Wert für Bildbearbeitung im Vergleich zu Konkurrenzmodellen laut lmarena.ai
    • Image Generation: Elo-Wert für Bildgenerierung im Vergleich zu Konkurrenzmodellen laut lmarena.ai
    • Latency per 1k resolution image: Latenz pro Bild in 1k-Auflösung auf Basis von Daten von artificialanalysis.ai
    • Price per 1k resolution image: Preis pro Bild in 1k-Auflösung
  • Die Model Card ist unter View model card verfügbar

So sehen Partner die Einsatzmöglichkeiten

  • Figma Weave bewertet Nano Banana 2 Lite als hilfreich dafür, dass Designer auf einer node-basierten Canvas mehr Ideen erkunden und einzigartige Bilder erstellen können
  • Manus AI testet Echtzeit-Bildgenerierung für Slide-Decks und Webseiten innerhalb autonomer Workflows
    • Die Geschwindigkeit sei für schnelle visuelle Iterationen von AI-Agenten und Ergebnisse innerhalb von Sekunden geeignet
    • Die Bildqualität wird als nahe an der von Nano Banana 2 insgesamt eingeschätzt
  • Artlist bewertet, dass Nutzer in ihren Ideen bleiben können, ohne auf das Tool zu warten, wenn die Generierung schneller wird als erwartet
  • Weekend gibt an, dass instant-ramen im sprachgesteuerten TV-Spiel Wit’s End bei der Erzeugung von 1k-Bildern etwa 2,7× schneller ist als Gemini 3.1 Flash Image
    • Text-zu-Bild, Bearbeitung und Multi-Image-Komposition werden als eine Drop-in-API verarbeitet
  • Latitude bewertet, dass Bildgenerierungsgeschwindigkeit in einer Engine wichtig ist, die während der Erkundung durch Spieler die Welt erzeugt, und dass instant-ramen visuelle Generierung schnell genug macht, um mit dem Spielerlebnis Schritt zu halten

Grenzen, die weiterhin geprüft werden müssen

  • Gemini kann vielfältige Bilder erzeugen, aber einige Funktionen werden noch verbessert, und generierte Bilder sollten direkt überprüft werden
  • Bei visueller und textlicher Genauigkeit kann es Schwierigkeiten mit kleinen Gesichtern, korrekter Rechtschreibung und detaillierter Darstellung in Bildern geben
  • Bei Daten- und Faktengenauigkeit ist das Wissen über die reale Welt umfangreich, aber nicht vollständig
    • Bei der Erstellung von Infografiken, Diagramm-Anmerkungen und komplexen Datendarstellungen können Informationen falsch interpretiert oder sachlich falsche Ergebnisse erzeugt werden
    • Datenbasierte Ausgaben müssen validiert werden
  • Bei Übersetzung und Lokalisierung sind zwar Textgenerierung und Übersetzung in mehreren Sprachen möglich, doch es kann Schwierigkeiten bei Grammatik, Rechtschreibung, kulturellen Nuancen und idiomatischen Ausdrücken geben
  • Bei komplexer Bearbeitung und Bild-Blending können bei Maskenbearbeitung, großen Lichtänderungen wie der Umwandlung von Tag in Nacht sowie bei der Komposition mehrerer Bilder unnatürliche Ergebnisse, visuelle Artefakte oder uneinheitliche Szenen entstehen
  • Charakterkonsistenz ist zwar eine Stärke, aber nicht immer exakt; Google DeepMind arbeitet daran, dies stabiler zu machen

Sicherheitsfunktionen und Hinweise zur Nutzung

  • Google DeepMind verwendet umfangreiche Filterung und Datenlabeling, um schädliche Inhalte in Datensätzen zu reduzieren und die Wahrscheinlichkeit schädlicher Ausgaben zu senken
  • Im Bereich Content-Sicherheit werden Red-Teaming und Evaluierungen durchgeführt, einschließlich Kindersicherheit und Repräsentation
  • Generierte Bilder enthalten aktuelle Datenschutz- und Sicherheitsfunktionen, und SynthID fügt direkt in Bilder ein unsichtbares digitales Wasserzeichen ein, damit KI-generierte Bilder identifiziert werden können
  • Informationen zu SynthID gibt es unter Learn more
  • LLMs wie Gemini 3.1 Flash-Lite Image können ungenaue oder anstößige Inhalte liefern, die nicht die Ansichten von Google repräsentieren
  • Beim Vertrauen in, Veröffentlichen oder Nutzen von von LLMs bereitgestellten Inhalten ist Vorsicht geboten; auf sie sollte man sich nicht für professionelle Beratung etwa in Medizin, Recht oder Finanzen verlassen

1 Kommentare

 
GN⁺ 3 시간 전
Hacker-News-Meinungen
  • Das erste Beispiel zur Erstellung von Wohnungsinterieurs finde ich unbeschreiblich unangenehm. Heutzutage jagen Immobilienmakler jede alte, unverkäufliche Wohnung durch einen AI-Filter, sodass man sich erst durch Dutzende Bilder klicken muss, die zeigen, „so könnte es aussehen, wenn man es im Ikea-Stil einrichtet“, bevor man sieht, was für ein schreckliches Objekt sie tatsächlich zu einem absurden Preis verkaufen wollen.

    • Ich finde, so etwas sollte als illegale Falschdarstellung gelten. Beim Einsatz von AI gibt es viel zu viele Grauzonen.
    • Für mich grenzt das fast an Betrug. Auf Streeteasy sah eine Wohnung so aus, als hätte man Schreibtisch, Kommode und Queensize-Bett alle „untergebracht“, aber es war offensichtlich, dass das Bildmodell die Möbel einfach auf Proportionen geschrumpft hatte, die es in der Realität nicht gibt.
      In das echte Schlafzimmer passte gerade so ein einziges Queensize-Bett ;(
    • Ich stimme zu 100 % zu, dass es sozial wie rechtlich nicht akzeptabel sein sollte, das tatsächliche Aussehen einer Wohnung zu verfälschen. Allerdings waren Bildmodelle bei der Renovierung meines Badezimmers ziemlich hilfreich für Designentscheidungen.
      Besonders nützlich war es, wenn ich mir schwer vorstellen konnte, wie der gesamte Raum aussehen würde, wenn bestimmte Bereiche gefliest sind.
    • In NYC, wo ich wohne, ist es seit über zehn Jahren üblich, solche retuschierten Bilder hochzuladen.
      Früher war es nur teurer, jemanden dafür zu engagieren.
      Die retuschierten Bilder zeigen immer dieselben hellen Wände und grauen Möbel im Magazin-Stil.
      AI hat es nur günstiger gemacht; letztlich musste es genau darauf hinauslaufen.
      Solche retuschierten Bilder haben immerhin ein kleines Wasserzeichen, das auf die Bearbeitung hinweist.
    • Schon ein guter Fotograf kann enorm viel bewirken. Als ein Freund sein Haus verkaufte, war ich überrascht, wie gut es auf den Inseratsfotos aussah und wie groß es wirkte, obwohl ich wusste, dass es nicht klein ist.
      Das Problem gab es schon vor AI-Filtern, es ist also nicht neu, aber jetzt ist es deutlich schlimmer und billiger geworden.
  • Ich habe Early Access bekommen, um dieses Modell zu testen. Das lief über die Arbeit; Google mag mich persönlich also weiterhin nicht, lol.
    Es funktioniert wie hier beworben und wirkt bei Dingen wie gutem Text-Rendering wie eine destillierte Version von Nano Banana 2. Nano Banana 1 ist in diesem Bereich deutlich schwächer.
    Bei detaillierten Prompts ist es natürlich bei Weitem nicht auf dem Niveau des normalen Nano Banana 2. Mein größter Kritikpunkt ist, dass man bei NB2 das Seitenverhältnis programmatisch erzwingen kann, bei NB2L aber nicht.
    Allerdings ist der Preis von 0,034 $ pro Bild höher als erwartet. Normalerweise hängt der Preis mit der Generierungszeit zusammen; es generiert in der halben Zeit von Nano Banana 1, während Nano Banana 1 0,039 $ pro Bild kostet.
    Googles Behauptung, man könne eine NB1-Pipeline direkt durch NB2L ersetzen, ist plausibel.
    Gestern hat Google angekündigt, in der Gemini-App kostenlose Bilderzeugung zu erlauben (https://blog.google/innovation-and-ai/products/gemini-app/pe...), aber nicht angegeben, welches Modell verwendet wird. Ich denke, die Hauptmotivation für Nano Banana 2 Lite liegt genau darin.

    • Über Vertex kann man auch bei NB2 Lite das Seitenverhältnis programmatisch festlegen [1]. Ich habe das Programm aktualisiert, mit dem ich Bilder für GenAI Showdown erstelle, die Modell-ID auf gemini-3.1-flash-lite-image geändert und konnte Seitenverhältnisse wie 16:9 und 4:3 verwenden.
      [1] - https://cloud.google.com/developers/vertex-ai
    • Mich würde interessieren, was für eine Arbeit du machst, bei der du automatische Bilderzeugung in großem Maßstab brauchst.
  • Es ist ganz okay, aber es sitzt auf Googles kaputtem AI Studio. Die Hälfte der Funktionen dort kann ich nicht nutzen, weil sie ein Google-One-Konto erfordern.
    Ich habe ein Workspace-Konto, bin also nicht berechtigt und kann auch nicht wechseln, weil Google One keine eigene Domain unterstützt.
    Muss ich also zwei Konten betreiben und dafür bezahlen, wenn ich sowohl eine coole E-Mail-Adresse als auch Banana nutzen will? Ich komme langsam zu dem Schluss, dass die richtige Anzahl bezahlter Google-Konten hier 0 ist.

    • Ich war in einer ähnlichen Situation. Google muss die User Experience bei Modellnutzung und Abrechnung wirklich verbessern.
      Meine Lösung war OpenRouter. In Chats für Entwicklung und Tests kann ich Bilder mit Google-Modellen erzeugen und denselben Prompt auch parallel mit anderen Modellen laufen lassen. Für leichte Bilderzeugung ist das sehr praktisch.
    • Bei mir ist es fast genauso. Ich bezahle privat sowohl für One als auch für Workspace, und es ist unklar, welches von beiden ich für solche Funktionen verwenden soll.
      Meist nutze ich standardmäßig das private Konto, das mehr Kontext hat, aber dann sind ein paar zusätzliche Schritte nötig, um Materialien aus Workspace Drive einzubinden.
      Und Dinge wie Project Genie sind in Workspace überhaupt nicht verfügbar, was sich ziemlich seltsam anfühlt.
    • Das ist ein bisschen unverhohlene Werbung, aber burlap erlaubt es, Keys von Gemini Studio oder OpenAI einzutragen und Dinge auszuprobieren, ohne die Weboberfläche anfassen zu müssen. Deshalb habe ich es gebaut.
      https://www.burlap.app/download
  • Die Geschwindigkeit ist definitiv beeindruckend. Das normale NB2 braucht etwa 30 Sekunden pro Bild, dieses hier scheint unter 5 Sekunden zu liegen.
    Ich habe eine App gebaut, die illustrierte Geschichten erstellt, in denen Kinder als Figuren vorkommen. Ich wollte den Illustrationsstil beibehalten, aber die Ähnlichkeit mit den Kindern priorisieren.
    Ich habe mehrere Modelle getestet, aber keines scheint auch nur annähernd so gut darin zu sein, die Ähnlichkeit in stilisierter Form zu erhalten. Andere Modelle machen daraus eher generische Figuren.
    Ich freue mich darauf, dieses Modell ins Onboarding der App einzubauen, damit Nutzer möglichst schnell ihren „Aha“-Moment haben. Über 30 Sekunden warten zu müssen, ist nicht ideal.
    Für die eigentlichen Illustrationen werde ich aber weiterhin das normale NB2 verwenden. Diese Lite-Version hat, wie andere schon gesagt haben, noch leichte Probleme bei Nuancen und Konsistenz.

    • Ich habe etwas Ähnliches versucht, bekam aber eine Fehlermeldung, dass Dinge mit Kindern nicht möglich seien. Hat sich das geändert?
  • In der Vergleichstabelle wurde ChatGPT nicht aufgenommen. Das sagt für sich schon eine Menge aus

    • Das ist erwähnenswert. Für alle, die es nicht wissen: ChatGPT Image 2 hat mit 1387 einen absurd hohen ELO-Wert und liegt mehr als 100 Punkte über dem zweitplatzierten Modell mit 1273 (https://arena.ai/leaderboard/text-to-image)
      Dafür ist die Latenz ein Problem, und die High-Einstellung von ChatGPT Image 2 ist mit etwa 2 Minuten bei 1024x1024 langsam
      So oder so hätte es die Tabelle unbrauchbar verzerrt, wenn man es aufgenommen hätte
      Ich würde gern einen Beitrag über ChatGPT Image 2 schreiben, aber inzwischen scheinen sich die Leute nicht mehr für detailreiche Bildgenerierung zu interessieren. Und das, obwohl ChatGPT Image 2 in den bisherigen Tests alles dominiert
  • Es ist etwas überraschend, dass Groks Bildmodell Nano Banana bei fast allen hier hervorgehobenen Metriken schlägt

    • Ist das wirklich so? Habe ich etwas übersehen? Erstens scheint das nicht zu stimmen, und die Nicht-Lite-Versionen scheinen Grok insgesamt zu schlagen
      Zweitens ist das von vornherein ein kostengünstiges Modell für Massengenerierung und kein hochmodernes Frontier-Modell, daher sind niedrigere Benchmark-Werte erwartbar
  • Nano Banana Pro hat mir gefallen. Gibt es schon lokale Alternativen? Ich habe von Qwen Image, Klein und neuerdings Krea gehört und frage mich, was empfehlenswert ist

    • Krea-2 ist hervorragend. Wenn man mit der restriktiven Lizenz, der Ausgabegeschwindigkeit und JSON-Prompting leben kann, kommt Ideogram 4 den State-of-the-Art-Modellen wohl am nächsten
      In meinem Profil gibt es im GenAI Showdown Vergleichsbenchmarks mit lokalen und proprietären Modellen
      Tatsächlich hat es besser abgeschnitten als Gemini 2.5, also das ursprüngliche NB, was ziemlich beeindruckend ist
    • Krea ist gut. Informationen zu öffentlich verfügbaren State-of-the-Art-Modellen findet man bei r/StableDiffusion
  • Bei Bildgenerierung bin ich ziemlich weit zurück, ich nutze sie nur gelegentlich für Rollenspiel-Token, Spielereien oder temporäre Assets für den Eigengebrauch. Nach meinen Maßstäben ist das hier verrückt gut
    Man kann in etwa 2 Sekunden ein Bild erzeugen. Früher brauchte ChatGPT für ein Bild derselben Qualität 30 Sekunden bis 1 Minute
    Ich verstehe die negative Reaktion hier nicht

    • Trotzdem sind die Details bei ChatGPT deutlich besser. Es kann auch komplexe sechsteilige Comics erstellen, bei denen Nano Banana nicht mithalten kann
      Und ein großer Teil der negativen Reaktionen kommt von Leuten, die schon das Konzept von AI Art an sich nicht mögen und hoffen, dass es scheitert
    • Die Anwendungsfälle sind unterschiedlich.
      Wer an Projekten arbeitet, bei denen das Bild selbst im Mittelpunkt steht, möchte pro Bild mehr ausgeben
      Wenn das Bild dagegen nur Teil eines Berichts ist, ein Wegwerf-Ergebnis oder in eine Demo kommt, ist ein günstiger Ansatz besser
  • Ich frage mich, wie man so etwas wie den Echtzeit-Prototyp im Abschnitt „hands on“ auf dieser Seite bekommt
    In gemini.g kann man zwar ein Canvas hinzufügen oder Bildgenerierung nutzen, aber ich bin mir nicht sicher, wo man den Prompt „space lift“ eingeben muss, damit es wie in der Demo aussieht

  • Wow, die Latenz ist massiv gesunken. Das dürfte einige neue Anwendungsfälle eröffnen, auch wenn die verlinkte Webseite die Unterschiede zwischen den Modellen nicht besonders verständlich erklärt
    Nach meiner persönlichen Erfahrung mit allgemeinen Bildmodellen ist Google für meinen Workflow allerdings am besten. Anbieter aus Fernost habe ich allerdings noch nicht ausprobiert
    Mich würde interessieren, was andere darüber denken