Gemini 2.5 Flash Image

(developers.googleblog.com)

1 Punkte von GN⁺ 2025-08-27 | 1 Kommentare | Auf WhatsApp teilen

Google hat Gemini 2.5 Flash Image, ein modernstes Modell zur Bildgenerierung und -bearbeitung, vorgestellt
Nutzer können mehrere Bilder zu einem zusammenführen, Charakterkonsistenz wahren und Zielbilder per natürlicher Sprache transformieren
Das Modell wird Entwicklern und Unternehmen über Google AI Studio, Gemini API und Vertex AI bereitgestellt
Es gibt verschiedene Anwendungsbeispiele wie Bildkomposition, vorlagenbasierte Generierung und programmierbare Bearbeitung
In von der AI erzeugte Bilder wird das unsichtbare digitale Wasserzeichen SynthID eingebettet, sodass sie als generierte/bearbeitete Bilder erkennbar sind

Einführung in Gemini 2.5 Flash Image

Google hat Gemini 2.5 Flash Image (Codename nano-banana) vorgestellt. Das Modell unterstützt Bildgenerierung und -bearbeitung, Komposition aus mehreren Bildern, Wahrung der Charakterkonsistenz sowie umfassende Bildmodifikationen auf Basis natürlichsprachlicher Anweisungen. Außerdem nutzt es Geminis Weltwissen, um im Vergleich zu bestehenden Bildgenerierungsmodellen eine tiefere Bearbeitung und höhere Generierungsqualität zu bieten

Die frühere Version von Gemini 2.0 Flash bot Vorteile wie geringe Latenz, Kosteneffizienz und einfache Nutzung, wurde aber auf Wunsch der Community um höhere Qualität und mehr kreative Kontrolle erweitert

Das Modell ist ab sofort als Preview über Gemini API, Google AI Studio und Vertex AI verfügbar. Der Preis liegt bei 30,00 $ pro 1 Million Output-Token; pro Bild werden 1290 Token (0,039 $) berechnet. Für andere Modalitäten bei Ein- und Ausgabe gilt ebenfalls das Preismodell von Gemini 2.5 Flash

Praxisbeispiele

Der Build Mode in Google AI Studio wurde neu überarbeitet, sodass sich Funktionen von Gemini 2.5 Flash Image in benutzerdefinierten AI-Apps einfach testen und entwickeln lassen. Apps können direkt per Prompt erstellt oder frei aus bereitgestellten Templates remixt werden. Fertige Apps lassen sich direkt aus AI Studio veröffentlichen oder als Code auf GitHub speichern

Beispiel-Prompt: „Erstelle eine Bildbearbeitungs-App, in der Nutzer Bilder hochladen und verschiedene Filter anwenden können“

Charakterkonsistenz beibehalten

Eine zentrale Herausforderung der Bildgenerierung — die konsistente äußere Erscheinung von Charakteren oder Objekten — lässt sich wirksam bewältigen. So kann dieselbe Person natürlich in mehreren Umgebungen platziert, ein Produkt aus verschiedenen Winkeln und in unterschiedlichen Setups erzeugt oder Marken-Assets konsistent generiert werden

Über eine benutzerdefinierte Template-App in Google AI Studio lässt sich die Charakterkonsistenz demonstrieren; darauf aufbauend kann der Code direkt angepasst werden

Darüber hinaus zeigt das Modell besondere Stärken bei der Bildgenerierung auf Basis visueller Templates. Immobilienkarten, Mitarbeiterausweise oder Produkt-Mockups für Kataloge lassen sich ebenfalls in großer Zahl aus einem einzigen Design-Template generieren

Prompt-basierte Bildbearbeitung

Schon mit natürlichsprachlichen Anweisungen unterstützt das Modell partielle Transformationen und präzise lokale Bearbeitungen. Zum Beispiel sind Hintergrundunschärfe, das Entfernen von Flecken auf Kleidung, das Löschen von Personen aus Fotos, das Ändern der Pose eines Motivs oder das Kolorieren von Schwarzweißfotos mit einem einzigen Prompt möglich

Damit sich diese Funktionen direkt ausprobieren lassen, gibt es auch eine Foto-Editing-Template-App mit UI- und Prompt-basierter Bedienung

Natives Weltwissen

Bestehende Bildgenerierungsmodelle erzeugen zwar oft ästhetische Bilder, haben aber häufig Defizite beim semantischen und tieferen Verständnis der realen Welt. Gemini 2.5 Flash Image basiert auf Weltwissen und zeigt dadurch gerade in neuen Anwendungsszenarien besondere Stärken

Zum Beispiel kann es handgezeichnete Diagramme lesen und verstehen, realistische Fragen beantworten oder komplexe Bearbeitungsanweisungen ausführen. Diese Eigenschaften lassen sich direkt in einer interaktiven Educational-Tutor-App für AI Studio erleben

Komposition aus mehreren Bildern

Das Modell kann mehrere Eingabebilder interpretieren und zusammenführen, um komponierte Bilder zu erzeugen. Objekte lassen sich in andere Szenen einsetzen, Räume mit neuen Farben und Texturen restylen oder Bilder in einem einzigen Prompt verschmelzen

Dafür stellt AI Studio auch eine Template-App bereit, mit der sich Produktbilder per Drag-and-Drop schnell in neue Szenen komponieren lassen

Einstieg für Entwickler

Entwickler können sofort mit der offiziellen Dokumentation loslegen; das Modell wird derzeit als Preview angeboten. Alle im Text vorgestellten Demo-Apps wurden in Google AI Studio mit vibe code erstellt und lassen sich allein per Prompt remixen und anpassen

In Zusammenarbeit mit OpenRouter.ai ist das Modell für mehr als 3 Millionen Entwickler weltweit nutzbar und derzeit das erste Modell auf OpenRouter mit Unterstützung für Bildgenerierung. Durch die Partnerschaft mit fal.ai soll die Nutzung auch in der breiteren Community für generative Medien weiter ausgebaut werden

Alle mit Gemini 2.5 Flash Image generierten oder bearbeiteten Bilder enthalten ein unsichtbares digitales SynthID-Wasserzeichen, sodass sie als AI-generierte Bilder identifizierbar sind

Python-Beispielcode

from google import genai
from PIL import Image
from io import BytesIO

client = genai.Client()

prompt = "Create a picture of my cat eating a nano-banana in a fancy restaurant under the gemini constellation"

image = Image.open('/path/to/image.png')

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[prompt, image],
)

for part in response.candidates[0].content.parts:
  if part.text is not None:
    print(part.text)
  elif part.inline_data is not None:
    image = Image.open(BytesIO(part.inline_data.data))   
    image.save("generated_image.png")

Der obige Code zeigt ein Beispiel dafür, wie ein Prompt und ein Bild gemeinsam eingegeben werden, um mit Gemini 2.5 Flash Image ein Ergebnis zu erzeugen

Entwickler-Feedback und weitere Pläne

Google will sich weiterhin auf das Rendern langer Texte, die weitere Verbesserung der Charakterkonsistenz sowie realistischere Darstellung und mehr Details konzentrieren. Feedback wird im Entwicklerforum und auf X (ehemals Twitter) entgegengenommen; zugleich hofft das Unternehmen auf vielfältige Nutzung durch Entwickler

1 Kommentare

GN⁺ 2025-08-27

Hacker-News-Kommentare

Das fühlt sich im Bereich der Bildbearbeitungsmodelle wie der GPT-4-Moment an.
Gemini 2.5 Flash, das als Nano Banana bezeichnet wird, ist kaum zu glauben gut.
In lmarena hat es satte 171 Elo-Punkte zugelegt.
Wenn man auf Twitter nach nano banana sucht, sieht man eine Menge beeindruckender Ergebnisse.
Als Beispiel siehe diesen Tweet.
- Ich habe es ein paar Wochen lang selbst getestet.
  Manchmal kommen wirklich beeindruckende Ergebnisse heraus, aber um das gewünschte Bild zu bekommen, muss man den Prompt oft mehrfach ausprobieren.
  Es ist kein Alleskönner, aber definitiv ein riesiger Fortschritt und gehört zum Besten, was es derzeit gibt.
- Im dritten Beispiel werden die Hände seltsam dargestellt.
  Es wirkt, als könne das Modell sich nicht entscheiden, in welche Richtung sie liegen sollen.
  Allerdings ist das kein von Gemini verursachtes Problem, sondern war schon im Originalbild vorhanden.
- Es sieht so aus, als wären alle Kombinationen rund um "nano banana" als Domains mit eigener UI registriert worden.
  Ich frage mich, ob Zwischenhändler, die auf populäre Modellnamen aufspringen, auf Credit-Arbitrage aus sind.
- Vor dem Aufkommen von AI wurde Google oft dafür kritisiert, weltklasse Ingenieurstalent nur für den Verkauf von Werbung einzusetzen.
  Aber im AI-Zeitalter kann dieses Talent nun für Produktplatzierung genutzt werden.
  Wir sind wirklich weit gekommen.
- Ein weiterer kleiner Wermutstropfen ist, dass die bearbeitete pinke Daunenjacke leicht vom Referenzbild abweicht.
  Wenn man dieses Modell für Produktwerbung nutzt oder empfindlich auf Details reagiert, könnte das störend sein.
Ich habe meine GenAI-Bildvergleichsseite aktualisiert.
Die Seite konzentriert sich strikt auf die Einhaltung von Text-zu-Bild-Prompts.
Das neue Google-Gemini-2.5-Flash-Modell (nano-banana) ist jetzt auch enthalten.
Das Modell trifft 8 von 12 Prompts exakt und kommt fast an die Top-Modelle Imagen und gpt-image-1 heran.
Gegenüber Gemini Flash 2.0 ist das ein großes Upgrade.
Der Erstplatzierte gpt-image-1 liegt nur bei Labyrinth und Neunzackstern knapp vorn.
Am erstaunlichsten ist, dass gpt-image-1 seit fast 6 Monaten die Spitze hält (in diesem Bereich sind 6 Monate praktisch eine Ewigkeit).
Als "Editor" ist gpt-image-1 allerdings fast unbrauchbar, weil es Bilder ganzheitlich verändert, statt wie Kontext, Qwen oder Nano-Banana per Inpainting nur Teile zu bearbeiten.
Vergleichslink für OpenAI_4O, Imagen_4, Gemini Flash 2, Nano-Banana usw.
- Ich habe das Gefühl, dass es einen separaten Benchmark für Satzbearbeitung braucht.
- gpt-image-1 ist als "Editor" unbrauchbar
  Genau deshalb habe ich den Thread geöffnet.
  Ich finde den Ansatz, die Prompt-Einhaltung zwischen Modellen zu vergleichen, wirklich großartig.
  Da Inpainting-artige Prompts gerade aufkommen, würde mich interessieren, ob du planst, auch Bearbeitungsfunktionen hinzuzufügen.
- Ich verstehe nicht ganz, warum Hunyuan, OpenAI 4o und Gwen den Oktopus-Test als bestanden gewertet bekommen.
  Sie decken nicht wirklich "jeden Tentakel" ab.
  Midjourney zieht der Sockenpuppe 9 Socken auf 8 Arme.
- Es ist interessant, dass die Ergebnisse von Imagen 4 und Gemini 2.5 Flash in einigen Testfällen so ähnlich aussehen.
  Vielleicht erzeugt Gemini 2.5 Flash im Hintergrund zuerst mit Imagen (Diffusionsmodell) ein Basisbild und bearbeitet es dann auf Gemini-Seite weiter, um die Prompt-Einhaltung zu verbessern.
- Ich mag die Seite wirklich sehr.
  Kennst du zufällig auch eine Seite, die vergleicht, wie gut verschiedene Modelle Stilrichtlinien einhalten, etwa Illustrationen im exakt gleichen Stil?
  Ich fände es persönlich großartig, wenn so eine Funktion noch ergänzt würde.
  Zum Beispiel würde ich gern mehrere Bilder im Stil eines Künstlers vorgeben und dann vergleichen, ob ein Modell weitere Illustrationen im gleichen Stil erzeugen kann.
  Das wäre bei Buchillustrationen und anderen Fällen mit konsistentem Stil sehr nützlich.
Gemini 2.5 Flash Image ist das einzige Modell, das mehrere Bilder gleichzeitig ohne merkwürdige Workarounds verarbeiten kann.
Zum Beispiel muss man bei Flux Kontext mühsam Bilder vorher zusammenführen, wenn man "das erste Bild in das zweite einfügen" will.
Dieses Modell lässt sich dagegen ohne solche Umstände verwenden und man kann sogar mehr als zwei Bilder eingeben (auch wenn es bei zu vielen verwirrend werden kann).
In meinen kurzen Tests scheint es auch bei langen Prompts eine gute Einhaltung zu zeigen, und syntaktische Formulierungen wirken besser.
Ich experimentiere weiter, weil es wahrscheinlich noch mehr, bisher nicht entdeckte Steuerungsmöglichkeiten gibt.
Der Preis liegt ebenfalls auf ähnlichem Niveau wie bei Konkurrenzmodellen, daher erwarte ich große Veränderungen im Markt.
- Diese Funktion macht wirklich Spaß.
  Die Nachbarn nebenan sind im Urlaub, und ich füttere ihre Fische.
  Ich fotografiere das Aquarium und lasse Gemini mit einem Prompt wie "Stelle das Aquarium an einen städtischen Sehenswürdigkeit" Bilder erzeugen.
  Ich schicke jeden Tag eins, und die Nachbarn lieben es.
  Solche kleinen Späße bringen im Alltag einfach Freude.
Leider gibt es wie bei anderen AI-Produkten das Problem übertrieben strenger Sicherheitsrichtlinien.
Die Hälfte meiner Prompts wird abgelehnt.
Wenn menschliche Bearbeitung nicht möglich ist, frage ich mich, wie man überhaupt Charakterkonsistenz aufrechterhalten soll.
Ich versuche meistens, Fotos mit Menschen zu bearbeiten, aber mit diesem Modell ist das unmöglich.
Ich verstehe, dass Google wegen Deepfakes vorsichtig ist, aber diese Richtung lässt sich ohnehin nicht aufhalten, und am Ende wird die Gesellschaft sich daran anpassen müssen.
Es ist frustrierend, dass Tools die Nutzer immer stärker einschränken.
Am Ende brauchen wir wohl eine neue OSS-Bewegung, um die Freiheit zurückzugewinnen.
- Ich habe ein Foto von einem Paar, das als Kinder in Weihnachtskleidung zusammen aufgenommen wurde, sowie von ihrer Cousine.
  Die beiden haben lange Zeit getrennt voneinander gelebt, daher ist das heute eine wertvolle Erinnerung.
  Das Foto ist nicht nur in schlechtem Zustand, sondern auch von niedriger Qualität.
  Trotzdem hat es bisher kein einziges AI-Modell geschafft, es zu restaurieren.
- Vor zwei Tagen habe ich versucht, mit Veo kostenlos ein Video zu erstellen.
  Ich habe sogar völlig harmlose Wörter entfernt, aber es wurde trotzdem abgelehnt.
  Wahrscheinlich war schon der Versuch, "mich selbst" zu erzeugen, das Problem, also habe ich schließlich aufgegeben.
Ich habe Familienfotos digitalisiert, aber viele davon haben schwer zu restaurierende Schäden wie Farbstiche, Flecken, Fingerabdrücke und Filmspuren.
Hunderte Bilder einzeln zu korrigieren ist schwierig, deshalb habe ich darauf gewartet, dass AI-basierte Bildgenerierung so weit kommt, dass sie solche Fotos massenhaft restaurieren kann, ohne feine Details, besonders Gesichter, zu verändern.
Dieses Modell scheint ziemlich gut darin zu sein, verlorene Bereiche wiederherzustellen und dabei Details zu erhalten, daher wirkt es so, als wäre jetzt der richtige Zeitpunkt, es auszuprobieren.
- Alle oben genannten Schäden lassen sich automatisch mit Filmscannern mit ICE-Funktion und automatischer Restaurierungssoftware wie Vuescan beheben.
  Meiner Meinung nach muss man nicht Hunderte oder Tausende Fotos in eine experimentelle, proprietäre Cloud-AI hochladen, nur um am Ende unterdurchschnittliche Ergebnisse mit merkwürdiger Kompression und Artefakten zu bekommen.
- Ich verstehe den Sinn dieses Einsatzbereichs nicht ganz.
  Kann man sich ein unbeschädigtes Foto nicht einfach vorstellen?
  Dasselbe gilt für AI-Upscaling in Smartphone-Kameras.
  Wenn ich etwas in der Ferne sehen will, kann ich es mir einfach vorstellen.
  Ich finde, AI-Tools sollten eher das automatisieren, was ein geübter Photoshop-Anwender auch manuell mit Werkzeugen machen könnte.
  Beliebig neue Details zu erfinden wirkt auf mich wie Zeitverschwendung.
- Weiß zufällig jemand von Software, die Videodateien restaurieren oder verbessern kann?
  Ich digitalisiere gerade die Videos und VHS-Kassetten meiner Mutter aus den 2000ern.
  Das Setup zur Digitalisierung steht schon, aber ich würde die Bildqualität der Videos gern weiter verbessern.
- Ich hoffe, es funktioniert gut für dich.
  Wenn man sich beim Beispielprompt "Fotorestaurierung" das Ergebnis ansieht, zeigt das Gesicht der Frau recht starke AI-Merkmale.
  Aber natürlich wird das mit der Zeit wohl noch besser.
- Ich dachte eigentlich, dass Flux Kontext (https://bfl.ai/models/flux-kontext) dieses Stadium schon vor ein paar Monaten erreicht hatte.
Alle mit Gemini 2.5 Flash Image erzeugten oder bearbeiteten Bilder bekommen mit SynthID ein unsichtbares digitales Wasserzeichen, das anzeigt, dass sie von AI erzeugt oder bearbeitet wurden.
Ich verstehe Zweck und gute Absicht dahinter, aber es ist schade, dass nicht mehr Erwachsene selbst Verantwortung tragen, sondern große Unternehmen festlegen, was man tun darf und was nicht.
Es fühlt sich überwachend an.
- Ich würde zurückfragen, ob Menschen beim Einsatz von Technologie jemals wirklich verantwortungsbewusste Erwachsene waren.
  Deepfakes können die Verunsicherung darüber, was real ist, noch weiter verschärfen.
  Es wird viele Menschen geben, die auf Fälschungen hereinfallen, und andere, die gar nichts mehr glauben.
  Politiker werden bei belastenden Videos einfach behaupten, sie seien gefälscht.
  Wir leben schon jetzt in gewisser Weise in einem Post-Fakt-Zeitalter, aber es wird noch schlimmer werden.
- Man kann es kaum wirklich als vom Nutzer erstelltes Bild bezeichnen.
  Wenn zum Beispiel ein Künstler ein in Auftrag gegebenes Werk mit einem Wasserzeichen versieht, zeigt das nur an, dass es seine Arbeit ist, und man würde das nicht als "Verpetzen" ansehen.
  Vielleicht war es auch nicht so gemeint, aber es ist zumindest ein Gedanke wert.
- Ich stimme dem Argument "Wer nichts zu verbergen hat, hat auch nichts zu befürchten" nicht zu, aber ich frage mich trotzdem, warum Wasserzeichen für AI-erzeugte oder bearbeitete Bilder ein Problem sein sollen.
  Persönlich finde ich sogar, dass AI-Bilder zwingend ein Wasserzeichen haben sollten.
- Man muss dieses Modell ja nicht unbedingt benutzen, daher sehe ich persönlich darin kein Problem.
- Es ist ein technologisches Wettrüsten.
  Siehe removemysynthid.com.
Wie die meisten Bildgeneratoren scheitert es am Klaviertasten-Test (die schwarzen Tasten sind falsch).
Testbeispiel
- Ich frage mich, was genau mit dem Klaviertasten-Test gemeint ist.
  Der Link verlangt Zugriff auf Google Drive über AI Studio und ist deshalb schwer nutzbar.
- Ich frage mich, ob es Modelle gibt, die im Konzept-Raum auch Ideen wie die Wiederholung von acht Tönen enthalten.
  Bei der Darstellung eines Klaviers scheinen nur Wörter in der Nähe des Begriffs "Klavier" nicht auszureichen, um feste Konzepte wie sich wiederholende Oktaven darzustellen.
  Mir scheint, dass Wörter allein Bilder und Bedeutungen nicht konsistent genug verknüpfen.
- Die eigentliche Stärke dieses Modells scheint weniger in der reinen Generierungsqualität zu liegen als in der "generationenübergreifenden Konsistenz".
  Beispiellink
- Interessant.
  Wer schon einmal ein echtes Klavier gesehen hat, merkt sofort, dass etwas nicht stimmt; ähnlich wie bei Text-Rendering-Tests erzeugt das Modell Bilder, die "oberflächlich" ähnlich aussehen, aber tatsächlich falsch sind.
  Bei einem allgemeinen Prompt würde man vermutlich sogar einfach das erste Google-Bild akzeptieren, nach dem Motto: "Hier ist ein Foto einer Klaviertastatur."
- Es scheitert auch an meinem horizontalen Texttest.
Ich habe versucht, die Beispiele mit Gabel/Spaghetti und Fashion Bubble direkt nachzustellen, aber meine Ergebnisse weichen stark von den offiziellen ab.
Auch die Ausgaben selbst sind konsistent.
Ich habe die Bilder aus der Werbeseite kopiert, daher kann die Auflösung unterschiedlich sein, aber den Prompt habe ich identisch verwendet.
Es scheint schon das neue Modell zu sein, und im Vergleich zu früher ist es wirklich ein großer Fortschritt.
- Die Konsistenz der Ergebnisse ist interessant.
  Ich habe meinen Standardtest für Bildmodelle mehrfach laufen lassen (bis heute habe ich noch kein Modell gesehen, das Klavieroktaven korrekt zeichnet), und Gemini 2.5 Flash Image ist da keine Ausnahme.
  Selbst über mehrere Durchläufe hinweg ändert sich praktisch nichts.
  Bei ChatGPT war es oft so, dass bei Editor-Prompts auch andere Teile als die gewünschte Änderung mit verändert wurden, aber hier passiert das überhaupt nicht.
  Bildbeispiel
- Die tatsächlichen Ergebnisse wirken deutlich gewöhnlicher oder vager als in der Werbung.
  Beim Beispiel mit dem Bubble-Subjekt werden im Grunde nur unklare blasenartige Formen innerhalb des Motivs erzeugt.
  Im Gabel-Beispiel wird einfach nur eine Gabel zu den Nudeln hinzugefügt.
  In beiden Fällen könnte man sagen, dass der Prompt in der Praxis sogar besser befolgt wird, aber visuell ist das deutlich weniger eindrucksvoll.
Ich bin froh, kein Photoshop-Profi geworden zu sein.
Früher fand ich das mal reizvoll, aber zum Glück habe ich mich nicht dafür entschieden.
Jetzt reicht ein einziges nano-banana.
Ich bin sicher, die anderen Modelle werden bald nachziehen.
Auch die Community r/photoshopbattles kann sich wohl verabschieden.
- Retusche ist eine Kunst für sich.
  Für Profis ist auch solche AI nur ein weiteres Werkzeug zur Effizienzsteigerung.
  Es geht nicht nur darum, Photoshop bedienen zu können, sondern auch um kluge Urteilsfähigkeit.
  Natürlich könnten am Ende auch weniger Retuscheure dieselbe Arbeit erledigen, wenn das Arbeitsvolumen nicht wächst.
  Ob sinkende Preise dazu führen, dass alle mehr retuschieren lassen, weiß ich allerdings nicht.
- Interessante Sichtweise.
  Ich bin Programmierer, habe aber Anfang der 2000er auch Photoshop gelernt und Bildbearbeitung wirklich genossen.
  Die heutigen generativen Modelle liefern zwar bessere Resultate als das, was ich damals gemacht habe, aber ich halte diese Erfahrung und diese Fähigkeiten keineswegs für wertlos.
  Tatsächlich ist Photoshop (oder heute eher Affinity Designer/Photo) extrem nützlich, um AI-Ergebnisse nachzubearbeiten.
  Ich habe es nie bereut.
- Hätte ich diesen Kommentar vor 10 Jahren geschrieben, hätte ich zumindest gesagt, dass das Programm und die Fähigkeiten mir gehören und es meine Sache bleibt, selbst wenn Google die Abo-Preise erhöht oder den Dienst einstellt.
  Heute ist selbst PS ein Abo-Modell, und man muss auf den Tag warten, an dem ein gutes offenes Modell erscheint.
- Photoshop bleibt weiterhin nützlich.
  AI-Bilder sind großartig, aber ich möchte die Basiskomposition trotzdem selbst bauen, und um Artefakte in AI-Ergebnissen zu bereinigen oder mehrere AI-Layer zu kombinieren, sind manuelle Fähigkeiten nach wie vor unverzichtbar.
- Letztlich werden auch andere Bereiche wie Programmierung der Automatisierung zum Opfer fallen.
  Es dauert nur etwas länger (5–10 Jahre?).
  Wegen Fehlern und technischer Schuld könnte es im Engineering länger dauern.
  Wenn ein Bild misslingt, erzeugt man einfach ein neues, aber wenn ein Programm misslingt, hat man sofort einen nicht wartbaren Haufen Code.
  Trotzdem wird diese Entwicklung irgendwann auch unser Feld erreichen.
Wenn ich Gemini um Bilderzeugung bitte, bekomme ich in der Hälfte der Fälle eine Antwort, dass es nicht möglich sei.
Es fühlt sich an, als wären Googles Funktionen in der Praxis sehr schwer überhaupt zu nutzen.
Manche Dinge sind in einem Produkt, andere in einem anderen verteilt, und es ist unklar, wo man worauf zugreifen soll.
- Stimmt.
  Auf der Website steht "In Gemini ausprobieren", aber wenn ich dann Gemini 2.5 Flash auswähle, bin ich mir nicht einmal sicher, ob ich es überhaupt richtig benutze.
- Im Gemini-App oder auf der Website gibt es dieses Modell überhaupt nicht.
  Man muss es über andere Wege wie AI Studio verwenden.
  Die UI/UX von Google ist insgesamt wirklich verwirrend.