1 Punkte von GN⁺ 2025-10-30 | 1 Kommentare | Auf WhatsApp teilen
  • Ein Inhalt im Format eines Vergleichs der Ergebnisse mehrerer generativer KI-Bildbearbeitungstools
  • Struktur, in der die von jedem Tool mit derselben Eingabe erzeugten Bearbeitungsergebnisse visuell verglichen werden
  • Auf der Seite wird der Hinweis „Loading editing comparisons...“ angezeigt, was darauf hindeutet, dass der Vergleich der Bearbeitungen noch geladen wird
  • Abgesehen vom Titel werden keine konkreten Tool-Namen, Vergleichskriterien oder Ergebnisbeschreibungen angegeben
  • Insgesamt wirkt es wie eine Oberfläche zum Vergleich der Leistung von KI-Bildbearbeitung, detaillierte Inhalte sind im Original jedoch nicht enthalten

Seitenüberblick

  • Der Titel lautet „Generative AI Image Editing Showdown“ und deutet einen Vergleich mehrerer KI-Modelle zur Bildbearbeitung an
  • Im Hauptteil steht nur der Hinweis „Loading editing comparisons...“; Vergleichsergebnisse oder Erläuterungen sind nicht enthalten
  • Zusätzlicher Text, Daten, Bilder, eine Tool-Liste oder Bewertungskriterien sind im Original nicht vorhanden

Grenzen der bereitgestellten Informationen

  • Im Original gibt es keine konkrete Beschreibung der Bearbeitungsergebnisse oder Vergleichsinhalte
  • Daher werden Vergleichsziel, verwendete KI-Modelle und Bewertungsmethode nicht ausdrücklich genannt
  • Insgesamt befindet sich der Inhalt offenbar noch im Ladezustand, sodass keine substanziellen Informationen bereitgestellt werden

1 Kommentare

 
GN⁺ 2025-10-30
Hacker-News-Kommentare
  • Alle unterschätzen Gemini 2.5 Flash Image / Nano Banana
    Es ist deutlich leistungsfähiger als andere Modelle, kostet pro Bild aber gleich viel und kann dank des Text-Encoders wesentlich komplexere und feinere Prompts verarbeiten
    Ich habe Beispiele mit meinem gemimg-Python-Paket veröffentlicht, und ein Blogpost mit weiteren Fällen ist in Arbeit
    In Googles AI Studio gibt es sogar kostenlose Generierung mit Seitenverhältnis-Steuerung
    Dass Seedream 4.0 diesen Test gewonnen hat, war trotzdem überraschend

    • Tatsächlich ging Nano Banana beim Release ziemlich viral
      Wenn man eingebaute ChatGPT-Funktionen oder den Ghibli-Stil-Hype ausklammert, ist es meiner Meinung nach eines der bekanntesten Bildbearbeitungsmodelle
    • Seedream war bei der Prompt-Treue überlegen, neigt aber zu leichten Veränderungen in Farbverläufen
      Für meinen Anwendungsfall ist das kein großes Problem, aber wem konsistente Farben wichtig sind, für den könnte Nano Banana besser sein
    • Bei der Nutzung von Nano Banana meldete AI Studio bei etwa der Hälfte der Fälle grundlos einen Fehler
      Es waren nicht einmal urheberrechtlich grenzwertige Anfragen, trotzdem traten diese Fehler häufig auf
      Wenn es aber funktioniert, sind die Ergebnisse sehr beeindruckend
    • Ich habe Nano Banana genutzt, um ein Foto meiner unordentlichen Küche aufzuräumen, und zunächst ist es komplett gescheitert
      Beim zweiten Versuch habe ich zuerst per Bildanalyse eine Liste unordentlicher Gegenstände erstellen lassen und sie dann per Prompt entfernt, was deutlich bessere Ergebnisse brachte
      Am Ende wurde mir wieder klar, wie wichtig Prompt Engineering ist
    • Gemini ist großartig, wenn es gut funktioniert, aber manchmal liefert es völlig abwegige Ergebnisse und trifft es mit keinem Prompt
      Flux ist erstaunlich gut, aber die meisten Leute, mich eingeschlossen, greifen am Ende standardmäßig doch zu vertrauten Modellen wie ChatGPT oder Gemini
  • Solche Vergleiche sind viel praktischer als Benchmark-Charts
    Ich nutze Nano Banana oft, aber bei der Bearbeitung von Außenarchitektur oder Landschaften ist es schwach
    Gehwege, Entwässerungsrinnen oder Farbabstimmung sind nahezu unmöglich

    • Ich experimentiere mit Qwen Image Edit, um Tagesaufnahmen in Nachtbilder umzuwandeln, und die meisten Modelle verfehlen dabei die Kantenausrichtung
      Auch Nano Banana ist bei Grenzbereichen ungenau, sodass das Bild verrutscht
  • Wenn man bedenkt, welchen Maßstab 2022 gesetzt hat, sind die heutigen Demos im Vergleich zur SD1·2·3-Ära unfassbar beeindruckend
    Es fühlt sich an, als seien wir jetzt in einer Zeit angekommen, in der Modelle Prompts und Bilder tatsächlich verstehen
    Während sich das Engineering weiterentwickelt, explodieren die kreativen Möglichkeiten regelrecht

  • Prompts oder die Zahl der Versuche zu verändern und dann nur die besten Ergebnisse zu zeigen, verwässert die Objektivität des Tests
    Man braucht einheitliche Bedingungen wie fünf Generierungen mit identischem Prompt und Seed für alle Modelle
    Zum Beispiel bekam Gemini 2.5 Flash beim Test „Girl with Pearl Earring“ zu viel Freiheit,
    während OpenAI gpt-image-1 trotz deutlich besserer Ergebnisse in weniger Versuchen als Fehlschlag gewertet wurde

    • Zur Einordnung: Das gpt-image-1-Beispiel war für den Test „You Only Move Twice“ gedacht
    • Eigentlich sollte man lieber einen Wettbewerb für das „schlechteste Bild“ veranstalten, dann würde klarer, welches Modell weniger frustrierend ist
  • In meinem Beitrag im Replicate-Blog habe ich mehrere Modelle direkt verglichen
    Dabei war Qwen Image Edit am günstigsten und schnellsten und hat die meisten Bearbeitungsaufgaben gut bewältigt
    Wenn ich eine Bildbearbeitungs-App bauen würde, würde ich dieses Modell wählen

  • Der Vergleich an sich war interessant, aber das letzte Giraffenbild wurde nicht wirklich kürzer, sondern nur der Körper verbogen
    Trotzdem habe ich oft das Gemini-Ergebnis gewählt, und statt pass/fail hätte ich mir eine Bewertung auf einer 10-Punkte-Skala gewünscht

    • Die Formulierung „seltsam verbogene Giraffe“ war einfach zu lustig
      Wenn es so eine Ausstellung wirklich gäbe, würde ich sie mir unbedingt ansehen
  • In letzter Zeit mache ich fast keine AI-Bildgenerierung mehr
    Vor anderthalb Jahren war es angesagt, Modelle lokal selbst laufen zu lassen, heute ist das meiste in die Cloud gewandert
    Trotzdem fühlt sich bei der Bearbeitung realer Fotos die Textur immer noch irgendwie unnatürlich an
    Zum Beispiel wirken menschliche Haare übermäßig glänzend oder Bäume sehen aus Plastik aus

    • Die Größe der Bildmodelle und ihr Rechenbedarf sind so stark gewachsen, dass Self-Hosting für Einzelpersonen schwierig geworden ist
      Flux Kontext lässt sich zwar lokal ausführen, aber man muss mit quantisierten Modellen langsam generieren, was ineffizient ist
      Außerdem kann man in ChatGPT kostenlos Bilder erzeugen, daher gibt es immer weniger Gründe, unbedingt lokal zu arbeiten
      Beim Haartest hat nur Gemini 2.5 Flash Farbe und Textur richtig getroffen,
      während Seedream 4 Probleme hatte, weil sich die gesamte Farbkorrektur veränderte, weshalb ich es nicht bevorzuge
  • Ich finde, Reve hätte ebenfalls in den Test aufgenommen werden sollen

    • Mit Nano Banana ließ sich die Blickrichtung einer Figur nicht gut ändern, aber Reve lieferte beim ersten Versuch ein perfektes Ergebnis
      Es entfernte den Gegenstand, den die Figur in der Hand hielt, drehte den Blick zur Kamera und passte sogar die Pose natürlich an
      Außerdem waren alle vier Ergebnisse qualitativ so gut, dass man sie verwenden konnte
      Danach habe ich Reves Modellvorstellung gelesen und mich sofort zur Anmeldung entschlossen
    • Danke für die Empfehlung, ich werde es später zur Testliste hinzufügen
    • Danke für den guten Tipp
  • Der Ansatz war gut, aber falsche Prompts wie „Der Turm im Bild ist nach rechts geneigt“ lassen das Modell ihn eher noch stärker kippen

    • Dieser Satz war nicht der eigentliche Eingabeprompt, sondern ein Startsatz
      Da die Prompts je nach Modell angepasst werden, kam es zu unterschiedlichen Versuchszahlen
  • Insgesamt war es ein unterhaltsamer Test
    Es wurde zwar angemerkt, dass die Prompts nicht perfekt seien, aber gerade deshalb wirkt es realistisch, weil sie dem Niveau entsprechen, das normale Nutzer tatsächlich eingeben würden

    • Ich arbeite schon seit der SD-1.5-Zeit mit Prompts und kenne deshalb die nötigen Prompt-Anpassungen je nach Modell gut
      Wie in den FAQ beschrieben, probiere ich mehrere Prompt-Versionen aus, damit das Modell nicht an bestimmten Wörtern hängen bleibt
      Ein Befehlssatz wie „Turn on the lights“ ist zum Beispiel nicht einfach nur eine Anweisung,
      sondern ein Prompt, der das Verständnis multimodaler LLMs testen soll
      Solche Sätze funktionieren bei traditionellen Modellen wie SDXL überhaupt nicht