- Ein Inhalt im Format eines Vergleichs der Ergebnisse mehrerer generativer KI-Bildbearbeitungstools
- Struktur, in der die von jedem Tool mit derselben Eingabe erzeugten Bearbeitungsergebnisse visuell verglichen werden
- Auf der Seite wird der Hinweis „Loading editing comparisons...“ angezeigt, was darauf hindeutet, dass der Vergleich der Bearbeitungen noch geladen wird
- Abgesehen vom Titel werden keine konkreten Tool-Namen, Vergleichskriterien oder Ergebnisbeschreibungen angegeben
- Insgesamt wirkt es wie eine Oberfläche zum Vergleich der Leistung von KI-Bildbearbeitung, detaillierte Inhalte sind im Original jedoch nicht enthalten
Seitenüberblick
- Der Titel lautet „Generative AI Image Editing Showdown“ und deutet einen Vergleich mehrerer KI-Modelle zur Bildbearbeitung an
- Im Hauptteil steht nur der Hinweis „Loading editing comparisons...“; Vergleichsergebnisse oder Erläuterungen sind nicht enthalten
- Zusätzlicher Text, Daten, Bilder, eine Tool-Liste oder Bewertungskriterien sind im Original nicht vorhanden
Grenzen der bereitgestellten Informationen
- Im Original gibt es keine konkrete Beschreibung der Bearbeitungsergebnisse oder Vergleichsinhalte
- Daher werden Vergleichsziel, verwendete KI-Modelle und Bewertungsmethode nicht ausdrücklich genannt
- Insgesamt befindet sich der Inhalt offenbar noch im Ladezustand, sodass keine substanziellen Informationen bereitgestellt werden
1 Kommentare
Hacker-News-Kommentare
Alle unterschätzen Gemini 2.5 Flash Image / Nano Banana
Es ist deutlich leistungsfähiger als andere Modelle, kostet pro Bild aber gleich viel und kann dank des Text-Encoders wesentlich komplexere und feinere Prompts verarbeiten
Ich habe Beispiele mit meinem gemimg-Python-Paket veröffentlicht, und ein Blogpost mit weiteren Fällen ist in Arbeit
In Googles AI Studio gibt es sogar kostenlose Generierung mit Seitenverhältnis-Steuerung
Dass Seedream 4.0 diesen Test gewonnen hat, war trotzdem überraschend
Wenn man eingebaute ChatGPT-Funktionen oder den Ghibli-Stil-Hype ausklammert, ist es meiner Meinung nach eines der bekanntesten Bildbearbeitungsmodelle
Für meinen Anwendungsfall ist das kein großes Problem, aber wem konsistente Farben wichtig sind, für den könnte Nano Banana besser sein
Es waren nicht einmal urheberrechtlich grenzwertige Anfragen, trotzdem traten diese Fehler häufig auf
Wenn es aber funktioniert, sind die Ergebnisse sehr beeindruckend
Beim zweiten Versuch habe ich zuerst per Bildanalyse eine Liste unordentlicher Gegenstände erstellen lassen und sie dann per Prompt entfernt, was deutlich bessere Ergebnisse brachte
Am Ende wurde mir wieder klar, wie wichtig Prompt Engineering ist
Flux ist erstaunlich gut, aber die meisten Leute, mich eingeschlossen, greifen am Ende standardmäßig doch zu vertrauten Modellen wie ChatGPT oder Gemini
Solche Vergleiche sind viel praktischer als Benchmark-Charts
Ich nutze Nano Banana oft, aber bei der Bearbeitung von Außenarchitektur oder Landschaften ist es schwach
Gehwege, Entwässerungsrinnen oder Farbabstimmung sind nahezu unmöglich
Auch Nano Banana ist bei Grenzbereichen ungenau, sodass das Bild verrutscht
Wenn man bedenkt, welchen Maßstab 2022 gesetzt hat, sind die heutigen Demos im Vergleich zur SD1·2·3-Ära unfassbar beeindruckend
Es fühlt sich an, als seien wir jetzt in einer Zeit angekommen, in der Modelle Prompts und Bilder tatsächlich verstehen
Während sich das Engineering weiterentwickelt, explodieren die kreativen Möglichkeiten regelrecht
Prompts oder die Zahl der Versuche zu verändern und dann nur die besten Ergebnisse zu zeigen, verwässert die Objektivität des Tests
Man braucht einheitliche Bedingungen wie fünf Generierungen mit identischem Prompt und Seed für alle Modelle
Zum Beispiel bekam Gemini 2.5 Flash beim Test „Girl with Pearl Earring“ zu viel Freiheit,
während OpenAI gpt-image-1 trotz deutlich besserer Ergebnisse in weniger Versuchen als Fehlschlag gewertet wurde
In meinem Beitrag im Replicate-Blog habe ich mehrere Modelle direkt verglichen
Dabei war Qwen Image Edit am günstigsten und schnellsten und hat die meisten Bearbeitungsaufgaben gut bewältigt
Wenn ich eine Bildbearbeitungs-App bauen würde, würde ich dieses Modell wählen
Der Vergleich an sich war interessant, aber das letzte Giraffenbild wurde nicht wirklich kürzer, sondern nur der Körper verbogen
Trotzdem habe ich oft das Gemini-Ergebnis gewählt, und statt pass/fail hätte ich mir eine Bewertung auf einer 10-Punkte-Skala gewünscht
Wenn es so eine Ausstellung wirklich gäbe, würde ich sie mir unbedingt ansehen
In letzter Zeit mache ich fast keine AI-Bildgenerierung mehr
Vor anderthalb Jahren war es angesagt, Modelle lokal selbst laufen zu lassen, heute ist das meiste in die Cloud gewandert
Trotzdem fühlt sich bei der Bearbeitung realer Fotos die Textur immer noch irgendwie unnatürlich an
Zum Beispiel wirken menschliche Haare übermäßig glänzend oder Bäume sehen aus Plastik aus
Flux Kontext lässt sich zwar lokal ausführen, aber man muss mit quantisierten Modellen langsam generieren, was ineffizient ist
Außerdem kann man in ChatGPT kostenlos Bilder erzeugen, daher gibt es immer weniger Gründe, unbedingt lokal zu arbeiten
Beim Haartest hat nur Gemini 2.5 Flash Farbe und Textur richtig getroffen,
während Seedream 4 Probleme hatte, weil sich die gesamte Farbkorrektur veränderte, weshalb ich es nicht bevorzuge
Ich finde, Reve hätte ebenfalls in den Test aufgenommen werden sollen
Es entfernte den Gegenstand, den die Figur in der Hand hielt, drehte den Blick zur Kamera und passte sogar die Pose natürlich an
Außerdem waren alle vier Ergebnisse qualitativ so gut, dass man sie verwenden konnte
Danach habe ich Reves Modellvorstellung gelesen und mich sofort zur Anmeldung entschlossen
Der Ansatz war gut, aber falsche Prompts wie „Der Turm im Bild ist nach rechts geneigt“ lassen das Modell ihn eher noch stärker kippen
Da die Prompts je nach Modell angepasst werden, kam es zu unterschiedlichen Versuchszahlen
Insgesamt war es ein unterhaltsamer Test
Es wurde zwar angemerkt, dass die Prompts nicht perfekt seien, aber gerade deshalb wirkt es realistisch, weil sie dem Niveau entsprechen, das normale Nutzer tatsächlich eingeben würden
Wie in den FAQ beschrieben, probiere ich mehrere Prompt-Versionen aus, damit das Modell nicht an bestimmten Wörtern hängen bleibt
Ein Befehlssatz wie „Turn on the lights“ ist zum Beispiel nicht einfach nur eine Anweisung,
sondern ein Prompt, der das Verständnis multimodaler LLMs testen soll
Solche Sätze funktionieren bei traditionellen Modellen wie SDXL überhaupt nicht