Vergleichende Analyse der Leistung von KI-Bildbearbeitungsmodellen zur Text-zu-Bild-Generierung

(genai-showdown.specr.net)

3 Punkte von baeba 2025-10-29 | Noch keine Kommentare. | Auf WhatsApp teilen

Zusammenfassung der vergleichenden Analyse der Leistung textbasierter Bildbearbeitungsmodelle

Kernpunkte:
- Die Fähigkeit von 7 aktuellen textbasierten Bildbearbeitungsmodellen zur Bewältigung von 12 Bearbeitungsaufgaben wurde bewertet.
- Seedream 4 zeigte mit 9 erfolgreichen Aufgaben von 12 die beste Leistung, gefolgt von Gemini 2.5 Flash mit 7 Erfolgen.
- Die Bewertung wurde unter strengen Regeln durchgeführt: mit einem einzelnen Prompt (One-shot) und nicht maskierter Bearbeitung (Non-masked).
- Bei komplexen Anweisungen wie dem Vertauschen räumlicher Positionen und dem selektiven Entfernen bestimmter Elemente zeigten die Modelle niedrige Erfolgsquoten.

Ziel der Bewertung: Vergleichende Analyse der Leistung verschiedener aktueller SOTA-Bildbearbeitungsmodelle mit Fokus auf Bildmodifikationen nach Textanweisungen (Text-instructed).
Bewertete Modelle (7): Seedream 4, Gemini 2.5 Flash, Qwen-Image-Edit, FLUX.1 Kontext [dev], OpenAI gpt-image-1, OmniGen2, (ein weiteres Modell ist aus der Liste ausgenommen).
Bewertungsaufgaben: Insgesamt 12 Bearbeitungsprompts und Challenges mit unterschiedlichem Schwierigkeitsgrad und Typ wurden vorgegeben.
Wettbewerbsregeln:
- Prinzip des einzelnen Versuchs (Single-attempt): Wiederholte Bearbeitung desselben Bildes mit aufeinanderfolgenden Korrekturprompts ist nicht erlaubt; das Ziel muss in nur einem Versuch erreicht werden.
- Rein textbasierte Bearbeitung (Purely text-based): Die Bildbearbeitung darf ausschließlich durch Textanweisungen erfolgen; Funktionen wie img2img oder manuelles Masking für Inpainting sind daher nicht erlaubt.

Beste Leistung: Seedream 4 zeigte mit 9 erfolgreichen Aufgaben von 12 die stärkste Leistung.
Zweitbeste Leistung: Gemini 2.5 Flash folgt mit 7 Erfolgen.
Mittelfeld: Qwen-Image-Edit erreichte 6, FLUX.1 Kontext [dev] 5 erfolgreiche Aufgaben.
Unteres Feld: OpenAI gpt-image-1 kam auf 4, OmniGen2 nur auf 1 erfolgreiche Aufgabe.

'SHRDLU' (Vertauschen von Blockpositionen): Alle 6 Modelle scheiterten (** 0/6**). Die meisten Modelle tauschten nur die Farben der Blöcke statt ihrer Positionen; Gemini 2.5 Flash und Seedream 4 tauschten ebenfalls nur die Farben.
'Den schiefen Turm von Pisa aufrichten': 2 von 6 erfolgreich (** 2/6**). Die Aufgabe erfordert grundlegendes räumliches Verständnis, und die Modelle hatten Schwierigkeiten, nur ein bestimmtes Objekt vertikal zu korrigieren, während die restliche Umgebung erhalten bleibt.

'Jaws in Paws ändern usw. als Mehrfachbearbeitung': 5 von 6 erfolgreich (** 5/6**). Es mussten mehrere Änderungen gleichzeitig vorgenommen werden; OmniGen2 war bei der Bearbeitung erfolgreich, scheiterte jedoch daran, den ästhetischen Stil des Originals zu bewahren.
'Einem bärtigen Mann Haare hinzufügen': 4 von 6 erfolgreich (** 4/6**). Das Ergebnis von Gemini 2.5 Flash war ordentlich, allerdings wirkten die Haare zu spitz; OpenAI gpt-image-1 veränderte das gesamte Bild.
'Hanafuda-Karten ändern': 3 von 6 erfolgreich (** 3/6**). Beim Test der Fähigkeit zum selektiven Bearbeiten, bei dem nur eine bestimmte Karte (King of Spades) geändert und eine andere (Ace of Spades) unverändert gelassen werden sollte, veränderte Qwen-Image-Edit auch unerwünschterweise das Ace of Spades.

'Den Hals einer Giraffe verkürzen': 1 von 6 erfolgreich (** 1/6**). Die meisten Modelle scheiterten daran, den Hals der Giraffe zu verkürzen; bei Qwen-Image-Edit wurde der gesamte Hals sogar komplett entfernt, was auf eine abnorme Interpretation des Prompts hindeutet.
'Braune M&M-Bonbons entfernen': 1 von 6 erfolgreich (** 1/6**). Die Modelle hatten Schwierigkeiten, nur Bonbons einer bestimmten Farbe selektiv zu entfernen (oder ihre Farbe zu ändern); Gemini 2.5 Flash erzeugte stattdessen eine neue Anordnung der Bonbons.
'Das Känguru auf einem alten Schild durch die Silhouette eines Sandwurms ersetzen': 1 von 6 erfolgreich (** 1/6**). Es fehlte an der Fähigkeit, ein neues Element einzusetzen und dabei die gealterte Textur des bestehenden Schilds mit Kratzern, Rost usw. zu bewahren.

Merkmale der besten Modelle: Seedream 4 und Gemini 2.5 Flash zeigten insgesamt starke Leistungen, doch beim vollständigen Verständnis und der exakten Umsetzung komplexer und nuancierter Textanweisungen bestehen weiterhin Grenzen.
Wichtigste Fehlertypen: Die Modelle erzielten durchgängig niedrige Erfolgsquoten bei Aufgaben, die ein präzises Verständnis räumlicher Beziehungen sowie die selektive Bearbeitung und Bewahrung spezifischer feiner Bildelemente erfordern.
Zukünftige Entwicklungsrichtungen:
- GPT-image-1 neigt oft dazu, unbeabsichtigt das gesamte Bild zu verändern; daher muss die Genauigkeit bei der Lokalisierung des Bearbeitungsbereichs verbessert werden.
- Bei einigen Modellen wie 'FLUX.1 Kontext [dev]' und 'Kontext Max' zeigte sich das ungewöhnliche Ergebnis, dass größere Modelle schlechter abschnitten als kleinere Entwicklungsmodelle. Daher ist eine Analyse nötig, wie sich die Art der Trainingsdaten (Fotos vs. Illustrationen) auf die Leistung auswirkt.
- Für Aufgaben, die mit einem einzelnen Prompt schwer zu lösen sind (z. B. Änderungen am Kartendesign), sollte das Testverfahren weiterentwickelt werden, indem mehrere Bilder als Eingabe referenziert werden können.