GenAI-Bilder-Showdown

(genai-showdown.specr.net)

1 Punkte von GN⁺ 2025-10-28 | 1 Kommentare | Auf WhatsApp teilen

Ein experimentelles Projekt, bei dem mehrere KI-Modelle zur Bildgenerierung mit demselben Prompt getestet wurden, um Genauigkeit, Kreativität und Konsistenz zu bewerten
Insgesamt 14 Modelle nahmen teil, darunter OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev und Midjourney v7
Alle Modelle erzeugten Bilder ohne Inpainting oder Bearbeitungsfunktionen, ausschließlich auf Basis der vorgegebenen Beschreibung
Für jeden Test gab es klare Mindestkriterien zum Bestehen, und die Erfolgsquote wurde danach berechnet, ob die visuellen Elemente erfüllt wurden
Die Ergebnisse zeigen Leistungsunterschiede zwischen den Modellen und machen deutlich, dass das Verständnis komplexer Konzepte oder die Erzeugung mathematischer Strukturen weiterhin schwierig ist

Überblick über das Experiment

Ein vergleichendes Benchmark-Experiment, das die reine Generierungsfähigkeit jedes Modells anhand strenger Regeln bewertet
- Inpainting, Remix und nachträgliche Korrekturanweisungen waren vollständig untersagt
- Pro Prompt waren für jedes Modell nur einige Dutzend Versuche erlaubt
Das Bewertungskriterium konzentrierte sich darauf, ob präzise visuelle Bedingungen erfüllt wurden

Zentrale Testergebnisse

The Prussian Ring Toss
- Eine Szene, in der preußische Soldaten Ringe auf die Pickelhauben der jeweils anderen werfen
- 5 von 6 Modellen erfüllten die Bedingungen, die höchste Erfolgsquote
Nine-Pointed Star
- Eine Aufgabe, bei der ein Stern mit genau 9 Spitzen erzeugt werden musste
- Die meisten Modelle konvergierten zu einer Form mit gerader Spitzenzahl und scheiterten; nur 3 waren erfolgreich
Spheron
- Ein Gemälde im Ölmalerei-Stil, das Alexander den Großen im Kampf auf einem „Hippity Hop“-Spielzeug zeigt
- Bewertet wurde die Fähigkeit, historischen Kontext mit einem modernen Objekt zu kombinieren; nur 4 Modelle waren erfolgreich
Cubed⁵
- Eine Szene mit 5 transparenten Glaskuben, vertikal gestapelt in der Reihenfolge Rot–Blau–Grün–Lila–Gelb
- 5 Modelle reproduzierten dies korrekt; das Seitenverhältnis im Hochformat hatte großen Einfluss auf die Ergebnisqualität
Cephalopodic Puppet Show
- Eine Szene, in der jede der 8 Arme eines Oktopus mit einer Sockenpuppe versehen ist
- Ein Test, der konzeptuelles Verständnis erforderte; nur die Hälfte erfüllte die Bedingungen

Weitere Testbeispiele

Quantum Entangled Einstein: Darstellung von Einstein und einer Glühbirne mit Ideen aus der Quantenmechanik → 3/6 erfolgreich
The Yarrctic Circle: Bild eines arktischen Piraten mit einer Prothese aus Eis → 6/6 erfolgreich
The Labyrinth: Erzeugung eines 2D-Labyrinths mit klarem Eingang, Ausgang und Pfad → 1/6 erfolgreich
A Dicey Situation: Umsetzung eines 20-seitigen Würfels (D20), dessen Flächen nur mit Primzahlen beschriftet sind → 0/6, alle gescheitert

Analyse und Implikationen

Im Vergleich zu einfachen visuellen Stilen traten Fehler bei logischen Strukturen und regelbasierten Darstellungen häufiger auf
Besonders bei Prompts mit präzisen Bedingungen wie Text, Zahlen, symmetrischen Strukturen oder Farbreihenfolgen war die Fehlerrate hoch
Dagegen zeigten die Modelle bei emotionalen oder fantasievollen erzählerischen Prompts vergleichsweise hohe Konsistenz
Insgesamt offenbaren GenAI-Modelle weiterhin Grenzen beim Verständnis zusammengesetzter Konzepte und bei der strukturellen Reproduktion

Zusammenfassung

Dieses Experiment ist ein interessanter Versuch, das „echte Verständnis“ von Text-to-Image-Modellen zu beurteilen
Selbst aktuelle Modelle wie Midjourney und OpenAI 4o scheiterten bei einigen logischen Szenen vollständig
Die Ergebnisse zeigen, dass „Text zu verstehen“ und seine Bedeutung präzise zu visualisieren zwei verschiedene Probleme sind
Eine der zentralen Aufgaben für die Weiterentwicklung künftiger Modelle scheint die Verbesserung der Konsistenz zwischen sprachlichem Kontext und visueller Struktur zu sein

1 Kommentare

GN⁺ 2025-10-28

Hacker-News-Kommentare

Es ist wirklich nervig, dass das Unternehmen bei der Nutzung von GPT-4o wie ein moralischer Richter auftritt und Anfragen der Nutzer oft ablehnt
Selbst legale Dinge mit der Begründung zu blockieren, sie seien „nicht erlaubt“, fühlt sich an, als würde ein Unternehmen die Zensur von 1964 durchsetzen
GPT-5 ist noch unerträglicher, weil jede Unterhaltung mit schmeichelnden Floskeln wie „Das ist eine gute Frage“ oder „Das ist eine großartige Beobachtung“ beginnt
- Manche haben Altman dafür kritisiert, dass er in ChatGPT NSFW zugelassen hat, aber ich halte das für die richtige Richtung hin zu weniger Unternehmenszensur
  Wenn man Nutzervorlieben per RLHF antrainiert, hat das den Nebeneffekt, dass das Modell krankhaft schmeichlerisch wird
  So sind im Moment zwar alle großen LLMs, aber trotzdem finde ich sie besser als GPT-4o
- Wenn man chinesische Modelle ausprobiert, gibt es deutlich weniger Einschränkungen, natürlich mit ein paar Ausnahmen
- Ich habe noch nie Unternehmenssoftware gesehen, die NSFW zulässt
  ChatGPT ist ein Produkt für Unternehmen, und wenn es gewalttätige oder sexuell anzügliche Bilder erzeugen könnte, würde kein Großkonzern es kaufen
  Aus meiner Erfahrung als Einkäufer für Software bei Fortune-500-Unternehmen bin ich mir zu 100 % sicher
Ich fand es seltsam, dass der Artikel kein Datum hatte, aber in der Wayback Machine habe ich gesehen, dass die Text-to-Image-Seite im April und die Image-Editing-Seite im September hinzugefügt wurde
Ohne Datum wirkt es beim ersten Lesen so, als sei beides gleichzeitig entstanden
- Vermutlich haben SEO-Leute sie davon überzeugt, dass Texte ohne Datum in Suchmaschinen besser ranken
  Mögen beide Seiten ihres Kissens warm sein
- Ja, das ist schon ziemlich alt. In der heutigen AI-Welt ist nach einer Woche schon alles veraltet
Anfangs war ich vom Begriff „image editing“ verwirrt
Tatsächlich ist es eine Funktion zur Erzeugung neuer Bilder, wird aber offenbar so verwendet, als ginge es um das Bearbeiten bestehender Bilder
Multimodale Modelle wie Qwen3-VL-30B-A3B bearbeiten bestehende Bilder gut. imagegpt.com war auch okay, aber ich weiß nicht, welches Modell dort verwendet wird
- Dieses Feedback habe ich schon mehrfach bekommen, deshalb denke ich, dass ich die obere Navigationsleiste auffälliger machen sollte
  Nur zur Klarstellung: Qwen3-VL ist kein Modell für Bildgenerierung oder -bearbeitung, sondern ein Modell für Bildinferenz
  Vermutlich wurde im Backend Qwen-Image-Edit verwendet
- Auf der Seite, die ich gesehen habe, wirkte es so, als würden bestehende Bilder bearbeitet
  Wenn man zum Beispiel den Prompt „einem glatzköpfigen Mann Haare hinzufügen“ eingibt, bekommt man ein Ergebnis, bei dem das Original verändert wurde
  Technisch ist das zwar die Erzeugung eines neuen Bildes, aber ich sehe es als ähnliches Konzept wie „Save As“ in Photoshop
Der eigentliche Link ist https://genai-showdown.specr.net/image-editing
- Genau, das ist der Link für die Bearbeitung. Der andere ist für Text-to-Image
Ich vermute, dass die Modelle intern mehrfach Bilder erzeugen und nur das beste Ergebnis anzeigen
GPT-4o hat eine niedrige Temperature, dadurch hohe Konsistenz, aber geringere Kreativität, während Midjourney mit höherer Temperature reichhaltige Hintergründe und Texturen erzeugt
Der Sepiaton von 4o könnte auch Nachbearbeitung sein
Wahrscheinlich ist es in der Praxis ein Workflow mit mehreren Schritten, in dem das finale Bild weiter verfeinert wird
- Wenn man Bildmodelle selbst lokal ausführt, merkt man, dass die meisten gehosteten Modelle nicht mehrfach generieren, sondern nur einmal laufen
  LLM-basierte Modelle verwenden allerdings häufig Prompt-Rewriting
  Der Fall von DALL·E 3 wird in diesem Beitrag gut erklärt
- Es wäre noch interessanter, wenn die Anzahl der Generierungsversuche und die Ergebnisse pro Prompt offengelegt würden
Bei „Alexander the Great on a Hippity Hop“ habe ich sofort upgevotet
- Ich hatte dieses Spielzeug auch komplett vergessen, aber dadurch kamen Kindheitserinnerungen zurück
- Trotzdem gefällt mir das Pferde-Chimären-Bild besser
Wenn du Bildmodelle vergleichend testen willst, kannst du das kostenlos auf BrandImageGen.com ausprobieren
Ich warte auf Feedback von Nutzern
Jemand fragte, wo das Meme „zeichne keinen grünen Elefanten“ geblieben sei, und fand, dass es in einer GitHub-Diskussion vorgeschlagen wurde
Jemand hat einen Beitrag mit einem Vergleichsreview mehrerer Bildgenerierungs-Tools gepostet
Link zu Generative AI Review
Durch das „Editing Showdown“ habe ich zum ersten Mal vom Seedream-Modell erfahren
Allerdings verstehe ich die Struktur mit mehreren Versuchen und der Bewertung durch ein anderes LLM nicht ganz. Ich frage mich, ob die Genauigkeit dadurch nicht von vornherein begrenzt ist
- Im FAQ sind die Bewertungskriterien klar beschrieben
  Es ist ein PASS/FAIL-Verfahren: Wenn ein Bild passend zum Prompt nicht ein einziges Mal erzeugt werden kann, gilt das als Fehlschlag
  Die Idee ist ein Pictionary-Test: „Könnte irgendjemand auf der Straße anhand des Bildes den Prompt erraten?“
  Die endgültige Bewertung wird manuell anhand klarer Kriterien getroffen
- Ein LLM bewertet ein LLM – das ist Industriestandard
  Man kann keinen menschlichen Prüfer einsperren und 7600 Ergebnisse bewerten lassen
  Natürlich ist auch ein LLM als Prüfer nicht perfekt, aber bei Vergleichbarkeit und Konsistenz ist es Menschen überlegen
  Solange man es nicht als Optimierungsziel benutzt, sondern nur als Leistungsthermometer, ist das kein großes Problem
  Wenn man es allerdings zum Optimierungsziel macht, können wie bei GPT-5 seltsame Resultate herauskommen

GenAI-Bilder-Showdown

Überblick über das Experiment

Zentrale Testergebnisse

Weitere Testbeispiele

Analyse und Implikationen

Zusammenfassung

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare