- Ein experimentelles Projekt, bei dem mehrere KI-Modelle zur Bildgenerierung mit demselben Prompt getestet wurden, um Genauigkeit, Kreativität und Konsistenz zu bewerten
- Insgesamt 14 Modelle nahmen teil, darunter OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev und Midjourney v7
- Alle Modelle erzeugten Bilder ohne Inpainting oder Bearbeitungsfunktionen, ausschließlich auf Basis der vorgegebenen Beschreibung
- Für jeden Test gab es klare Mindestkriterien zum Bestehen, und die Erfolgsquote wurde danach berechnet, ob die visuellen Elemente erfüllt wurden
- Die Ergebnisse zeigen Leistungsunterschiede zwischen den Modellen und machen deutlich, dass das Verständnis komplexer Konzepte oder die Erzeugung mathematischer Strukturen weiterhin schwierig ist
Überblick über das Experiment
- Ein vergleichendes Benchmark-Experiment, das die reine Generierungsfähigkeit jedes Modells anhand strenger Regeln bewertet
- Inpainting, Remix und nachträgliche Korrekturanweisungen waren vollständig untersagt
- Pro Prompt waren für jedes Modell nur einige Dutzend Versuche erlaubt
- Das Bewertungskriterium konzentrierte sich darauf, ob präzise visuelle Bedingungen erfüllt wurden
Zentrale Testergebnisse
- The Prussian Ring Toss
- Eine Szene, in der preußische Soldaten Ringe auf die Pickelhauben der jeweils anderen werfen
- 5 von 6 Modellen erfüllten die Bedingungen, die höchste Erfolgsquote
- Nine-Pointed Star
- Eine Aufgabe, bei der ein Stern mit genau 9 Spitzen erzeugt werden musste
- Die meisten Modelle konvergierten zu einer Form mit gerader Spitzenzahl und scheiterten; nur 3 waren erfolgreich
- Spheron
- Ein Gemälde im Ölmalerei-Stil, das Alexander den Großen im Kampf auf einem „Hippity Hop“-Spielzeug zeigt
- Bewertet wurde die Fähigkeit, historischen Kontext mit einem modernen Objekt zu kombinieren; nur 4 Modelle waren erfolgreich
- Cubed⁵
- Eine Szene mit 5 transparenten Glaskuben, vertikal gestapelt in der Reihenfolge Rot–Blau–Grün–Lila–Gelb
- 5 Modelle reproduzierten dies korrekt; das Seitenverhältnis im Hochformat hatte großen Einfluss auf die Ergebnisqualität
- Cephalopodic Puppet Show
- Eine Szene, in der jede der 8 Arme eines Oktopus mit einer Sockenpuppe versehen ist
- Ein Test, der konzeptuelles Verständnis erforderte; nur die Hälfte erfüllte die Bedingungen
Weitere Testbeispiele
- Quantum Entangled Einstein: Darstellung von Einstein und einer Glühbirne mit Ideen aus der Quantenmechanik → 3/6 erfolgreich
- The Yarrctic Circle: Bild eines arktischen Piraten mit einer Prothese aus Eis → 6/6 erfolgreich
- The Labyrinth: Erzeugung eines 2D-Labyrinths mit klarem Eingang, Ausgang und Pfad → 1/6 erfolgreich
- A Dicey Situation: Umsetzung eines 20-seitigen Würfels (D20), dessen Flächen nur mit Primzahlen beschriftet sind → 0/6, alle gescheitert
Analyse und Implikationen
- Im Vergleich zu einfachen visuellen Stilen traten Fehler bei logischen Strukturen und regelbasierten Darstellungen häufiger auf
- Besonders bei Prompts mit präzisen Bedingungen wie Text, Zahlen, symmetrischen Strukturen oder Farbreihenfolgen war die Fehlerrate hoch
- Dagegen zeigten die Modelle bei emotionalen oder fantasievollen erzählerischen Prompts vergleichsweise hohe Konsistenz
- Insgesamt offenbaren GenAI-Modelle weiterhin Grenzen beim Verständnis zusammengesetzter Konzepte und bei der strukturellen Reproduktion
Zusammenfassung
- Dieses Experiment ist ein interessanter Versuch, das „echte Verständnis“ von Text-to-Image-Modellen zu beurteilen
- Selbst aktuelle Modelle wie Midjourney und OpenAI 4o scheiterten bei einigen logischen Szenen vollständig
- Die Ergebnisse zeigen, dass „Text zu verstehen“ und seine Bedeutung präzise zu visualisieren zwei verschiedene Probleme sind
- Eine der zentralen Aufgaben für die Weiterentwicklung künftiger Modelle scheint die Verbesserung der Konsistenz zwischen sprachlichem Kontext und visueller Struktur zu sein
1 Kommentare
Hacker-News-Kommentare
Selbst legale Dinge mit der Begründung zu blockieren, sie seien „nicht erlaubt“, fühlt sich an, als würde ein Unternehmen die Zensur von 1964 durchsetzen
GPT-5 ist noch unerträglicher, weil jede Unterhaltung mit schmeichelnden Floskeln wie „Das ist eine gute Frage“ oder „Das ist eine großartige Beobachtung“ beginnt
Wenn man Nutzervorlieben per RLHF antrainiert, hat das den Nebeneffekt, dass das Modell krankhaft schmeichlerisch wird
So sind im Moment zwar alle großen LLMs, aber trotzdem finde ich sie besser als GPT-4o
ChatGPT ist ein Produkt für Unternehmen, und wenn es gewalttätige oder sexuell anzügliche Bilder erzeugen könnte, würde kein Großkonzern es kaufen
Aus meiner Erfahrung als Einkäufer für Software bei Fortune-500-Unternehmen bin ich mir zu 100 % sicher
Ohne Datum wirkt es beim ersten Lesen so, als sei beides gleichzeitig entstanden
Mögen beide Seiten ihres Kissens warm sein
Tatsächlich ist es eine Funktion zur Erzeugung neuer Bilder, wird aber offenbar so verwendet, als ginge es um das Bearbeiten bestehender Bilder
Multimodale Modelle wie Qwen3-VL-30B-A3B bearbeiten bestehende Bilder gut. imagegpt.com war auch okay, aber ich weiß nicht, welches Modell dort verwendet wird
Nur zur Klarstellung: Qwen3-VL ist kein Modell für Bildgenerierung oder -bearbeitung, sondern ein Modell für Bildinferenz
Vermutlich wurde im Backend Qwen-Image-Edit verwendet
Wenn man zum Beispiel den Prompt „einem glatzköpfigen Mann Haare hinzufügen“ eingibt, bekommt man ein Ergebnis, bei dem das Original verändert wurde
Technisch ist das zwar die Erzeugung eines neuen Bildes, aber ich sehe es als ähnliches Konzept wie „Save As“ in Photoshop
GPT-4o hat eine niedrige Temperature, dadurch hohe Konsistenz, aber geringere Kreativität, während Midjourney mit höherer Temperature reichhaltige Hintergründe und Texturen erzeugt
Der Sepiaton von 4o könnte auch Nachbearbeitung sein
Wahrscheinlich ist es in der Praxis ein Workflow mit mehreren Schritten, in dem das finale Bild weiter verfeinert wird
LLM-basierte Modelle verwenden allerdings häufig Prompt-Rewriting
Der Fall von DALL·E 3 wird in diesem Beitrag gut erklärt
Ich warte auf Feedback von Nutzern
Link zu Generative AI Review
Allerdings verstehe ich die Struktur mit mehreren Versuchen und der Bewertung durch ein anderes LLM nicht ganz. Ich frage mich, ob die Genauigkeit dadurch nicht von vornherein begrenzt ist
Es ist ein PASS/FAIL-Verfahren: Wenn ein Bild passend zum Prompt nicht ein einziges Mal erzeugt werden kann, gilt das als Fehlschlag
Die Idee ist ein Pictionary-Test: „Könnte irgendjemand auf der Straße anhand des Bildes den Prompt erraten?“
Die endgültige Bewertung wird manuell anhand klarer Kriterien getroffen
Man kann keinen menschlichen Prüfer einsperren und 7600 Ergebnisse bewerten lassen
Natürlich ist auch ein LLM als Prüfer nicht perfekt, aber bei Vergleichbarkeit und Konsistenz ist es Menschen überlegen
Solange man es nicht als Optimierungsziel benutzt, sondern nur als Leistungsthermometer, ist das kein großes Problem
Wenn man es allerdings zum Optimierungsziel macht, können wie bei GPT-5 seltsame Resultate herauskommen