1 Punkte von GN⁺ 2025-10-28 | 1 Kommentare | Auf WhatsApp teilen
  • Ein experimentelles Projekt, bei dem mehrere KI-Modelle zur Bildgenerierung mit demselben Prompt getestet wurden, um Genauigkeit, Kreativität und Konsistenz zu bewerten
  • Insgesamt 14 Modelle nahmen teil, darunter OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev und Midjourney v7
  • Alle Modelle erzeugten Bilder ohne Inpainting oder Bearbeitungsfunktionen, ausschließlich auf Basis der vorgegebenen Beschreibung
  • Für jeden Test gab es klare Mindestkriterien zum Bestehen, und die Erfolgsquote wurde danach berechnet, ob die visuellen Elemente erfüllt wurden
  • Die Ergebnisse zeigen Leistungsunterschiede zwischen den Modellen und machen deutlich, dass das Verständnis komplexer Konzepte oder die Erzeugung mathematischer Strukturen weiterhin schwierig ist

Überblick über das Experiment

  • Ein vergleichendes Benchmark-Experiment, das die reine Generierungsfähigkeit jedes Modells anhand strenger Regeln bewertet
    • Inpainting, Remix und nachträgliche Korrekturanweisungen waren vollständig untersagt
    • Pro Prompt waren für jedes Modell nur einige Dutzend Versuche erlaubt
  • Das Bewertungskriterium konzentrierte sich darauf, ob präzise visuelle Bedingungen erfüllt wurden

Zentrale Testergebnisse

  • The Prussian Ring Toss
    • Eine Szene, in der preußische Soldaten Ringe auf die Pickelhauben der jeweils anderen werfen
    • 5 von 6 Modellen erfüllten die Bedingungen, die höchste Erfolgsquote
  • Nine-Pointed Star
    • Eine Aufgabe, bei der ein Stern mit genau 9 Spitzen erzeugt werden musste
    • Die meisten Modelle konvergierten zu einer Form mit gerader Spitzenzahl und scheiterten; nur 3 waren erfolgreich
  • Spheron
    • Ein Gemälde im Ölmalerei-Stil, das Alexander den Großen im Kampf auf einem „Hippity Hop“-Spielzeug zeigt
    • Bewertet wurde die Fähigkeit, historischen Kontext mit einem modernen Objekt zu kombinieren; nur 4 Modelle waren erfolgreich
  • Cubed⁵
    • Eine Szene mit 5 transparenten Glaskuben, vertikal gestapelt in der Reihenfolge Rot–Blau–Grün–Lila–Gelb
    • 5 Modelle reproduzierten dies korrekt; das Seitenverhältnis im Hochformat hatte großen Einfluss auf die Ergebnisqualität
  • Cephalopodic Puppet Show
    • Eine Szene, in der jede der 8 Arme eines Oktopus mit einer Sockenpuppe versehen ist
    • Ein Test, der konzeptuelles Verständnis erforderte; nur die Hälfte erfüllte die Bedingungen

Weitere Testbeispiele

  • Quantum Entangled Einstein: Darstellung von Einstein und einer Glühbirne mit Ideen aus der Quantenmechanik → 3/6 erfolgreich
  • The Yarrctic Circle: Bild eines arktischen Piraten mit einer Prothese aus Eis → 6/6 erfolgreich
  • The Labyrinth: Erzeugung eines 2D-Labyrinths mit klarem Eingang, Ausgang und Pfad → 1/6 erfolgreich
  • A Dicey Situation: Umsetzung eines 20-seitigen Würfels (D20), dessen Flächen nur mit Primzahlen beschriftet sind → 0/6, alle gescheitert

Analyse und Implikationen

  • Im Vergleich zu einfachen visuellen Stilen traten Fehler bei logischen Strukturen und regelbasierten Darstellungen häufiger auf
  • Besonders bei Prompts mit präzisen Bedingungen wie Text, Zahlen, symmetrischen Strukturen oder Farbreihenfolgen war die Fehlerrate hoch
  • Dagegen zeigten die Modelle bei emotionalen oder fantasievollen erzählerischen Prompts vergleichsweise hohe Konsistenz
  • Insgesamt offenbaren GenAI-Modelle weiterhin Grenzen beim Verständnis zusammengesetzter Konzepte und bei der strukturellen Reproduktion

Zusammenfassung

  • Dieses Experiment ist ein interessanter Versuch, das „echte Verständnis“ von Text-to-Image-Modellen zu beurteilen
  • Selbst aktuelle Modelle wie Midjourney und OpenAI 4o scheiterten bei einigen logischen Szenen vollständig
  • Die Ergebnisse zeigen, dass „Text zu verstehen“ und seine Bedeutung präzise zu visualisieren zwei verschiedene Probleme sind
  • Eine der zentralen Aufgaben für die Weiterentwicklung künftiger Modelle scheint die Verbesserung der Konsistenz zwischen sprachlichem Kontext und visueller Struktur zu sein

1 Kommentare

 
GN⁺ 2025-10-28
Hacker-News-Kommentare
  • Es ist wirklich nervig, dass das Unternehmen bei der Nutzung von GPT-4o wie ein moralischer Richter auftritt und Anfragen der Nutzer oft ablehnt
    Selbst legale Dinge mit der Begründung zu blockieren, sie seien „nicht erlaubt“, fühlt sich an, als würde ein Unternehmen die Zensur von 1964 durchsetzen
    GPT-5 ist noch unerträglicher, weil jede Unterhaltung mit schmeichelnden Floskeln wie „Das ist eine gute Frage“ oder „Das ist eine großartige Beobachtung“ beginnt
    • Manche haben Altman dafür kritisiert, dass er in ChatGPT NSFW zugelassen hat, aber ich halte das für die richtige Richtung hin zu weniger Unternehmenszensur
      Wenn man Nutzervorlieben per RLHF antrainiert, hat das den Nebeneffekt, dass das Modell krankhaft schmeichlerisch wird
      So sind im Moment zwar alle großen LLMs, aber trotzdem finde ich sie besser als GPT-4o
    • Wenn man chinesische Modelle ausprobiert, gibt es deutlich weniger Einschränkungen, natürlich mit ein paar Ausnahmen
    • Ich habe noch nie Unternehmenssoftware gesehen, die NSFW zulässt
      ChatGPT ist ein Produkt für Unternehmen, und wenn es gewalttätige oder sexuell anzügliche Bilder erzeugen könnte, würde kein Großkonzern es kaufen
      Aus meiner Erfahrung als Einkäufer für Software bei Fortune-500-Unternehmen bin ich mir zu 100 % sicher
  • Ich fand es seltsam, dass der Artikel kein Datum hatte, aber in der Wayback Machine habe ich gesehen, dass die Text-to-Image-Seite im April und die Image-Editing-Seite im September hinzugefügt wurde
    Ohne Datum wirkt es beim ersten Lesen so, als sei beides gleichzeitig entstanden
    • Vermutlich haben SEO-Leute sie davon überzeugt, dass Texte ohne Datum in Suchmaschinen besser ranken
      Mögen beide Seiten ihres Kissens warm sein
    • Ja, das ist schon ziemlich alt. In der heutigen AI-Welt ist nach einer Woche schon alles veraltet
  • Anfangs war ich vom Begriff „image editing“ verwirrt
    Tatsächlich ist es eine Funktion zur Erzeugung neuer Bilder, wird aber offenbar so verwendet, als ginge es um das Bearbeiten bestehender Bilder
    Multimodale Modelle wie Qwen3-VL-30B-A3B bearbeiten bestehende Bilder gut. imagegpt.com war auch okay, aber ich weiß nicht, welches Modell dort verwendet wird
    • Dieses Feedback habe ich schon mehrfach bekommen, deshalb denke ich, dass ich die obere Navigationsleiste auffälliger machen sollte
      Nur zur Klarstellung: Qwen3-VL ist kein Modell für Bildgenerierung oder -bearbeitung, sondern ein Modell für Bildinferenz
      Vermutlich wurde im Backend Qwen-Image-Edit verwendet
    • Auf der Seite, die ich gesehen habe, wirkte es so, als würden bestehende Bilder bearbeitet
      Wenn man zum Beispiel den Prompt „einem glatzköpfigen Mann Haare hinzufügen“ eingibt, bekommt man ein Ergebnis, bei dem das Original verändert wurde
      Technisch ist das zwar die Erzeugung eines neuen Bildes, aber ich sehe es als ähnliches Konzept wie „Save As“ in Photoshop
  • Der eigentliche Link ist https://genai-showdown.specr.net/image-editing
    • Genau, das ist der Link für die Bearbeitung. Der andere ist für Text-to-Image
  • Ich vermute, dass die Modelle intern mehrfach Bilder erzeugen und nur das beste Ergebnis anzeigen
    GPT-4o hat eine niedrige Temperature, dadurch hohe Konsistenz, aber geringere Kreativität, während Midjourney mit höherer Temperature reichhaltige Hintergründe und Texturen erzeugt
    Der Sepiaton von 4o könnte auch Nachbearbeitung sein
    Wahrscheinlich ist es in der Praxis ein Workflow mit mehreren Schritten, in dem das finale Bild weiter verfeinert wird
    • Wenn man Bildmodelle selbst lokal ausführt, merkt man, dass die meisten gehosteten Modelle nicht mehrfach generieren, sondern nur einmal laufen
      LLM-basierte Modelle verwenden allerdings häufig Prompt-Rewriting
      Der Fall von DALL·E 3 wird in diesem Beitrag gut erklärt
    • Es wäre noch interessanter, wenn die Anzahl der Generierungsversuche und die Ergebnisse pro Prompt offengelegt würden
  • Bei „Alexander the Great on a Hippity Hop“ habe ich sofort upgevotet
    • Ich hatte dieses Spielzeug auch komplett vergessen, aber dadurch kamen Kindheitserinnerungen zurück
    • Trotzdem gefällt mir das Pferde-Chimären-Bild besser
  • Wenn du Bildmodelle vergleichend testen willst, kannst du das kostenlos auf BrandImageGen.com ausprobieren
    Ich warte auf Feedback von Nutzern
  • Jemand fragte, wo das Meme „zeichne keinen grünen Elefanten“ geblieben sei, und fand, dass es in einer GitHub-Diskussion vorgeschlagen wurde
  • Jemand hat einen Beitrag mit einem Vergleichsreview mehrerer Bildgenerierungs-Tools gepostet
    Link zu Generative AI Review
  • Durch das „Editing Showdown“ habe ich zum ersten Mal vom Seedream-Modell erfahren
    Allerdings verstehe ich die Struktur mit mehreren Versuchen und der Bewertung durch ein anderes LLM nicht ganz. Ich frage mich, ob die Genauigkeit dadurch nicht von vornherein begrenzt ist
    • Im FAQ sind die Bewertungskriterien klar beschrieben
      Es ist ein PASS/FAIL-Verfahren: Wenn ein Bild passend zum Prompt nicht ein einziges Mal erzeugt werden kann, gilt das als Fehlschlag
      Die Idee ist ein Pictionary-Test: „Könnte irgendjemand auf der Straße anhand des Bildes den Prompt erraten?“
      Die endgültige Bewertung wird manuell anhand klarer Kriterien getroffen
    • Ein LLM bewertet ein LLM – das ist Industriestandard
      Man kann keinen menschlichen Prüfer einsperren und 7600 Ergebnisse bewerten lassen
      Natürlich ist auch ein LLM als Prüfer nicht perfekt, aber bei Vergleichbarkeit und Konsistenz ist es Menschen überlegen
      Solange man es nicht als Optimierungsziel benutzt, sondern nur als Leistungsthermometer, ist das kein großes Problem
      Wenn man es allerdings zum Optimierungsziel macht, können wie bei GPT-5 seltsame Resultate herauskommen