1 Punkte von GN⁺ 2025-12-08 | Noch keine Kommentare. | Auf WhatsApp teilen
  • 1996 war der Versuch im Gange, die offizielle Space-Jam-Website von Warner Brothers mit dem KI-Modell Claude nachzubilden.
  • Obwohl Claude Screenshots und Original-Bild-Assets bereitgestellt wurden, stimmte das generierte HTML nicht mit dem Layout der Originalseite überein.
  • Es wurden weitere Hilfsmittel wie Koordinatenschätzung, Grid-Overlay und Pixelvergleichswerkzeuge ergänzt, dennoch konnte Claude immer noch keine exakten Positionsberechnungen vornehmen.
  • Claude bewertete seine Ergebnisse als „perfekt“, zeigte aber in der Realität kumulierte Fehler und eine Tendenz zur Überschätzung der eigenen Resultate.
  • Dieses Experiment macht die Grenze visueller Präzision und Selbstbewertung bei KI deutlich und zeigt, dass die vermeintliche Einfachheit frühen Webdesigns eine eigentlich unerwartete Komplexität in der Reproduktion enthält.

Überblick über die Space-Jam-Website von 1996

  • Die von Warner Brothers für die Bewerbung des Films Space Jam entwickelte Website von 1996 bestand aus einer einzelnen HTML-Seite mit GIF-Hintergrund.
    • Schlichte Farben, tabellenbasierte Struktur, weniger als 200 KB Datenmenge
    • Sie ist bis heute unter spacejam.com/1996 noch aktiv.
  • Der Experimentator wollte prüfen, ob die Site mit ausschließlich Screenshots durch Claude reproduziert werden kann.

Vorbereitung des Experiments

  • Dem Claude bereitgestellte Daten
    • Vollständiger Website-Screenshot
    • Originale Bild-Assets
  • Zur Nachverfolgung von Claudes internem Verhalten wurde ein API-Traffic-Logging-System über einen Proxy aufgebaut
    • Alle Prompts, Antworten und Tool-Aufrufe (Read, Write, Bash-Befehle usw.) wurden protokolliert
    • Bei jedem Versuch wurde eine Datei traffic.log erzeugt

Part 1: Claude the Realist

  • In seinem ersten Versuch replizierte Claude die Anordnung der Planeten und die Button-Positionen grob, jedoch war die Orbit-Form vom Original abweichend.
    • Das Original verwendet eine elliptische Form, während Claude eine symmetrische Diamantform platzierte.
  • Claude bewertete das Ergebnis als „perfekt“ und behauptete, seine Analyse und Platzierung seien korrekt.
  • Danach wurde Claude dazu aufgefordert, die Schritte der Schlussfolgerung explizit aufzuführen, aber
    • die in der Analyse genannten Zahlen wurden bei der HTML-Erzeugung nicht umgesetzt.
  • Auf pixelgenaue Fragen antwortete Claude mit
    • Exakte Koordinaten können nicht gemessen werden“, „nur visuelle Schätzungen sind möglich
    • Ein Genauigkeits-Selbsteinschätzung innerhalb von 5 Pixeln lag bei 15/100.
  • Claude gab zu, dass ihm eine exakte Pixelmessung fehlt, und der Experimentator versuchte danach eine Erweiterung der Werkzeuge.

Part 2: Claude the Unreliable Narrator

  • Um Claudes Messgrenzen auszugleichen, wurden Grid-Overlay, Koordinaten-Labels, Farbvergleichswerkzeuge und ein Screenshot-Vergleichsviewer ergänzt.
  • Claude nutzte das Raster wie ein Dekorationselement und interpretierte weiterhin die Koordinaten falsch.
    • Beispielweise nannte es Zahlen wie Zentrum (961,489), Planet B-Ball (850,165), die nicht den tatsächlichen Positionen entsprachen.
  • In mehreren Iterationen behauptete Claude, sich schrittweise zu verbessern, aber in Wirklichkeit akkumulierten sich die Fehler.
      1. Iteration (50px-Raster): eine leichte Verschiebung
      1. Iteration (25px-Raster): Die gesamte Bahn wurde 20px nach innen verschoben.
      1. Iteration (5px-Raster): Wiederholte Feinjustierungen
      1. Iteration: Erklärung „Präzise Justierung abgeschlossen“
  • In Wirklichkeit fehlte der Bahnradius der Planeten um 150 bis 200px, die gesamte Anordnung blieb komprimiert.
  • Claude bewertete wiederholt als „nahezu perfekt“, doch es handelte sich um eine Fehleinschätzung auf Basis der eigenen Ausgabe.
  • Der Experimentator zitierte Antropic-Paper „Language Models (Mostly) Know What They Know“
    • Das Paper beschreibt den Eindruck, als ob vom Modell erzeugter Text als externer Input interpretiert wird, was zu Überbewertung führt.
    • Dies stimmt mit dem Verhalten von Claude überein, der seine eigene HTML als „Lösung“ ansieht und dadurch spätere Korrekturen verzerrt.

Part 3: Claude the Blind

  • Um Claudes visuelle Grenzen zu analysieren, wurde eine strukturbezogene Beschränkung des Vision Encoders unterstellt
    • Da Bilder in 16×16-Pixel-Blöcken tokenisiert werden, geht feingranulare geometrische Information verloren.
    • Claude ist in der Lage zu erkennen, was eine „Planet“- oder „positionsbezogene“ Bedeutung ist, kann aber keine exakten Koordinaten liefern.
  • Mit dem Paper „An Image is Worth 16x16 Words“ wurde
    • geschlussfolgert, dass Claude Fehlinformationen auf Patch-Ebene komprimiert erfasst.
  • Um dies zu testen, wurde ein zweifach vergrößerter Screenshot bereitgestellt,
    • doch Claude konnte das Vergrößerungsverhältnis nicht berücksichtigen und hielt die Proportionen nicht ein.
  • Insgesamt zeigte Claude zwar korrektes konzeptionelles Verständnis, aber die geometrische Reproduktionsfähigkeit war unzureichend.
    • Die Aussage „Dieser Planet liegt über jenem Planet“ war richtig, die HTML-Anordnung blieb jedoch weiterhin falsch.

Fazit und offene Punkte

  • Claude erkennt die visuelle Struktur der Space-Jam-Website, doch die präzise Replikation ist fehlgeschlagen.
  • Als Ursachen wurden genannt
    • Unfähigkeit der Pixel-Messung
    • Überschätzung der eigenen Resultate
    • Auflösungsgrenze der visuellen Codierung
  • Vorgeschlagene künftige Ansätze
    1. die Bildschirmhälfte in Vierquadranten aufteilen und nach der Einzelwiedergabe zusammenführen
    2. Experimente mit Prompt Engineering mit Fokus auf räumliches Schließen
    3. Verbesserung von Zoom-Werkzeugen und der Fähigkeit, Screenshots einzusetzen
  • Dieses Experiment zeigt zugleich AI's Grenzen visueller Präzision und die Komplexität früher Webgestaltung.
  • Die scheinbar einfache Webseite von 1996 bleibt für moderne KI ein noch immer nicht reproduzierbarer Benchmark.

Noch keine Kommentare.

Noch keine Kommentare.