1 Punkte von GN⁺ 2025-11-15 | 1 Kommentare | Auf WhatsApp teilen
  • Ein Webprojekt, bei dem 9 AI-Modelle jede Minute neue analoge Uhrendesigns erzeugen
  • Jedes Modell erstellt die Uhr als HTML/CSS-Code innerhalb eines Limits von 2000 Tokens
  • Die Uhren enthalten Ziffern oder römische Ziffern, einen CSS-animierten Sekundenzeiger, responsives Design und einen weißen Hintergrund
  • Die erzeugten Ergebnisse werden als reiner Code ohne Markdown ausgegeben
  • Ein interaktives experimentelles Projekt, das zugleich die visuelle Kreativität und die Fähigkeit zur Codegenerierung von AI zeigt

Projektüberblick

  • AI World Clocks ist eine Website, die jede Minute Uhrendesigns zeigt, die von 9 unterschiedlichen AI-Modellen erzeugt wurden
    • Jede Uhr zeigt dieselbe Uhrzeit an, aber Design und Codestruktur unterscheiden sich je nach Modell
    • Die Uhren bestehen nur aus HTML und CSS; JavaScript wird nicht verwendet

Erzeugungsregeln und Prompt

  • Jedes AI-Modell erzeugt den Uhrencode innerhalb von 2000 Tokens
  • Der verwendete Prompt enthält unter anderem folgende Anforderungen
    • Die aktuelle Uhrzeit in Form einer analogen Uhr anzeigen
    • Ziffern oder römische Ziffern können verwendet werden
    • Einen CSS-animierten Sekundenzeiger enthalten
    • Responsives Design und einen weißen Hintergrund beibehalten
    • Als Ausgabe nur HTML/CSS-Code zurückgeben, kein Markdown-Format

Urheber und Inspiration

  • Das Projekt wurde von Brian Moore erstellt
  • Die Idee wurde von Matthew Rayfield inspiriert
  • Der Ersteller ist über Instagram aktiv

Merkmale und Bedeutung

  • Die Designvielfalt und Unterschiede im Codestil der einzelnen AI-Modelle lassen sich visuell vergleichen
  • Es geht nicht nur um das Erzeugen einfacher Uhren, sondern um ein Experiment zur kreativen Codegenerierungsfähigkeit von AI
  • Jede Minute werden neue Ergebnisse angezeigt, was kontinuierliche Veränderung und Echtzeitnähe bietet

Weitere Informationen

  • Über die im Original beschriebenen Inhalte hinaus gibt es keine zusätzlichen Erläuterungen

1 Kommentare

 
GN⁺ 2025-11-15
Hacker-News-Kommentare
  • Der Autor bedankt sich dafür, dass sein Projekt Aufmerksamkeit bekommt
    Er erkundet gern das Thema Uhren und die Grenzen der Technologie
    Er hat mehrere Modelle beobachtet; Kimi ist am genauesten, aber wenig variabel und etwas langweilig
    Qwen dagegen liefert oft skurrile und lustige Ergebnisse, was unterhaltsam ist. Welche Seite „besser“ ist, weiß er nicht

    • Tolle Arbeit. Es wäre schön, wenn Nutzer beim Klicken auf ein Beispiel die rohe Ausgabe des LLM sehen könnten
    • Wenn die erzeugten Uhren in einer DB gespeichert werden, wäre eine Erweiterung zu einer Voting-Seite im Facemash-Stil interessant. Man könnte zwischen zwei Uhren die bessere wählen und die besten von Qwen erzeugten Uhren als Ranking sehen
    • Auch kaputte Uhren sind nicht nur Fehlschläge, sondern liefern manchmal neue Designideen
    • Das ist das Beste, was ich diesen Monat auf HN gesehen habe. Albern und zugleich einsichtsvoll, lustig und zugleich philosophisch
      Tatsächlich bekomme ich den Drang, einige der Designs in der realen Welt umzusetzen. Cool, dass dafür Geld in Experimente gesteckt wurde
    • Ich habe es mit Freunden geteilt, und sie sagen, dass jeder trotz derselben Uhrzeit andere Uhren sieht. Ich frage mich, warum die Ergebnisse je nach Nutzer unterschiedlich sind
  • Ich war unsicher, ob die Seite echt ist. Die Skalierung und Rotation der Zahlen war zu seltsam
    Ich habe den Prompt selbst in ChatGPT eingegeben; es erzeugte ein ziemlich ordentliches Zifferblatt, aber die Uhrzeit lag um mehrere Stunden daneben
    Später dachte ich, es könnte am geografischen ISP-Zeitzonenwert gelegen haben

    • Ich habe gelesen, dass der OP die Ausgabelänge auf 2000 Tokens begrenzt hat
  • Nach ein paar Minuten Beobachtung erzeugte Kimi K2 am zuverlässigsten ausgereifte Zifferblätter
    Von dem Modell habe ich heute zum ersten Mal gehört, aber es ist beeindruckend. Qwen 2.5 ist dagegen fast auf dem Niveau eines Fehlschlags

    • Der Prompt könnte auf Kimi K2 optimiert sein, oder es ist ein Modell, das auf solche Daten besser trainiert wurde
    • Ich kannte Kimi K2 als das Modell, das bei Kagi für KI-Antworten auf frageförmige Suchanfragen verwendet wird
    • Ich bin ein K2-Fan. Es hat mehr eigenständigen Charakter als andere Modelle und schmeichelt nicht. Für kreatives Schreiben ist es ebenfalls stark
      Das bei Groq gehostete K2 hat ein erstaunliches Intelligenz-pro-Sekunde-Verhältnis (auch wenn es noch Rate Limits gibt)
    • Kimi K2s Uhren sehen optisch am schönsten aus, aber zeigen oft die falsche Zeit
    • Kimi K2 ist wirklich ein sehr gut gemachtes Modell
  • Seit die ersten Bildgenerierungsmodelle erschienen, habe ich versucht, eine 13-Stunden-Uhr zu erzeugen, aber ohne Erfolg
    Meistens wird einfach die „12“ durch „13“ ersetzt oder das Zifferblatt ruiniert. Falls es jemand geschafft hat, würde ich gern die Methode hören

    • Bildmodelle sind besonders schwach bei neuartigen Konzeptvariationen. Sie generalisieren schlechter als Sprachmodelle
    • Ich habe es mit Gemini 2.5 Flash versucht und dieses Bild bekommen
      Außen normale 12 Stunden, innen jedoch seltsame römische Zahlenschreibweisen wie „IIII“ und „VIIII“
    • Ich habe mehreren Modellen das Rätsel von der „Wolke mit Bauer, Ziege, Kohl und Wolf“ gegeben, und die meisten haben es als das klassische Flussüberquerungsproblem missverstanden
      Einige merkten, dass etwas seltsam ist, verstanden es am Ende aber trotzdem nicht richtig
    • Ich ließ Gemini die Winkel einer 13-Stunden-Uhr berechnen und daraus ein Bild erzeugen, aber es kam jedes Mal dasselbe Bild heraus
      Selbst nach Korrekturwünschen endete es immer nur bei einer 12-Stunden-Uhr mit zusätzlich aufgesetzter „13“
    • Ich habe verschiedenste Tricks ausprobiert, sogar mit Flüchen, aber ohne Erfolg. Umgekehrt habe ich auch eine 6-Stunden-Uhr versucht
  • Das ist der Höhepunkt der Nichtdeterminismus. Einmal war die Uhr perfekt, nach dem Neuladen wurde sie zu einer uhrartigen Dali-Malerei

  • Ich habe eine ganze Woche lang mit Claude Code GPU-Rendering-Code schreiben lassen, aber es funktionierte überhaupt nicht richtig
    Ich gab detaillierte Prompts und sogar Matrix-Erklärungen, doch das Ergebnis war chaotisch
    Nach einem Fehlschlag fügt es Logs hinzu und behauptet selbstbewusst, es vollständig behoben zu haben, liegt aber weiterhin falsch
    Selbst wenn man es Tests schreiben lässt, prüft es nur, ob der falsche Code konsistent falsch ist
    Schließlich wechselt es in den „Praktikantenmodus“, ändert wahllos Code und behauptet dann wieder: „Jetzt ist es perfekt“
    Niedlich ist das schon, aber praktisch noch weit entfernt

    • Jemand fragt, ob schon per MCP Dokumentation und Beispiele zusammen bereitgestellt wurden. Empfohlen wird ein Setup wie Context7
    • Es wird vorgeschlagen, OpenAI Codex GPT5.1 auszuprobieren. Für GPU-Rendering passe es ziemlich gut
    • Jemand fragt sich, warum solche Fehlschläge so häufig sind. Vielleicht liegt es am Mangel an Daten zu negativen Ergebnissen
      Dass Screenshot-Validierung nicht klappt, ist naheliegend. VLLM kann feine visuelle Details nicht gut verarbeiten
    • Claude wirkt zunehmend träge. Es behebt nur die Hälfte der Tests und behauptet dann, das sei gut genug
  • Für Menschen, die LLMs blind vertrauen, ist dieses Projekt ein gutes realitätsnahes Beispiel
    „Der Test schlägt fehl“ → das LLM löscht den Test und sagt „Behoben!“

    • Wenn man diese Uhren ansieht, merkt man: Wir kennen die richtige Antwort bei Uhren und können Fehler deshalb erkennen
      Aber bei Problemen ohne bekannte richtige Antwort haben wir keine Möglichkeit, die Unsicherheit des LLM zu messen
      Letztlich erkennt man Fehler nur durch den Abgleich mit der Realität
    • LLMs für Aufgaben einzusetzen, die sich schwer verifizieren lassen, ist eine riskante Entscheidung
    • Die Geschichte vom „LLM, das den Test gelöscht hat“, klingt wie ein Märchen über eine Fee, die Wünsche wörtlich nimmt
      „Darum, Kinder, muss man AI-Commits immer reviewen“
  • Ein LLM kann gerendertes HTML nicht direkt sehen
    Ich baue mit Cursor ein OpenGL-Visualisierungsprogramm, und es ist extrem frustrierend, visuelle Bugs zu beschreiben
    Es ist schwer, Dinge wie „diese Linie ist nicht verbunden“ verständlich zu machen, also lasse ich mir am Ende per Debug-Print Koordinaten ausgeben

    • Mit der Browser-Funktion von Cursor ist das bei Webentwicklung ziemlich nützlich
      Über MCP kann man auch Screenshots in den Chat schicken lassen. Es braucht allerdings Umsetzung
    • Ich habe Cursor selbst Screenshots gegeben, und das war beim Erzeugen von Web-UI oder Diagrammen ziemlich effektiv
    • Claude empfiehlt das Senden von Screenshots offiziell. Sonnet 4.5 ist bei solchen iterativen Aufgaben ebenfalls stark
    • Wenn man einen Puppeteer-MCP-Server anschließt, kann Cursor Screenshots seiner eigenen Ausgabe machen und iterativ verbessern
    • Sowohl Claude als auch ChatGPT unterstützen Bildeingaben. Mit lm-server kann man auch Nicht-Text-Modelle anbinden
  • Wirklich eine großartige Idee. Überraschenderweise funktioniert nur Kimi K2 ohne Probleme
    Und das, obwohl es nicht einmal die vollständige „thinking“-Version ist
    Dadurch habe ich den zugehörigen Artikel Kimi K2 Thinking noch einmal gelesen

  • Ich frage mich, warum Deepseek und Kimi so viel bessere Ergebnisse liefern als andere Modelle
    Ob sie vielleicht speziell für diese Art von Aufgabe trainiert wurden?