AI-Weltuhren

(clocks.brianmoore.com)

1 Punkte von GN⁺ 2025-11-15 | 1 Kommentare | Auf WhatsApp teilen

Ein Webprojekt, bei dem 9 AI-Modelle jede Minute neue analoge Uhrendesigns erzeugen
Jedes Modell erstellt die Uhr als HTML/CSS-Code innerhalb eines Limits von 2000 Tokens
Die Uhren enthalten Ziffern oder römische Ziffern, einen CSS-animierten Sekundenzeiger, responsives Design und einen weißen Hintergrund
Die erzeugten Ergebnisse werden als reiner Code ohne Markdown ausgegeben
Ein interaktives experimentelles Projekt, das zugleich die visuelle Kreativität und die Fähigkeit zur Codegenerierung von AI zeigt

Projektüberblick

AI World Clocks ist eine Website, die jede Minute Uhrendesigns zeigt, die von 9 unterschiedlichen AI-Modellen erzeugt wurden
- Jede Uhr zeigt dieselbe Uhrzeit an, aber Design und Codestruktur unterscheiden sich je nach Modell
- Die Uhren bestehen nur aus HTML und CSS; JavaScript wird nicht verwendet

Erzeugungsregeln und Prompt

Jedes AI-Modell erzeugt den Uhrencode innerhalb von 2000 Tokens
Der verwendete Prompt enthält unter anderem folgende Anforderungen
- Die aktuelle Uhrzeit in Form einer analogen Uhr anzeigen
- Ziffern oder römische Ziffern können verwendet werden
- Einen CSS-animierten Sekundenzeiger enthalten
- Responsives Design und einen weißen Hintergrund beibehalten
- Als Ausgabe nur HTML/CSS-Code zurückgeben, kein Markdown-Format

Urheber und Inspiration

Das Projekt wurde von Brian Moore erstellt
Die Idee wurde von Matthew Rayfield inspiriert
Der Ersteller ist über Instagram aktiv

Merkmale und Bedeutung

Die Designvielfalt und Unterschiede im Codestil der einzelnen AI-Modelle lassen sich visuell vergleichen
Es geht nicht nur um das Erzeugen einfacher Uhren, sondern um ein Experiment zur kreativen Codegenerierungsfähigkeit von AI
Jede Minute werden neue Ergebnisse angezeigt, was kontinuierliche Veränderung und Echtzeitnähe bietet

Weitere Informationen

Über die im Original beschriebenen Inhalte hinaus gibt es keine zusätzlichen Erläuterungen

1 Kommentare

GN⁺ 2025-11-15

Hacker-News-Kommentare

Der Autor bedankt sich dafür, dass sein Projekt Aufmerksamkeit bekommt
Er erkundet gern das Thema Uhren und die Grenzen der Technologie
Er hat mehrere Modelle beobachtet; Kimi ist am genauesten, aber wenig variabel und etwas langweilig
Qwen dagegen liefert oft skurrile und lustige Ergebnisse, was unterhaltsam ist. Welche Seite „besser“ ist, weiß er nicht
- Tolle Arbeit. Es wäre schön, wenn Nutzer beim Klicken auf ein Beispiel die rohe Ausgabe des LLM sehen könnten
- Wenn die erzeugten Uhren in einer DB gespeichert werden, wäre eine Erweiterung zu einer Voting-Seite im Facemash-Stil interessant. Man könnte zwischen zwei Uhren die bessere wählen und die besten von Qwen erzeugten Uhren als Ranking sehen
- Auch kaputte Uhren sind nicht nur Fehlschläge, sondern liefern manchmal neue Designideen
- Das ist das Beste, was ich diesen Monat auf HN gesehen habe. Albern und zugleich einsichtsvoll, lustig und zugleich philosophisch
  Tatsächlich bekomme ich den Drang, einige der Designs in der realen Welt umzusetzen. Cool, dass dafür Geld in Experimente gesteckt wurde
- Ich habe es mit Freunden geteilt, und sie sagen, dass jeder trotz derselben Uhrzeit andere Uhren sieht. Ich frage mich, warum die Ergebnisse je nach Nutzer unterschiedlich sind
Ich war unsicher, ob die Seite echt ist. Die Skalierung und Rotation der Zahlen war zu seltsam
Ich habe den Prompt selbst in ChatGPT eingegeben; es erzeugte ein ziemlich ordentliches Zifferblatt, aber die Uhrzeit lag um mehrere Stunden daneben
Später dachte ich, es könnte am geografischen ISP-Zeitzonenwert gelegen haben
- Ich habe gelesen, dass der OP die Ausgabelänge auf 2000 Tokens begrenzt hat
Nach ein paar Minuten Beobachtung erzeugte Kimi K2 am zuverlässigsten ausgereifte Zifferblätter
Von dem Modell habe ich heute zum ersten Mal gehört, aber es ist beeindruckend. Qwen 2.5 ist dagegen fast auf dem Niveau eines Fehlschlags
- Der Prompt könnte auf Kimi K2 optimiert sein, oder es ist ein Modell, das auf solche Daten besser trainiert wurde
- Ich kannte Kimi K2 als das Modell, das bei Kagi für KI-Antworten auf frageförmige Suchanfragen verwendet wird
- Ich bin ein K2-Fan. Es hat mehr eigenständigen Charakter als andere Modelle und schmeichelt nicht. Für kreatives Schreiben ist es ebenfalls stark
  Das bei Groq gehostete K2 hat ein erstaunliches Intelligenz-pro-Sekunde-Verhältnis (auch wenn es noch Rate Limits gibt)
- Kimi K2s Uhren sehen optisch am schönsten aus, aber zeigen oft die falsche Zeit
- Kimi K2 ist wirklich ein sehr gut gemachtes Modell
Seit die ersten Bildgenerierungsmodelle erschienen, habe ich versucht, eine 13-Stunden-Uhr zu erzeugen, aber ohne Erfolg
Meistens wird einfach die „12“ durch „13“ ersetzt oder das Zifferblatt ruiniert. Falls es jemand geschafft hat, würde ich gern die Methode hören
- Bildmodelle sind besonders schwach bei neuartigen Konzeptvariationen. Sie generalisieren schlechter als Sprachmodelle
- Ich habe es mit Gemini 2.5 Flash versucht und dieses Bild bekommen
  Außen normale 12 Stunden, innen jedoch seltsame römische Zahlenschreibweisen wie „IIII“ und „VIIII“
- Ich habe mehreren Modellen das Rätsel von der „Wolke mit Bauer, Ziege, Kohl und Wolf“ gegeben, und die meisten haben es als das klassische Flussüberquerungsproblem missverstanden
  Einige merkten, dass etwas seltsam ist, verstanden es am Ende aber trotzdem nicht richtig
- Ich ließ Gemini die Winkel einer 13-Stunden-Uhr berechnen und daraus ein Bild erzeugen, aber es kam jedes Mal dasselbe Bild heraus
  Selbst nach Korrekturwünschen endete es immer nur bei einer 12-Stunden-Uhr mit zusätzlich aufgesetzter „13“
- Ich habe verschiedenste Tricks ausprobiert, sogar mit Flüchen, aber ohne Erfolg. Umgekehrt habe ich auch eine 6-Stunden-Uhr versucht
Das ist der Höhepunkt der Nichtdeterminismus. Einmal war die Uhr perfekt, nach dem Neuladen wurde sie zu einer uhrartigen Dali-Malerei
Ich habe eine ganze Woche lang mit Claude Code GPU-Rendering-Code schreiben lassen, aber es funktionierte überhaupt nicht richtig
Ich gab detaillierte Prompts und sogar Matrix-Erklärungen, doch das Ergebnis war chaotisch
Nach einem Fehlschlag fügt es Logs hinzu und behauptet selbstbewusst, es vollständig behoben zu haben, liegt aber weiterhin falsch
Selbst wenn man es Tests schreiben lässt, prüft es nur, ob der falsche Code konsistent falsch ist
Schließlich wechselt es in den „Praktikantenmodus“, ändert wahllos Code und behauptet dann wieder: „Jetzt ist es perfekt“
Niedlich ist das schon, aber praktisch noch weit entfernt
- Jemand fragt, ob schon per MCP Dokumentation und Beispiele zusammen bereitgestellt wurden. Empfohlen wird ein Setup wie Context7
- Es wird vorgeschlagen, OpenAI Codex GPT5.1 auszuprobieren. Für GPU-Rendering passe es ziemlich gut
- Jemand fragt sich, warum solche Fehlschläge so häufig sind. Vielleicht liegt es am Mangel an Daten zu negativen Ergebnissen
  Dass Screenshot-Validierung nicht klappt, ist naheliegend. VLLM kann feine visuelle Details nicht gut verarbeiten
- Claude wirkt zunehmend träge. Es behebt nur die Hälfte der Tests und behauptet dann, das sei gut genug
Für Menschen, die LLMs blind vertrauen, ist dieses Projekt ein gutes realitätsnahes Beispiel
„Der Test schlägt fehl“ → das LLM löscht den Test und sagt „Behoben!“
- Wenn man diese Uhren ansieht, merkt man: Wir kennen die richtige Antwort bei Uhren und können Fehler deshalb erkennen
  Aber bei Problemen ohne bekannte richtige Antwort haben wir keine Möglichkeit, die Unsicherheit des LLM zu messen
  Letztlich erkennt man Fehler nur durch den Abgleich mit der Realität
- LLMs für Aufgaben einzusetzen, die sich schwer verifizieren lassen, ist eine riskante Entscheidung
- Die Geschichte vom „LLM, das den Test gelöscht hat“, klingt wie ein Märchen über eine Fee, die Wünsche wörtlich nimmt
  „Darum, Kinder, muss man AI-Commits immer reviewen“
Ein LLM kann gerendertes HTML nicht direkt sehen
Ich baue mit Cursor ein OpenGL-Visualisierungsprogramm, und es ist extrem frustrierend, visuelle Bugs zu beschreiben
Es ist schwer, Dinge wie „diese Linie ist nicht verbunden“ verständlich zu machen, also lasse ich mir am Ende per Debug-Print Koordinaten ausgeben
- Mit der Browser-Funktion von Cursor ist das bei Webentwicklung ziemlich nützlich
  Über MCP kann man auch Screenshots in den Chat schicken lassen. Es braucht allerdings Umsetzung
- Ich habe Cursor selbst Screenshots gegeben, und das war beim Erzeugen von Web-UI oder Diagrammen ziemlich effektiv
- Claude empfiehlt das Senden von Screenshots offiziell. Sonnet 4.5 ist bei solchen iterativen Aufgaben ebenfalls stark
- Wenn man einen Puppeteer-MCP-Server anschließt, kann Cursor Screenshots seiner eigenen Ausgabe machen und iterativ verbessern
- Sowohl Claude als auch ChatGPT unterstützen Bildeingaben. Mit lm-server kann man auch Nicht-Text-Modelle anbinden
Wirklich eine großartige Idee. Überraschenderweise funktioniert nur Kimi K2 ohne Probleme
Und das, obwohl es nicht einmal die vollständige „thinking“-Version ist
Dadurch habe ich den zugehörigen Artikel Kimi K2 Thinking noch einmal gelesen
Ich frage mich, warum Deepseek und Kimi so viel bessere Ergebnisse liefern als andere Modelle
Ob sie vielleicht speziell für diese Art von Aufgabe trainiert wurden?

AI-Weltuhren

Projektüberblick

Erzeugungsregeln und Prompt

Urheber und Inspiration

Merkmale und Bedeutung

Weitere Informationen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare