Automatische Bewertung von zehn Jahre alten Hacker News-Diskussionen mit LLMs

(karpathy.bearblog.dev)

4 Punkte von GN⁺ 2025-12-11 | Noch keine Kommentare. | Auf WhatsApp teilen

Ein Projekt, das Beiträge und Kommentare von Hacker News von vor zehn Jahren mit LLMs analysiert, um deren „Voraussicht“ zu bewerten, also die Einsichten früherer Diskussionen automatisch zu beurteilen
Mit ChatGPT 5.1 Thinking und Opus 4.5 wurden die Hacker-News-Frontpage im Dezember 2015 (insgesamt 930 Beiträge) über einen Monat gesammelt und analysiert
Auf Basis jedes Artikels und jedes Kommentar-Threads werden automatisch Zusammenfassung, tatsächliche Entwicklung, der präziseste Kommentar, der fehlerhafteste Kommentar und ein Interessens-Score erzeugt
Die Ergebnisse sind als statische HTML-Seite konvertiert und unter karpathy.ai/hncapsule einsehbar; in der „Hall of Fame“ ist die Reihenfolge der aufschlussreichsten Kommentatoren ersichtlich
Betont wird das Potenzial einer großskaligen retrospektiven LLM-Analyse historischer Daten sowie die Aussage „die LLM der Zukunft beobachten uns“.

Projektübersicht

Für die Hacker-News-Frontpage im Dezember 2015 wurde ein LLM-basiertes, automatisches retrospektives Analyse-System aufgebaut
- 30 Artikel × 31 Tage = insgesamt 930 Artikel
- Jeden Artikel- und Kommentar-Thread wurden über die Algolia API gesammelt und anschließend zur Analyse an ChatGPT 5.1 Thinking gesendet
Die Analyseergebnisse werden als statische HTML-Seite gerendert und auf der Website veröffentlicht
- Ergebnisseite: https://karpathy.ai/hncapsule/
- Die Quelldaten (data.zip) werden ebenfalls am selben Ort bereitgestellt

Für jeden Artikel wurde ein Prompt mit 6 Abschnitten verwendet
1. Zusammenfassung von Artikel und Diskussion
2. Was später tatsächlich passiert ist
3. Der präziseste Kommentar und der größtenteils falsche Kommentar
4. Weitere interessante Elemente
5. Liste der Final Grades nach Kommentator
6. Retrospektiver Interessensscore des Artikels (0–10 Punkte)
Das Format wurde strikt vorgegeben, damit das Programm automatisch parsen kann
Die Durchschnittspunkte jedes Kontos werden kumuliert, um die vorausschauendsten Nutzer zu identifizieren

Mit Opus 4.5 in etwa 3 Stunden implementiert; abgesehen von einigen Fehlern lief der Rest reibungslos
Die Kosten für die Verarbeitung der gesamten 930 LLM-Anfragen betrugen rund 58 US-Dollar, die Dauer lag bei etwa 1 Stunde
GitHub-Repository: karpathy/hn-time-capsule
- Jeder kann die Ergebnisse reproduzieren oder anpassen

1. Dezember 2015: Open-Source-Freigabe von Swift
1. Dezember 2015: Start von Figma
1. Dezember 2015: Ankündigung der OpenAI-Gründung
1. Dezember 2015: geohots Comma-Projekt
1. Dezember 2015: SpaceX Orbcomm-2-Start
1. Dezember 2015: Theranos-Probleme
Jeder Link führt zur Analyse-Seite des jeweiligen Datums, sodass sich damalige Diskussionen mit den realen Ergebnissen vergleichen lassen

Die aufschlussreichsten Kommentatoren auf Hacker News im Dezember 2015 werden nach einem IMDb-ähnlichen Durchschnittsscore sortiert
Top-Nutzer: pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth, johncolanduoni
Am unteren Rand ist zudem eine Liste von Nutzern mit niedrigen Bewertungen enthalten, die als „HN-noise (Rauschen)“ klassifiziert sind

Mit dem Satz „Be good, future LLMs are watching“ wird hervorgehoben, dass wir in eine Zeit eintreten, in der zukünftige LLMs vergangene menschliche Aktivität fein säuberlich analysieren können
Es wird angedeutet, dass heutiges Online-Verhalten in einer Zukunft der „zu billigen Intelligenz“ vollständig rekonstruiert werden kann
Es wird die Möglichkeit einer vollständigen Aufzeichnung und Rekonstruktion menschlicher Handlungen skizziert – nicht nur eines „unsichtbaren“ Überwachtwerdens

Dieses Experiment zeigt, dass LLM als Werkzeug zur großskaligen Neubewertung historischer Daten genutzt werden können
Es stellt eine neue Anwendung vor: die automatische Bewertung der Einsichtskraft historischer Debussionen, und zeigt das Potenzial, dass KI sich zu einem retrospektiven Analysten menschlichen Wissens entwickelt