Automatische Bewertung von zehn Jahre alten Hacker News-Diskussionen mit LLMs
(karpathy.bearblog.dev)- Ein Projekt, das Beiträge und Kommentare von Hacker News von vor zehn Jahren mit LLMs analysiert, um deren „Voraussicht“ zu bewerten, also die Einsichten früherer Diskussionen automatisch zu beurteilen
- Mit ChatGPT 5.1 Thinking und Opus 4.5 wurden die Hacker-News-Frontpage im Dezember 2015 (insgesamt 930 Beiträge) über einen Monat gesammelt und analysiert
- Auf Basis jedes Artikels und jedes Kommentar-Threads werden automatisch Zusammenfassung, tatsächliche Entwicklung, der präziseste Kommentar, der fehlerhafteste Kommentar und ein Interessens-Score erzeugt
- Die Ergebnisse sind als statische HTML-Seite konvertiert und unter karpathy.ai/hncapsule einsehbar; in der „Hall of Fame“ ist die Reihenfolge der aufschlussreichsten Kommentatoren ersichtlich
- Betont wird das Potenzial einer großskaligen retrospektiven LLM-Analyse historischer Daten sowie die Aussage „die LLM der Zukunft beobachten uns“.
Projektübersicht
- Für die Hacker-News-Frontpage im Dezember 2015 wurde ein LLM-basiertes, automatisches retrospektives Analyse-System aufgebaut
- 30 Artikel × 31 Tage = insgesamt 930 Artikel
- Jeden Artikel- und Kommentar-Thread wurden über die Algolia API gesammelt und anschließend zur Analyse an ChatGPT 5.1 Thinking gesendet
- Die Analyseergebnisse werden als statische HTML-Seite gerendert und auf der Website veröffentlicht
- Ergebnisseite: https://karpathy.ai/hncapsule/
- Die Quelldaten (
data.zip) werden ebenfalls am selben Ort bereitgestellt
Analyse-Prompt-Struktur
- Für jeden Artikel wurde ein Prompt mit 6 Abschnitten verwendet
- Zusammenfassung von Artikel und Diskussion
- Was später tatsächlich passiert ist
- Der präziseste Kommentar und der größtenteils falsche Kommentar
- Weitere interessante Elemente
- Liste der Final Grades nach Kommentator
- Retrospektiver Interessensscore des Artikels (0–10 Punkte)
- Das Format wurde strikt vorgegeben, damit das Programm automatisch parsen kann
- Die Durchschnittspunkte jedes Kontos werden kumuliert, um die vorausschauendsten Nutzer zu identifizieren
Implementierung und Kosten
- Mit Opus 4.5 in etwa 3 Stunden implementiert; abgesehen von einigen Fehlern lief der Rest reibungslos
- Die Kosten für die Verarbeitung der gesamten 930 LLM-Anfragen betrugen rund 58 US-Dollar, die Dauer lag bei etwa 1 Stunde
- GitHub-Repository: karpathy/hn-time-capsule
- Jeder kann die Ergebnisse reproduzieren oder anpassen
Wichtige Beispiel-Threads
-
- Dezember 2015: Open-Source-Freigabe von Swift
-
- Dezember 2015: Start von Figma
-
- Dezember 2015: Ankündigung der OpenAI-Gründung
-
- Dezember 2015: geohots Comma-Projekt
-
- Dezember 2015: SpaceX Orbcomm-2-Start
-
- Dezember 2015: Theranos-Probleme
- Jeder Link führt zur Analyse-Seite des jeweiligen Datums, sodass sich damalige Diskussionen mit den realen Ergebnissen vergleichen lassen
Hall of Fame
- Die aufschlussreichsten Kommentatoren auf Hacker News im Dezember 2015 werden nach einem IMDb-ähnlichen Durchschnittsscore sortiert
- Top-Nutzer: pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth, johncolanduoni
- Am unteren Rand ist zudem eine Liste von Nutzern mit niedrigen Bewertungen enthalten, die als „HN-noise (Rauschen)“ klassifiziert sind
Philosophische Botschaft
- Mit dem Satz „Be good, future LLMs are watching“ wird hervorgehoben, dass wir in eine Zeit eintreten, in der zukünftige LLMs vergangene menschliche Aktivität fein säuberlich analysieren können
- Es wird angedeutet, dass heutiges Online-Verhalten in einer Zukunft der „zu billigen Intelligenz“ vollständig rekonstruiert werden kann
- Es wird die Möglichkeit einer vollständigen Aufzeichnung und Rekonstruktion menschlicher Handlungen skizziert – nicht nur eines „unsichtbaren“ Überwachtwerdens
Fazit
- Dieses Experiment zeigt, dass LLM als Werkzeug zur großskaligen Neubewertung historischer Daten genutzt werden können
- Es stellt eine neue Anwendung vor: die automatische Bewertung der Einsichtskraft historischer Debussionen, und zeigt das Potenzial, dass KI sich zu einem retrospektiven Analysten menschlichen Wissens entwickelt
1 Kommentare
Hacker-News-Kommentare
Hätte nie gedacht, dass mein Kommentar von 2015 noch einmal so viel Aufmerksamkeit bekommt
Wenn ich mir den alten Kommentar-Link ansehe, bin ich schon ein bisschen stolz
Problematisch wirkt, dass der Code beim Senden von Threads zur Bewertung die Benutzernamen nicht anonymisiert
Dadurch kann der Ruf bestimmter Nutzer die Bewertung stark verzerren
Es wäre interessant, zu testen, ob sich dieser Bias verringern lässt, indem man Benutzernamen zufällig neu zuweist oder prozedural erzeugte Pseudonyme verwendet
Außerdem könnte ein Modell, das Quellen zitiert wie die Gemini API, die Verlässlichkeit der Bewertung erhöhen
Es macht wirklich Spaß, alte Kommentare noch einmal zu lesen
Ich habe selbst ein Replay-System gebaut, um zu sehen, wie sich Diskussionen damals entwickelt haben
Ich teile ein paar Links als Beispiele zur Visualisierung von Karpathys bewerteten Beiträgen
Zwischen Meinungen am Morgen und am Abend scheint es einen ziemlich großen Unterschied zu geben, und es wäre spannend, das einmal zu quantifizieren
Es wäre schön, eine Chrome-Erweiterung zu haben, die neben jedem Benutzernamen einen Realitätsabgleich-Score anzeigt
Also eine Punktzahl dafür, wer mit seinen Vorhersagen tatsächlich richtiglag und wer nicht
Noch fairer wäre ein Ranking, wenn man Nutzer nach dem Anteil ihrer Upvotes auf korrekte Kommentare gewichtet
Ich verfolge Nutzer, die ich häufig upvote, und nutze das als Maßstab nach dem Motto: „Dieser Person kann man vertrauen“
Das ist zwar völlig subjektiv, hat aber Transparenz
So ein System könnte die Community auch kleiner und persönlicher wirken lassen
Tatsächlich leben wir ja ohnehin damit, dass wir uns die Glaubwürdigkeit von Freunden oder Journalisten merken
Man würde die Treffsicherheit von Leuten ranken, die auf WSB oder Twitter Aktienprognosen abgeben
Bei allgemeinen Kommentaren ist es allerdings deutlich schwerer zu definieren, „was überhaupt eine Vorhersage ist“
Sonst könnte etwas wie „Morgen geht die Sonne auf“ die höchste Punktzahl bekommen, obwohl das bedeutungslos wäre
Ich habe zwar scherzhaft „pcwalton, los geht’s!“ gesagt, aber tatsächlich wirkt die Bewertung auf Thread-Ebene ziemlich zufällig
Dieser Thread war vorhersagestark, hatte aber nur 11 Kommentare, und meiner war nur eine Zeile lang
Trotzdem freut es mich, dass meine Meinung zur Zugänglichkeit von Startup-Beteiligungen weit oben gelandet ist
Die Art, wie das System „Vorhersage“ definiert, ist ziemlich subjektiv
Ich hatte eigentlich eher versucht, Vorhersagen zu vermeiden, aber offenbar wurde das trotzdem als Vorhersage gewertet
Ich habe zur Kenntnis genommen, dass meine niedrige Punktzahl wohl berechtigt ist, weil sich die Vision vom „Trillion Tamagotchi“ nicht verwirklicht hat
Was ich aus diesem Projekt mitnehme, ist letztlich, dass langweilige Meinungen am genauesten sind
Je provokanter und selbstsicherer ein Kommentar ist, desto höher ist die Wahrscheinlichkeit, dass er mit der Zeit falschliegt
Zum Beispiel ist etwas wie „Der Preis von Lithium-Ionen-Batterien fällt auf $108/kWh“ als stetige Kostenkurven-Prognose sehr verlässlich
Dagegen stützen sich Schlagzeilen wie „LLMs scheitern im Bereich psychische Gesundheit“ auf Benchmarks, die sich schnell wieder ändern
Eigentlich wäre es hilfreich, eine Methode zu haben, um solche „langweilig, aber richtig“-Meinungen früh zu erkennen
Gleichzeitig könnte es aber auch eine unheimlich treffende Vorhersage sein, wenn die kontinuierlichen Fortschritte der AI am Ende die wirtschaftliche Rolle des Menschen untergraben
Darum gehen langweilige und vorsichtige Meinungen leicht unter
Wie auf Prognosemärkten müsste man bewerten, wie stark jemand von den damaligen Wahrscheinlichkeiten abgewichen ist
Ich bekam die Warnung, dass Gmail zu 90 % voll ist, und habe deshalb am Wochenende ein E-Mail-Analyseprojekt gestartet
Ich habe mehr als 65.000 Mails klassifiziert, und über die Hälfte davon war Müll
Ursprünglich wollte ich unnötige Mails löschen, aber inzwischen denke ich eher, dass es sicherer ist, persönliche und wertvolle E-Mails zu löschen
und Google stattdessen nur nutzlose Daten wie Newsletter oder Belege zu überlassen
Ich lasse HN-Kommentare oft von einem LLM zusammenfassen
Häufig kommen dabei aufschlussreichere Zusammenfassungen heraus als im Original, und ich halte das für einen echten Gamechanger
Ich bin überrascht, dass der Autor dachte, das hätte die Qualitätsprüfung bestanden
Die Bewertungen des LLM wirken größtenteils völlig daneben
Wenn man sich die Reviews auf der eigentlichen Seite ansieht, scheint das Modell nicht „War die Vorhersage richtig?“, sondern eher „Stimme ich zu?“ bewertet zu haben
Am Ende werden dadurch konforme Meinungen mit hohen Punktzahlen belohnt
LLM-Review
lobt, dass er „die harsche Natur des Spiels gut beschrieben“ habe
Aber das ist keine Zukunftsprognose, sondern nur eine Beschreibung der damaligen Gegenwart
Außerdem könnte es in Wirklichkeit sogar das Gegenteil bedeuten
Dass so ein Fall weit oben auftaucht, zeigt, wie kaputt die Bewertungskriterien sind
Beim Beitrag Kickstarter is Debt
wurde zum Beispiel eine Vorhersage, die die Zukunft von Oculus und Pebble vergleicht, als exakt richtig bewertet
Solche Stellen wirken wie eine ziemlich präzise und nützliche Analyse
Sie ignoriert Anweisungen, mischt ihre eigene Meinung hinein und ist nicht kalibriert
Ein „gutes“ LLM-Bewertungssystem sollte eher als Summe vieler einfacher binärer Entscheidungen (richtig/falsch) funktionieren
Für Spaß ist das Projekt okay, aber als echtes Bewertungswerkzeug ungeeignet