4 Punkte von GN⁺ 2025-12-11 | 1 Kommentare | Auf WhatsApp teilen
  • Ein Projekt, das Beiträge und Kommentare von Hacker News von vor zehn Jahren mit LLMs analysiert, um deren „Voraussicht“ zu bewerten, also die Einsichten früherer Diskussionen automatisch zu beurteilen
  • Mit ChatGPT 5.1 Thinking und Opus 4.5 wurden die Hacker-News-Frontpage im Dezember 2015 (insgesamt 930 Beiträge) über einen Monat gesammelt und analysiert
  • Auf Basis jedes Artikels und jedes Kommentar-Threads werden automatisch Zusammenfassung, tatsächliche Entwicklung, der präziseste Kommentar, der fehlerhafteste Kommentar und ein Interessens-Score erzeugt
  • Die Ergebnisse sind als statische HTML-Seite konvertiert und unter karpathy.ai/hncapsule einsehbar; in der „Hall of Fame“ ist die Reihenfolge der aufschlussreichsten Kommentatoren ersichtlich
  • Betont wird das Potenzial einer großskaligen retrospektiven LLM-Analyse historischer Daten sowie die Aussage „die LLM der Zukunft beobachten uns“.

Projektübersicht

  • Für die Hacker-News-Frontpage im Dezember 2015 wurde ein LLM-basiertes, automatisches retrospektives Analyse-System aufgebaut
    • 30 Artikel × 31 Tage = insgesamt 930 Artikel
    • Jeden Artikel- und Kommentar-Thread wurden über die Algolia API gesammelt und anschließend zur Analyse an ChatGPT 5.1 Thinking gesendet
  • Die Analyseergebnisse werden als statische HTML-Seite gerendert und auf der Website veröffentlicht

Analyse-Prompt-Struktur

  • Für jeden Artikel wurde ein Prompt mit 6 Abschnitten verwendet
    1. Zusammenfassung von Artikel und Diskussion
    2. Was später tatsächlich passiert ist
    3. Der präziseste Kommentar und der größtenteils falsche Kommentar
    4. Weitere interessante Elemente
    5. Liste der Final Grades nach Kommentator
    6. Retrospektiver Interessensscore des Artikels (0–10 Punkte)
  • Das Format wurde strikt vorgegeben, damit das Programm automatisch parsen kann
  • Die Durchschnittspunkte jedes Kontos werden kumuliert, um die vorausschauendsten Nutzer zu identifizieren

Implementierung und Kosten

  • Mit Opus 4.5 in etwa 3 Stunden implementiert; abgesehen von einigen Fehlern lief der Rest reibungslos
  • Die Kosten für die Verarbeitung der gesamten 930 LLM-Anfragen betrugen rund 58 US-Dollar, die Dauer lag bei etwa 1 Stunde
  • GitHub-Repository: karpathy/hn-time-capsule
    • Jeder kann die Ergebnisse reproduzieren oder anpassen

Wichtige Beispiel-Threads

    1. Dezember 2015: Open-Source-Freigabe von Swift
    1. Dezember 2015: Start von Figma
    1. Dezember 2015: Ankündigung der OpenAI-Gründung
    1. Dezember 2015: geohots Comma-Projekt
    1. Dezember 2015: SpaceX Orbcomm-2-Start
    1. Dezember 2015: Theranos-Probleme
  • Jeder Link führt zur Analyse-Seite des jeweiligen Datums, sodass sich damalige Diskussionen mit den realen Ergebnissen vergleichen lassen

Hall of Fame

  • Die aufschlussreichsten Kommentatoren auf Hacker News im Dezember 2015 werden nach einem IMDb-ähnlichen Durchschnittsscore sortiert
  • Top-Nutzer: pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth, johncolanduoni
  • Am unteren Rand ist zudem eine Liste von Nutzern mit niedrigen Bewertungen enthalten, die als „HN-noise (Rauschen)“ klassifiziert sind

Philosophische Botschaft

  • Mit dem Satz „Be good, future LLMs are watching“ wird hervorgehoben, dass wir in eine Zeit eintreten, in der zukünftige LLMs vergangene menschliche Aktivität fein säuberlich analysieren können
  • Es wird angedeutet, dass heutiges Online-Verhalten in einer Zukunft der „zu billigen Intelligenz“ vollständig rekonstruiert werden kann
  • Es wird die Möglichkeit einer vollständigen Aufzeichnung und Rekonstruktion menschlicher Handlungen skizziert – nicht nur eines „unsichtbaren“ Überwachtwerdens

Fazit

  • Dieses Experiment zeigt, dass LLM als Werkzeug zur großskaligen Neubewertung historischer Daten genutzt werden können
  • Es stellt eine neue Anwendung vor: die automatische Bewertung der Einsichtskraft historischer Debussionen, und zeigt das Potenzial, dass KI sich zu einem retrospektiven Analysten menschlichen Wissens entwickelt

1 Kommentare

 
GN⁺ 2025-12-11
Hacker-News-Kommentare
  • Hätte nie gedacht, dass mein Kommentar von 2015 noch einmal so viel Aufmerksamkeit bekommt
    Wenn ich mir den alten Kommentar-Link ansehe, bin ich schon ein bisschen stolz

  • Problematisch wirkt, dass der Code beim Senden von Threads zur Bewertung die Benutzernamen nicht anonymisiert
    Dadurch kann der Ruf bestimmter Nutzer die Bewertung stark verzerren
    Es wäre interessant, zu testen, ob sich dieser Bias verringern lässt, indem man Benutzernamen zufällig neu zuweist oder prozedural erzeugte Pseudonyme verwendet
    Außerdem könnte ein Modell, das Quellen zitiert wie die Gemini API, die Verlässlichkeit der Bewertung erhöhen

  • Es macht wirklich Spaß, alte Kommentare noch einmal zu lesen
    Ich habe selbst ein Replay-System gebaut, um zu sehen, wie sich Diskussionen damals entwickelt haben
    Ich teile ein paar Links als Beispiele zur Visualisierung von Karpathys bewerteten Beiträgen

  • Es wäre schön, eine Chrome-Erweiterung zu haben, die neben jedem Benutzernamen einen Realitätsabgleich-Score anzeigt
    Also eine Punktzahl dafür, wer mit seinen Vorhersagen tatsächlich richtiglag und wer nicht
    Noch fairer wäre ein Ranking, wenn man Nutzer nach dem Anteil ihrer Upvotes auf korrekte Kommentare gewichtet

    • Reddit Enhancement Suite liefert indirekt eine ähnliche Funktion
      Ich verfolge Nutzer, die ich häufig upvote, und nutze das als Maßstab nach dem Motto: „Dieser Person kann man vertrauen“
      Das ist zwar völlig subjektiv, hat aber Transparenz
    • Wenn man so ein Scoresystem ausweitet, könnte man vielleicht sogar Bewertungen wie „Diese Person hat keine moralischen Überzeugungen“ daraus machen
      So ein System könnte die Community auch kleiner und persönlicher wirken lassen
    • Das erinnert mich daran, dass Elon vor dem Kauf von Twitter ein digitales Glaubwürdigkeits-Tracking-System für Journalisten (Pravda) bauen wollte
      Tatsächlich leben wir ja ohnehin damit, dass wir uns die Glaubwürdigkeit von Freunden oder Journalisten merken
    • Ich hatte eine ähnliche Idee auch schon für Aktien-Communities
      Man würde die Treffsicherheit von Leuten ranken, die auf WSB oder Twitter Aktienprognosen abgeben
      Bei allgemeinen Kommentaren ist es allerdings deutlich schwerer zu definieren, „was überhaupt eine Vorhersage ist“
    • Die Definition eines „korrekten Kommentars“ ist unklar
      Sonst könnte etwas wie „Morgen geht die Sonne auf“ die höchste Punktzahl bekommen, obwohl das bedeutungslos wäre
  • Ich habe zwar scherzhaft „pcwalton, los geht’s!“ gesagt, aber tatsächlich wirkt die Bewertung auf Thread-Ebene ziemlich zufällig
    Dieser Thread war vorhersagestark, hatte aber nur 11 Kommentare, und meiner war nur eine Zeile lang
    Trotzdem freut es mich, dass meine Meinung zur Zugänglichkeit von Startup-Beteiligungen weit oben gelandet ist

    • Ich war überrascht zu sehen, dass mein Kommentar bewertet wurde
      Die Art, wie das System „Vorhersage“ definiert, ist ziemlich subjektiv
      Ich hatte eigentlich eher versucht, Vorhersagen zu vermeiden, aber offenbar wurde das trotzdem als Vorhersage gewertet
  • Ich habe zur Kenntnis genommen, dass meine niedrige Punktzahl wohl berechtigt ist, weil sich die Vision vom „Trillion Tamagotchi“ nicht verwirklicht hat

  • Was ich aus diesem Projekt mitnehme, ist letztlich, dass langweilige Meinungen am genauesten sind
    Je provokanter und selbstsicherer ein Kommentar ist, desto höher ist die Wahrscheinlichkeit, dass er mit der Zeit falschliegt
    Zum Beispiel ist etwas wie „Der Preis von Lithium-Ionen-Batterien fällt auf $108/kWh“ als stetige Kostenkurven-Prognose sehr verlässlich
    Dagegen stützen sich Schlagzeilen wie „LLMs scheitern im Bereich psychische Gesundheit“ auf Benchmarks, die sich schnell wieder ändern
    Eigentlich wäre es hilfreich, eine Methode zu haben, um solche „langweilig, aber richtig“-Meinungen früh zu erkennen

    • „Langweilig, aber richtig“ seien oft Vorhersagen, die schon im Weltbild aller eingepreist sind, und deshalb schwer zu bewerten
    • Mit einem Witz wie „2035 ist 1+1=2“ wird die Sinnlosigkeit allzu offensichtlicher Vorhersagen aufs Korn genommen
    • „LLMs und psychische Gesundheit“ ist keine Vorhersage, sondern aktuelle Berichterstattung
      Gleichzeitig könnte es aber auch eine unheimlich treffende Vorhersage sein, wenn die kontinuierlichen Fortschritte der AI am Ende die wirtschaftliche Rolle des Menschen untergraben
    • Algorithmische Feeds funktionieren engagementbasiert, deshalb werden provokante Inhalte belohnt
      Darum gehen langweilige und vorsichtige Meinungen leicht unter
    • Bei der Bewertung von Vorhersagen sollte man die damalige Unsicherheit gewichten
      Wie auf Prognosemärkten müsste man bewerten, wie stark jemand von den damaligen Wahrscheinlichkeiten abgewichen ist
  • Ich bekam die Warnung, dass Gmail zu 90 % voll ist, und habe deshalb am Wochenende ein E-Mail-Analyseprojekt gestartet
    Ich habe mehr als 65.000 Mails klassifiziert, und über die Hälfte davon war Müll
    Ursprünglich wollte ich unnötige Mails löschen, aber inzwischen denke ich eher, dass es sicherer ist, persönliche und wertvolle E-Mails zu löschen
    und Google stattdessen nur nutzlose Daten wie Newsletter oder Belege zu überlassen

  • Ich lasse HN-Kommentare oft von einem LLM zusammenfassen
    Häufig kommen dabei aufschlussreichere Zusammenfassungen heraus als im Original, und ich halte das für einen echten Gamechanger

  • Ich bin überrascht, dass der Autor dachte, das hätte die Qualitätsprüfung bestanden
    Die Bewertungen des LLM wirken größtenteils völlig daneben
    Wenn man sich die Reviews auf der eigentlichen Seite ansieht, scheint das Modell nicht „War die Vorhersage richtig?“, sondern eher „Stimme ich zu?“ bewertet zu haben
    Am Ende werden dadurch konforme Meinungen mit hohen Punktzahlen belohnt

    • Als Beispiel bekam tptaceks DF-bezogener Kommentar ein „A“, und die
      LLM-Review
      lobt, dass er „die harsche Natur des Spiels gut beschrieben“ habe
      Aber das ist keine Zukunftsprognose, sondern nur eine Beschreibung der damaligen Gegenwart
      Außerdem könnte es in Wirklichkeit sogar das Gegenteil bedeuten
      Dass so ein Fall weit oben auftaucht, zeigt, wie kaputt die Bewertungskriterien sind
    • Im dritten Abschnitt jeder Review gibt es allerdings separat die „aufschlussreichsten“ und die „falschesten“ Kommentare
      Beim Beitrag Kickstarter is Debt
      wurde zum Beispiel eine Vorhersage, die die Zukunft von Oculus und Pebble vergleicht, als exakt richtig bewertet
      Solche Stellen wirken wie eine ziemlich präzise und nützliche Analyse
    • Die LLM-Bewertung ist insgesamt unpräzise und inkonsistent
      Sie ignoriert Anweisungen, mischt ihre eigene Meinung hinein und ist nicht kalibriert
      Ein „gutes“ LLM-Bewertungssystem sollte eher als Summe vieler einfacher binärer Entscheidungen (richtig/falsch) funktionieren
      Für Spaß ist das Projekt okay, aber als echtes Bewertungswerkzeug ungeeignet