5 Punkte von GN⁺ 2026-01-13 | 1 Kommentare | Auf WhatsApp teilen
  • TimeCapsuleLLM ist ein großes Sprachmodell (LLM), das ausschließlich mit Materialien aus einem bestimmten Zeitraum (1800–1875) trainiert wurde, mit dem Ziel, moderne Verzerrungen zu minimieren und Sprache sowie Weltbild jener Zeit nachzubilden
  • Das Modell verwendet einen Datensatz aus historischen Dokumenten, Büchern, Zeitungen und Rechtsdokumenten aus dem Raum London, um zeittypischen Sprachstil und Wortschatz widerzuspiegeln
  • Die frühen Versionen basierten auf nanoGPT, spätere Versionen auf Microsoft Phi 1.5; der Datenumfang reicht bis 90GB, die Modelle bis zu 700M Parametern
  • Über den Ansatz Selective Temporal Training (STT) wird nur Datenmaterial aus einem bestimmten Zeitraum ausgewählt, damit keine modernen Konzepte einfließen
  • Ein experimentelles Projekt, das das Potenzial historischer Sprachmodellforschung und der zeitgebundenen Reproduktion von KI-Sprache aufzeigt

Projektüberblick

  • TimeCapsuleLLM ist ein Sprachmodell, das nur mit Daten aus einer bestimmten Zeit und einem bestimmten Ort trainiert wurde, mit dem Ziel, moderne Verzerrungen zu verringern und Wortschatz, Stil und Weltbild dieser Epoche nachzubilden
    • Vorgestellt wird das Konzept eines „Modells, das nicht einfach historische Persönlichkeiten nachahmt, sondern tatsächlich die Sprache dieser Zeit verwendet“
  • Die frühen Versionen (v0, v0.5) wurden auf Basis von Andrej Karpathys nanoGPT entwickelt, v1 auf Basis von Microsoft Phi 1.5
  • Das Modell ist auf Hugging Face veröffentlicht

Merkmale nach Modellversion

  • v0
    • Mit etwa 187MB Daten trainiert
    • Verwendet Wortschatz aus dem 19. Jahrhundert, die Sätze sind jedoch meist noch ungrammatisch
    • Moderne Konzepte tauchen überhaupt nicht auf
  • v0.5
    • Grammatik und Zeichensetzung wurden verbessert, wodurch ein viktorianischer Stil nachgebildet wird
    • Die Fehlerrate bei Fakten ist hoch, außerdem ist OCR-Rauschen enthalten (z. B. „Digitized by Google“)
  • v1
    • Erzeugt Antworten, die reale historische Ereignisse und Personen miteinander verknüpfen
    • Beispiel: Auf den Prompt „It was the year of our Lord 1834“ wird ein Satz erzeugt, der Proteste und Petitionen in London erwähnt
  • v2mini-eval1 / eval2
    • Mit einem 15GB-Sample aus insgesamt 90GB für 10K Schritte trainiert
    • Aufgrund eines Tokenizer-Problems wurden Wörter zunächst getrennt ausgegeben; nach der Korrektur blieb die Satzstruktur erhalten
    • Erzeugt auf Prompts wie „Charles Dickens“ oder „Charles Darwin“ Beschreibungen im Stil des 19. Jahrhunderts

Zusammensetzung des Datensatzes

  • v2-Datensatz
    • 90GB Londoner Texte aus den Jahren 1800–1875, insgesamt 136.344 Dokumente
    • Die vollständige Tokenisierung ist noch nicht abgeschlossen; ein 15GB-Sample ist auf Hugging Face veröffentlicht
  • Die Daten stammen aus gemeinfreien Büchern, Zeitungen, Rechtsdokumenten usw.
  • Datengröße nach Version
    • v0: 187MB
    • v0.5: 435MB
    • v1: 6.25GB
    • v2mini-eval1: 15GB

Selective Temporal Training (STT)

  • STT ist eine Methodik, bei der nur Daten aus einem bestimmten historischen Zeitraum zum Training verwendet werden
    • Der Einfluss moderner Konzepte wird ausgeschlossen, sodass nur Wissen und Sprache dieser Epoche einfließen
    • TimeCapsuleLLM v0.5 wurde von Grund auf (from scratch) ausschließlich mit Daten aus den Jahren 1800–1875 trainiert
  • Statt ein bestehendes Modell feinzutunen (fine-tuning), wird es vollständig neu trainiert, um Reste moderner Informationen zu entfernen

Modellgröße und Trainingsumgebung

  • Anzahl der Modellparameter
    • v0: 16M
    • v0.5: 123M
    • v1: 700M
    • v2mini-eval1: 300M
  • Trainingshardware
    • v0/v0.5: RTX 4060 GPU, i5-13400F CPU, 16GB RAM
    • v1, v2mini-eval1: gemietete A100 SXM GPU

Verwendung

  • Das Projekt konzentriert sich auf Sammlung, Bereinigung und Tokenizer-Erstellung für historische Daten
  • Schrittweises Vorgehen
    1. Historische Texte sammeln: zeitbezogene Texte aus gemeinfreien Dokumenten, Büchern usw. beschaffen
    2. Tokenizer erstellen: train_tokenizer.py ausführen, um vocab.json und merges.txt zu erzeugen
    3. Modell trainieren: nanoGPT oder die Dokumentation der gewählten Architektur konsultieren

Bias-Analyse

  • Für die Ergebnisse von v2mini-eval1 werden Visualisierungen zu pronominalen, geografischen und zeitlichen Verzerrungen bereitgestellt
  • Detaillierte Statistiken sind in der Datei v2_bias_report.json verfügbar

Lizenz und Veröffentlichungsinformationen

  • Veröffentlicht unter der MIT License
  • Auf GitHub mit 1.2k Stars und 41 Forks
  • Hauptsprache: Python 100%
  • Neueste Release: v2mini-eval2 — London (1800–1875)

1 Kommentare

 
GN⁺ 2026-01-13
Hacker-News-Kommentare
  • Ich frage mich, wie es wäre, ein modernes Modell mit einem Stichtag 1900 zu trainieren und es dann zu Quantenmechanik (QM) und Relativitätstheorie zu befragen
    Falls das Modell auch nur ansatzweise richtige Antworten gäbe, wäre das ein starkes Indiz dafür, dass LLMs ein Weg zu höherer Intelligenz sein könnten

    • Schon damals gab es Konzepte, die QM und Relativitätstheorie nahe kamen
      Das Michelson-Morley-Experiment (1887), die Lorentz-Transformationen (1889) und der photoelektrische Effekt (1887) sind Beispiele dafür
      William Clifford starb zwar 1889, brachte aber die Idee vor, Kräfte und Materie durch die Krümmung des Raums zu erklären
      Wissenschaft entsteht nicht plötzlich, und wenn man die damaligen Arbeiten zusammenführt, hätten solche Theorien vielleicht auf natürliche Weise entstehen können
    • Ich arbeite gerade an einem Projekt, das ein Modell vor allem auf deutschsprachiger wissenschaftlicher Literatur (vor 1904) trainiert
      Die OCR-Qualität ist so schlecht, dass ich das meiste manuell bearbeiten muss, aber ein 700M-Parameter-Modell ist auch zu Hause machbar
      Für echte Schlussfolgerungsfähigkeit bräuchte man allerdings eher ein Modell in der 70B-Klasse
      Eine weitere große Herausforderung ist, zu verhindern, dass beim Fine-Tuning und im RL-Prozess Wissen aus 2026 einfließt
    • Auch Chemie wäre ein spannendes Versuchsfeld
      Die zweite Hälfte des 19. Jahrhunderts war ein goldenes Zeitalter der Chemie, und ich frage mich, ob ein LLM thermodynamische Vorhersagen oder neue Hypothesen liefern könnte
    • Es gibt bereits ein ähnliches Projekt: history-llms
      Die zugehörige Diskussion findet sich im HN-Thread
    • Empfehlenswert ist auch die Arbeit von Li et al. (2024), "Evaluating Large Language Models for Generalization and Robustness via Data Compression"
      Der Ansatz, Generalisierung und Robustheit eines Modells über die Datenkompressionsrate (Perplexity) zu messen, ist sehr eindrucksvoll
  • Dass jemand „Who art Henry“ für Englisch im Stil des 19. Jahrhunderts hielt, wirkt wie ein Beispiel für mangelndes historisches Sprachgefühl
    Tatsächlich ist das zu keiner Zeit grammatikalisch korrekt

    • Als jemand, der viele christliche Texte aus dem 17. bis 19. Jahrhundert gelesen hat, stimme ich zu, dass dieser Ausdruck seltsam klingt
    • Wenn „Who art Henry“ der Prompt war, würde mich interessieren, welche Formulierung im echten Stil des 19. Jahrhunderts passend gewesen wäre
  • Es ist spannend, ob dieses Experiment ein Test für die Möglichkeit von AGI sein könnte
    Die Frage ist, ob man einem Modell nur Daten bis zu einem bestimmten Zeitpunkt (Jahr X) geben und es spätere Entdeckungen (Y) selbst herleiten lassen kann

    • Zunächst müsste man definieren, was AGI überhaupt bedeutet
      Manche Entdeckungen lassen sich durch die Kombination bestehender Ideen erreichen, aber für Relativitätstheorie und Quantenmechanik waren Experimente unverzichtbar
      Ein damaliges Modell hätte zum Beispiel die Allgemeine Relativitätstheorie mathematisch vielleicht ausarbeiten können, hätte die Periheldrehung des Merkur aber wahrscheinlich dem Planeten Vulcan zugeschrieben (Vulcan auf Wikipedia)
    • Datenlecks vollständig zu verhindern, ist fast unmöglich
      Durch falsch klassifizierte Dokumente, Anmerkungen oder Metadaten besteht ein hohes Risiko des Wissenslecks
    • Grundsätzlich gibt es mit historischen Daten allein zu wenig Material, um ein SoTA-Modell zu trainieren
    • Damit dieses Experiment wirklich möglich wäre, bräuchte man ein Modell auf GPT-5-Niveau
      Erforderlich wären gewaltige Textmengen, sehr viele Parameter und ein RLHF-Prozess im Stil des 19. Jahrhunderts
    • Ein solches Experiment wäre ein echter Test dafür, ob LLMs kreativ denken oder nur reproduzieren
  • Es wird die Idee vorgeschlagen, ein auf Daten von 1800–1875 trainiertes Modell mit einem auf Daten von 1800–2025 trainierten Modell zu vergleichen
    Mithilfe der Differenz zwischen den beiden Wahrscheinlichkeitsverteilungen könnte man versuchen, Vorhersagen für 2040 zu machen
    In der Praxis wäre eine genaue Vorhersage zwar schwierig, aber als Experiment zur Interpolation/Extrapolation von Wahrscheinlichkeitsverteilungen wäre es interessant

    • Dazu kommt noch der Witz, dass es am Ende vielleicht einfach wie Slang der Gen-Alpha-Generation klingen würde
  • Ein interessantes Konzept, aber die damaligen aufgezeichneten Daten sind stark auf Wissenseliten zentriert verzerrt
    Es war nicht wie heute, wo praktisch jeder Spuren in Form von Aufzeichnungen hinterlässt
    Moderne Modelle werden mit Dutzenden TB an Text trainiert, während Daten aus dem 19. Jahrhundert deutlich knapper und weniger vielfältig sind
    Deshalb ist es ein natürliches Ergebnis, wenn Fragen wie „Was geschah 1834?“ in einem Ton beantwortet werden, der an Zeitungsberichte erinnert

    • Diese konsistente Verzerrung könnte aber auch ein Vorteil sein
      Heutige LLMs vermischen die Gedanken von zu vielen Menschen und erzeugen dadurch mitunter rauschhafte Ausgaben
      Ein Modell, das auf der konsistenten Perspektive einer bestimmten Epoche trainiert wurde, könnte einen vorhersehbaren Antwortstil haben
    • Verzerrungen, die durch künstliche Beschränkungen sichtbar werden, können im Gegenteil helfen, die verborgenen Verzerrungen aktueller Modelle offenzulegen
    • Moderne Modelle sind englischzentriert, westlich geprägt und auf Perspektiven seit den 1990ern fokussiert
      Hinzu kommt, dass im Alignment-Prozess die Wertvorstellungen des Anbieters einfließen
      Ein auf historischen Daten basierendes Modell würde die Vorurteile seiner Zeit dagegen eher „zufällig“ widerspiegeln
  • Immerhin könnte so ein Modell die Emoji-Schwemme eindämmen
    Ich frage mich allerdings, wie sich das Tokenizing dadurch verändern würde
    Es hätte zwar kein Programmierwissen, aber vielleicht ließe sich in Kombination mit einem modernen LLM eine Code-Erklärung im Stil des 19. Jahrhunderts erzeugen
    Ich überlege, ob eine Art Layer-Mischung möglich wäre, ähnlich wie bei früheren Style-Transfer-Modellen

    • Jemand schlägt auch vor: „Warum lässt man nicht einfach die beiden Modelle miteinander reden?“
  • Es hat etwas Liebenswertes, ein Modell nur mit Dokumenten aus der Zeit vor der Informatisierung zu trainieren und ihm dann beizubringen, was ein Computer ist
    Allerdings wirkt die aktuelle Ausgabe eher auf dem Niveau einer Markov-Kette als wie ChatGPT

  • Das erinnert mich an ein anderes kürzlich auf HN gepostetes „zeitverriegeltes LLM-Projekt“
    Das Ergebnis war überzeugend aufgemacht, aber man überlegt noch, wie sich Missbrauch und Missverständnisse verhindern lassen
    Siehe dazu den zugehörigen Thread

  • Falls dieses Modell konsistente Ausgaben liefert, könnte das das Argument entkräften, dass für das Training von LLMs urheberrechtlich geschütztes Material unverzichtbar sei
    Im Moment scheint es allerdings noch nicht auf diesem Niveau zu sein

    • Der Vollständigkeit halber: Es gibt bereits Beispiele für recht gute Modelle, die nur mit offenen Daten gebaut wurden
      The Common Pile v0.1 baute ein 7B-Parameter-Modell aus 8 TB offenem Text
  • Ich habe auch ein ähnliches Experiment gemacht: transformer-Projekt
    Ich habe separate Modelle mit unterschiedlichen Werken trainiert, darunter die Bibel, Don Quijote und Kafka
    (Es gab auch einen Songtext-Generator und einen Übersetzer, aber die Qualität war eher mäßig)