TimeCapsuleLLM: Ein großes Sprachmodell, das nur mit Daten aus den Jahren 1800–1875 trainiert wurde

(github.com/haykgrigo3)

5 Punkte von GN⁺ 2026-01-13 | Noch keine Kommentare. | Auf WhatsApp teilen

TimeCapsuleLLM ist ein großes Sprachmodell (LLM), das ausschließlich mit Materialien aus einem bestimmten Zeitraum (1800–1875) trainiert wurde, mit dem Ziel, moderne Verzerrungen zu minimieren und Sprache sowie Weltbild jener Zeit nachzubilden
Das Modell verwendet einen Datensatz aus historischen Dokumenten, Büchern, Zeitungen und Rechtsdokumenten aus dem Raum London, um zeittypischen Sprachstil und Wortschatz widerzuspiegeln
Die frühen Versionen basierten auf nanoGPT, spätere Versionen auf Microsoft Phi 1.5; der Datenumfang reicht bis 90GB, die Modelle bis zu 700M Parametern
Über den Ansatz Selective Temporal Training (STT) wird nur Datenmaterial aus einem bestimmten Zeitraum ausgewählt, damit keine modernen Konzepte einfließen
Ein experimentelles Projekt, das das Potenzial historischer Sprachmodellforschung und der zeitgebundenen Reproduktion von KI-Sprache aufzeigt

Projektüberblick

TimeCapsuleLLM ist ein Sprachmodell, das nur mit Daten aus einer bestimmten Zeit und einem bestimmten Ort trainiert wurde, mit dem Ziel, moderne Verzerrungen zu verringern und Wortschatz, Stil und Weltbild dieser Epoche nachzubilden
- Vorgestellt wird das Konzept eines „Modells, das nicht einfach historische Persönlichkeiten nachahmt, sondern tatsächlich die Sprache dieser Zeit verwendet“
Die frühen Versionen (v0, v0.5) wurden auf Basis von Andrej Karpathys nanoGPT entwickelt, v1 auf Basis von Microsoft Phi 1.5
Das Modell ist auf Hugging Face veröffentlicht

v0
- Mit etwa 187MB Daten trainiert
- Verwendet Wortschatz aus dem 19. Jahrhundert, die Sätze sind jedoch meist noch ungrammatisch
- Moderne Konzepte tauchen überhaupt nicht auf
v0.5
- Grammatik und Zeichensetzung wurden verbessert, wodurch ein viktorianischer Stil nachgebildet wird
- Die Fehlerrate bei Fakten ist hoch, außerdem ist OCR-Rauschen enthalten (z. B. „Digitized by Google“)
v1
- Erzeugt Antworten, die reale historische Ereignisse und Personen miteinander verknüpfen
- Beispiel: Auf den Prompt „It was the year of our Lord 1834“ wird ein Satz erzeugt, der Proteste und Petitionen in London erwähnt
v2mini-eval1 / eval2
- Mit einem 15GB-Sample aus insgesamt 90GB für 10K Schritte trainiert
- Aufgrund eines Tokenizer-Problems wurden Wörter zunächst getrennt ausgegeben; nach der Korrektur blieb die Satzstruktur erhalten
- Erzeugt auf Prompts wie „Charles Dickens“ oder „Charles Darwin“ Beschreibungen im Stil des 19. Jahrhunderts

v2-Datensatz
- 90GB Londoner Texte aus den Jahren 1800–1875, insgesamt 136.344 Dokumente
- Die vollständige Tokenisierung ist noch nicht abgeschlossen; ein 15GB-Sample ist auf Hugging Face veröffentlicht
Die Daten stammen aus gemeinfreien Büchern, Zeitungen, Rechtsdokumenten usw.
Datengröße nach Version
- v0: 187MB
- v0.5: 435MB
- v1: 6.25GB
- v2mini-eval1: 15GB

STT ist eine Methodik, bei der nur Daten aus einem bestimmten historischen Zeitraum zum Training verwendet werden
- Der Einfluss moderner Konzepte wird ausgeschlossen, sodass nur Wissen und Sprache dieser Epoche einfließen
- TimeCapsuleLLM v0.5 wurde von Grund auf (from scratch) ausschließlich mit Daten aus den Jahren 1800–1875 trainiert
Statt ein bestehendes Modell feinzutunen (fine-tuning), wird es vollständig neu trainiert, um Reste moderner Informationen zu entfernen

Anzahl der Modellparameter
- v0: 16M
- v0.5: 123M
- v1: 700M
- v2mini-eval1: 300M
Trainingshardware
- v0/v0.5: RTX 4060 GPU, i5-13400F CPU, 16GB RAM
- v1, v2mini-eval1: gemietete A100 SXM GPU

Das Projekt konzentriert sich auf Sammlung, Bereinigung und Tokenizer-Erstellung für historische Daten
Schrittweises Vorgehen
1. Historische Texte sammeln: zeitbezogene Texte aus gemeinfreien Dokumenten, Büchern usw. beschaffen
2. Tokenizer erstellen: train_tokenizer.py ausführen, um vocab.json und merges.txt zu erzeugen
3. Modell trainieren: nanoGPT oder die Dokumentation der gewählten Architektur konsultieren

Für die Ergebnisse von v2mini-eval1 werden Visualisierungen zu pronominalen, geografischen und zeitlichen Verzerrungen bereitgestellt
Detaillierte Statistiken sind in der Datei v2_bias_report.json verfügbar