5 Punkte von GN⁺ 2026-01-13 | Noch keine Kommentare. | Auf WhatsApp teilen
  • TimeCapsuleLLM ist ein großes Sprachmodell (LLM), das ausschließlich mit Materialien aus einem bestimmten Zeitraum (1800–1875) trainiert wurde, mit dem Ziel, moderne Verzerrungen zu minimieren und Sprache sowie Weltbild jener Zeit nachzubilden
  • Das Modell verwendet einen Datensatz aus historischen Dokumenten, Büchern, Zeitungen und Rechtsdokumenten aus dem Raum London, um zeittypischen Sprachstil und Wortschatz widerzuspiegeln
  • Die frühen Versionen basierten auf nanoGPT, spätere Versionen auf Microsoft Phi 1.5; der Datenumfang reicht bis 90GB, die Modelle bis zu 700M Parametern
  • Über den Ansatz Selective Temporal Training (STT) wird nur Datenmaterial aus einem bestimmten Zeitraum ausgewählt, damit keine modernen Konzepte einfließen
  • Ein experimentelles Projekt, das das Potenzial historischer Sprachmodellforschung und der zeitgebundenen Reproduktion von KI-Sprache aufzeigt

Projektüberblick

  • TimeCapsuleLLM ist ein Sprachmodell, das nur mit Daten aus einer bestimmten Zeit und einem bestimmten Ort trainiert wurde, mit dem Ziel, moderne Verzerrungen zu verringern und Wortschatz, Stil und Weltbild dieser Epoche nachzubilden
    • Vorgestellt wird das Konzept eines „Modells, das nicht einfach historische Persönlichkeiten nachahmt, sondern tatsächlich die Sprache dieser Zeit verwendet“
  • Die frühen Versionen (v0, v0.5) wurden auf Basis von Andrej Karpathys nanoGPT entwickelt, v1 auf Basis von Microsoft Phi 1.5
  • Das Modell ist auf Hugging Face veröffentlicht

Merkmale nach Modellversion

  • v0
    • Mit etwa 187MB Daten trainiert
    • Verwendet Wortschatz aus dem 19. Jahrhundert, die Sätze sind jedoch meist noch ungrammatisch
    • Moderne Konzepte tauchen überhaupt nicht auf
  • v0.5
    • Grammatik und Zeichensetzung wurden verbessert, wodurch ein viktorianischer Stil nachgebildet wird
    • Die Fehlerrate bei Fakten ist hoch, außerdem ist OCR-Rauschen enthalten (z. B. „Digitized by Google“)
  • v1
    • Erzeugt Antworten, die reale historische Ereignisse und Personen miteinander verknüpfen
    • Beispiel: Auf den Prompt „It was the year of our Lord 1834“ wird ein Satz erzeugt, der Proteste und Petitionen in London erwähnt
  • v2mini-eval1 / eval2
    • Mit einem 15GB-Sample aus insgesamt 90GB für 10K Schritte trainiert
    • Aufgrund eines Tokenizer-Problems wurden Wörter zunächst getrennt ausgegeben; nach der Korrektur blieb die Satzstruktur erhalten
    • Erzeugt auf Prompts wie „Charles Dickens“ oder „Charles Darwin“ Beschreibungen im Stil des 19. Jahrhunderts

Zusammensetzung des Datensatzes

  • v2-Datensatz
    • 90GB Londoner Texte aus den Jahren 1800–1875, insgesamt 136.344 Dokumente
    • Die vollständige Tokenisierung ist noch nicht abgeschlossen; ein 15GB-Sample ist auf Hugging Face veröffentlicht
  • Die Daten stammen aus gemeinfreien Büchern, Zeitungen, Rechtsdokumenten usw.
  • Datengröße nach Version
    • v0: 187MB
    • v0.5: 435MB
    • v1: 6.25GB
    • v2mini-eval1: 15GB

Selective Temporal Training (STT)

  • STT ist eine Methodik, bei der nur Daten aus einem bestimmten historischen Zeitraum zum Training verwendet werden
    • Der Einfluss moderner Konzepte wird ausgeschlossen, sodass nur Wissen und Sprache dieser Epoche einfließen
    • TimeCapsuleLLM v0.5 wurde von Grund auf (from scratch) ausschließlich mit Daten aus den Jahren 1800–1875 trainiert
  • Statt ein bestehendes Modell feinzutunen (fine-tuning), wird es vollständig neu trainiert, um Reste moderner Informationen zu entfernen

Modellgröße und Trainingsumgebung

  • Anzahl der Modellparameter
    • v0: 16M
    • v0.5: 123M
    • v1: 700M
    • v2mini-eval1: 300M
  • Trainingshardware
    • v0/v0.5: RTX 4060 GPU, i5-13400F CPU, 16GB RAM
    • v1, v2mini-eval1: gemietete A100 SXM GPU

Verwendung

  • Das Projekt konzentriert sich auf Sammlung, Bereinigung und Tokenizer-Erstellung für historische Daten
  • Schrittweises Vorgehen
    1. Historische Texte sammeln: zeitbezogene Texte aus gemeinfreien Dokumenten, Büchern usw. beschaffen
    2. Tokenizer erstellen: train_tokenizer.py ausführen, um vocab.json und merges.txt zu erzeugen
    3. Modell trainieren: nanoGPT oder die Dokumentation der gewählten Architektur konsultieren

Bias-Analyse

  • Für die Ergebnisse von v2mini-eval1 werden Visualisierungen zu pronominalen, geografischen und zeitlichen Verzerrungen bereitgestellt
  • Detaillierte Statistiken sind in der Datei v2_bias_report.json verfügbar

Lizenz und Veröffentlichungsinformationen

  • Veröffentlicht unter der MIT License
  • Auf GitHub mit 1.2k Stars und 41 Forks
  • Hauptsprache: Python 100%
  • Neueste Release: v2mini-eval2 — London (1800–1875)

Noch keine Kommentare.

Noch keine Kommentare.