TimeCapsuleLLM: Ein großes Sprachmodell, das nur mit Daten aus den Jahren 1800–1875 trainiert wurde
(github.com/haykgrigo3)- TimeCapsuleLLM ist ein großes Sprachmodell (LLM), das ausschließlich mit Materialien aus einem bestimmten Zeitraum (1800–1875) trainiert wurde, mit dem Ziel, moderne Verzerrungen zu minimieren und Sprache sowie Weltbild jener Zeit nachzubilden
- Das Modell verwendet einen Datensatz aus historischen Dokumenten, Büchern, Zeitungen und Rechtsdokumenten aus dem Raum London, um zeittypischen Sprachstil und Wortschatz widerzuspiegeln
- Die frühen Versionen basierten auf nanoGPT, spätere Versionen auf Microsoft Phi 1.5; der Datenumfang reicht bis 90GB, die Modelle bis zu 700M Parametern
- Über den Ansatz Selective Temporal Training (STT) wird nur Datenmaterial aus einem bestimmten Zeitraum ausgewählt, damit keine modernen Konzepte einfließen
- Ein experimentelles Projekt, das das Potenzial historischer Sprachmodellforschung und der zeitgebundenen Reproduktion von KI-Sprache aufzeigt
Projektüberblick
- TimeCapsuleLLM ist ein Sprachmodell, das nur mit Daten aus einer bestimmten Zeit und einem bestimmten Ort trainiert wurde, mit dem Ziel, moderne Verzerrungen zu verringern und Wortschatz, Stil und Weltbild dieser Epoche nachzubilden
- Vorgestellt wird das Konzept eines „Modells, das nicht einfach historische Persönlichkeiten nachahmt, sondern tatsächlich die Sprache dieser Zeit verwendet“
- Die frühen Versionen (v0, v0.5) wurden auf Basis von Andrej Karpathys nanoGPT entwickelt, v1 auf Basis von Microsoft Phi 1.5
- Das Modell ist auf Hugging Face veröffentlicht
Merkmale nach Modellversion
- v0
- Mit etwa 187MB Daten trainiert
- Verwendet Wortschatz aus dem 19. Jahrhundert, die Sätze sind jedoch meist noch ungrammatisch
- Moderne Konzepte tauchen überhaupt nicht auf
- v0.5
- Grammatik und Zeichensetzung wurden verbessert, wodurch ein viktorianischer Stil nachgebildet wird
- Die Fehlerrate bei Fakten ist hoch, außerdem ist OCR-Rauschen enthalten (z. B. „Digitized by Google“)
- v1
- Erzeugt Antworten, die reale historische Ereignisse und Personen miteinander verknüpfen
- Beispiel: Auf den Prompt „It was the year of our Lord 1834“ wird ein Satz erzeugt, der Proteste und Petitionen in London erwähnt
- v2mini-eval1 / eval2
- Mit einem 15GB-Sample aus insgesamt 90GB für 10K Schritte trainiert
- Aufgrund eines Tokenizer-Problems wurden Wörter zunächst getrennt ausgegeben; nach der Korrektur blieb die Satzstruktur erhalten
- Erzeugt auf Prompts wie „Charles Dickens“ oder „Charles Darwin“ Beschreibungen im Stil des 19. Jahrhunderts
Zusammensetzung des Datensatzes
- v2-Datensatz
- 90GB Londoner Texte aus den Jahren 1800–1875, insgesamt 136.344 Dokumente
- Die vollständige Tokenisierung ist noch nicht abgeschlossen; ein 15GB-Sample ist auf Hugging Face veröffentlicht
- Die Daten stammen aus gemeinfreien Büchern, Zeitungen, Rechtsdokumenten usw.
- Datengröße nach Version
- v0: 187MB
- v0.5: 435MB
- v1: 6.25GB
- v2mini-eval1: 15GB
Selective Temporal Training (STT)
- STT ist eine Methodik, bei der nur Daten aus einem bestimmten historischen Zeitraum zum Training verwendet werden
- Der Einfluss moderner Konzepte wird ausgeschlossen, sodass nur Wissen und Sprache dieser Epoche einfließen
- TimeCapsuleLLM v0.5 wurde von Grund auf (from scratch) ausschließlich mit Daten aus den Jahren 1800–1875 trainiert
- Statt ein bestehendes Modell feinzutunen (fine-tuning), wird es vollständig neu trainiert, um Reste moderner Informationen zu entfernen
Modellgröße und Trainingsumgebung
- Anzahl der Modellparameter
- v0: 16M
- v0.5: 123M
- v1: 700M
- v2mini-eval1: 300M
- Trainingshardware
- v0/v0.5: RTX 4060 GPU, i5-13400F CPU, 16GB RAM
- v1, v2mini-eval1: gemietete A100 SXM GPU
Verwendung
- Das Projekt konzentriert sich auf Sammlung, Bereinigung und Tokenizer-Erstellung für historische Daten
- Schrittweises Vorgehen
- Historische Texte sammeln: zeitbezogene Texte aus gemeinfreien Dokumenten, Büchern usw. beschaffen
- Tokenizer erstellen:
train_tokenizer.pyausführen, umvocab.jsonundmerges.txtzu erzeugen - Modell trainieren: nanoGPT oder die Dokumentation der gewählten Architektur konsultieren
Bias-Analyse
- Für die Ergebnisse von v2mini-eval1 werden Visualisierungen zu pronominalen, geografischen und zeitlichen Verzerrungen bereitgestellt
- Detaillierte Statistiken sind in der Datei
v2_bias_report.jsonverfügbar
Lizenz und Veröffentlichungsinformationen
- Veröffentlicht unter der MIT License
- Auf GitHub mit 1.2k Stars und 41 Forks
- Hauptsprache: Python 100%
- Neueste Release: v2mini-eval2 — London (1800–1875)
1 Kommentare
Hacker-News-Kommentare
Ich frage mich, wie es wäre, ein modernes Modell mit einem Stichtag 1900 zu trainieren und es dann zu Quantenmechanik (QM) und Relativitätstheorie zu befragen
Falls das Modell auch nur ansatzweise richtige Antworten gäbe, wäre das ein starkes Indiz dafür, dass LLMs ein Weg zu höherer Intelligenz sein könnten
Das Michelson-Morley-Experiment (1887), die Lorentz-Transformationen (1889) und der photoelektrische Effekt (1887) sind Beispiele dafür
William Clifford starb zwar 1889, brachte aber die Idee vor, Kräfte und Materie durch die Krümmung des Raums zu erklären
Wissenschaft entsteht nicht plötzlich, und wenn man die damaligen Arbeiten zusammenführt, hätten solche Theorien vielleicht auf natürliche Weise entstehen können
Die OCR-Qualität ist so schlecht, dass ich das meiste manuell bearbeiten muss, aber ein 700M-Parameter-Modell ist auch zu Hause machbar
Für echte Schlussfolgerungsfähigkeit bräuchte man allerdings eher ein Modell in der 70B-Klasse
Eine weitere große Herausforderung ist, zu verhindern, dass beim Fine-Tuning und im RL-Prozess Wissen aus 2026 einfließt
Die zweite Hälfte des 19. Jahrhunderts war ein goldenes Zeitalter der Chemie, und ich frage mich, ob ein LLM thermodynamische Vorhersagen oder neue Hypothesen liefern könnte
Die zugehörige Diskussion findet sich im HN-Thread
Der Ansatz, Generalisierung und Robustheit eines Modells über die Datenkompressionsrate (Perplexity) zu messen, ist sehr eindrucksvoll
Dass jemand „Who art Henry“ für Englisch im Stil des 19. Jahrhunderts hielt, wirkt wie ein Beispiel für mangelndes historisches Sprachgefühl
Tatsächlich ist das zu keiner Zeit grammatikalisch korrekt
Es ist spannend, ob dieses Experiment ein Test für die Möglichkeit von AGI sein könnte
Die Frage ist, ob man einem Modell nur Daten bis zu einem bestimmten Zeitpunkt (Jahr X) geben und es spätere Entdeckungen (Y) selbst herleiten lassen kann
Manche Entdeckungen lassen sich durch die Kombination bestehender Ideen erreichen, aber für Relativitätstheorie und Quantenmechanik waren Experimente unverzichtbar
Ein damaliges Modell hätte zum Beispiel die Allgemeine Relativitätstheorie mathematisch vielleicht ausarbeiten können, hätte die Periheldrehung des Merkur aber wahrscheinlich dem Planeten Vulcan zugeschrieben (Vulcan auf Wikipedia)
Durch falsch klassifizierte Dokumente, Anmerkungen oder Metadaten besteht ein hohes Risiko des Wissenslecks
Erforderlich wären gewaltige Textmengen, sehr viele Parameter und ein RLHF-Prozess im Stil des 19. Jahrhunderts
Es wird die Idee vorgeschlagen, ein auf Daten von 1800–1875 trainiertes Modell mit einem auf Daten von 1800–2025 trainierten Modell zu vergleichen
Mithilfe der Differenz zwischen den beiden Wahrscheinlichkeitsverteilungen könnte man versuchen, Vorhersagen für 2040 zu machen
In der Praxis wäre eine genaue Vorhersage zwar schwierig, aber als Experiment zur Interpolation/Extrapolation von Wahrscheinlichkeitsverteilungen wäre es interessant
Ein interessantes Konzept, aber die damaligen aufgezeichneten Daten sind stark auf Wissenseliten zentriert verzerrt
Es war nicht wie heute, wo praktisch jeder Spuren in Form von Aufzeichnungen hinterlässt
Moderne Modelle werden mit Dutzenden TB an Text trainiert, während Daten aus dem 19. Jahrhundert deutlich knapper und weniger vielfältig sind
Deshalb ist es ein natürliches Ergebnis, wenn Fragen wie „Was geschah 1834?“ in einem Ton beantwortet werden, der an Zeitungsberichte erinnert
Heutige LLMs vermischen die Gedanken von zu vielen Menschen und erzeugen dadurch mitunter rauschhafte Ausgaben
Ein Modell, das auf der konsistenten Perspektive einer bestimmten Epoche trainiert wurde, könnte einen vorhersehbaren Antwortstil haben
Hinzu kommt, dass im Alignment-Prozess die Wertvorstellungen des Anbieters einfließen
Ein auf historischen Daten basierendes Modell würde die Vorurteile seiner Zeit dagegen eher „zufällig“ widerspiegeln
Immerhin könnte so ein Modell die Emoji-Schwemme eindämmen
Ich frage mich allerdings, wie sich das Tokenizing dadurch verändern würde
Es hätte zwar kein Programmierwissen, aber vielleicht ließe sich in Kombination mit einem modernen LLM eine Code-Erklärung im Stil des 19. Jahrhunderts erzeugen
Ich überlege, ob eine Art Layer-Mischung möglich wäre, ähnlich wie bei früheren Style-Transfer-Modellen
Es hat etwas Liebenswertes, ein Modell nur mit Dokumenten aus der Zeit vor der Informatisierung zu trainieren und ihm dann beizubringen, was ein Computer ist
Allerdings wirkt die aktuelle Ausgabe eher auf dem Niveau einer Markov-Kette als wie ChatGPT
Das erinnert mich an ein anderes kürzlich auf HN gepostetes „zeitverriegeltes LLM-Projekt“
Das Ergebnis war überzeugend aufgemacht, aber man überlegt noch, wie sich Missbrauch und Missverständnisse verhindern lassen
Siehe dazu den zugehörigen Thread
Falls dieses Modell konsistente Ausgaben liefert, könnte das das Argument entkräften, dass für das Training von LLMs urheberrechtlich geschütztes Material unverzichtbar sei
Im Moment scheint es allerdings noch nicht auf diesem Niveau zu sein
The Common Pile v0.1 baute ein 7B-Parameter-Modell aus 8 TB offenem Text
Ich habe auch ein ähnliches Experiment gemacht: transformer-Projekt
Ich habe separate Modelle mit unterschiedlichen Werken trainiert, darunter die Bibel, Don Quijote und Kafka
(Es gab auch einen Songtext-Generator und einen Übersetzer, aber die Qualität war eher mäßig)