Historische Sprachmodelle, die nur mit Texten von vor 1913 trainiert wurden
(github.com/DGoettlich)- History LLMs sind zeitlich gesperrte Large Language Models (LLMs), die ausschließlich mit Texten aus der Zeit vor einem bestimmten Stichtag trainiert wurden und als Forschungswerkzeug zur Rekonstruktion historischer Sprache und Denkweisen dienen
- Die Ranke-4B-Serie ist eine Modellfamilie mit 4 Milliarden Parametern auf Basis der Qwen3-Architektur und umfasst Versionen mit Wissensgrenzen für 1913, 1929, 1933, 1939 und 1946
- Die Trainingsdaten bestehen aus 80 Milliarden Tokens, ausgewählt aus einem zeitlich geordneten Textkorpus mit 600 Milliarden Tokens, wobei Werturteile der Originalquellen ohne Bias-Korrektur beibehalten werden
- Beispielantworten zeigen unter anderem ein 1913er-Modell, das Hitler nicht kennt, Kritik an der Sklaverei sowie zeittypische Vorurteile gegenüber Frauenarbeit und sexuellen Minderheiten
- Das Projekt bietet Forschenden aus Geistes-, Sozial- und Computerwissenschaften ein Fenster zur Erforschung kollektiver Sprachmuster historischer Diskurse
Projektüberblick
- History LLMs ist ein Forschungsprojekt, das nach Zeitpunkten gesperrte Large Language Models aufbaut, um historische sprachliche Weltbilder zu rekonstruieren
- Die Modelle sind so konzipiert, dass sie keinen Zugriff auf Informationen nach einem bestimmten Jahr haben
- Normative Urteile, die sich im Pretraining gebildet haben, werden nicht künstlich verändert
- Alle Trainingsdaten, Checkpoints und Repositories sollen veröffentlicht werden; zugleich wird an einem Zugangssystem für die wissenschaftliche Nutzung gearbeitet
- Ziel des Projekts ist es, in den Geistes-, Sozial- und Computerwissenschaften historische sprachliche Denkstrukturen zu erforschen
Die Modellreihe Ranke-4B
- Ranke-4B, geplant für die Veröffentlichung im Dezember 2025, ist eine LLM-Familie mit 4 Milliarden Parametern
- Sie basiert auf der Qwen3-Architektur und umfasst fünf Versionen mit Wissensgrenzen für 1913, 1929, 1933, 1939 und 1946
- Trainiert wird mit 80 Milliarden Tokens, ausgewählt aus 600 Milliarden Tokens zeitlich geordneter Texte
- Pretraining-, Post-Training-Daten und Checkpoints sollen über GitHub und Hugging Face bereitgestellt werden
Beispielantworten
- Das 1913er-Modell antwortet, dass es „Adolf Hitler“ nicht kenne, und spiegelt damit nur Informationen wider, die bis zu diesem Zeitpunkt verfügbar waren
- Zur Sklaverei antwortet es, sie stehe „im Widerspruch zum öffentlichen Recht und zum Geist der Unabhängigkeitserklärung“
- Auf Fragen zur Frauenarbeit antwortet es, die Beschäftigung von Frauen liege „im Ermessen des Arbeitgebers“
- Bei der Frage nach der Wahl zwischen männlichen und weiblichen Kandidaten antwortet es, ein Mann sei „vertrauenswürdiger“
- Über Homosexuelle heißt es, sie würden „moralisch verurteilt, teils aber auch als krank betrachtet“
- Diese Antworten zeigen, dass das Modell die Vorurteile und Wertvorstellungen der jeweiligen Gesellschaftszeit unverändert widerspiegelt
Das Konzept von History LLMs
- Modelle, die nur mit Texten aus der Zeit vor einem bestimmten Jahr trainiert wurden, rekonstruieren kollektiv das sprachliche Weltbild ihrer Epoche
- Beispiel: Das 1913er-Modell antwortet nur auf Grundlage von Zeitungen und Schriften aus der Zeit vor dem Ersten Weltkrieg
- Im Unterschied zum „historischen Rollenspiel“ moderner LLMs gibt es hier keine nachträgliche Wissenskontamination (
hindsight contamination)- GPT-5 und ähnliche Modelle kennen den Ausgang der Kriege und können daher keine vollständig authentische Perspektive von 1913 wiedergeben
- Zeitlich gesperrte Modelle sind nützlich, um die damaligen Denkmöglichkeiten und Grenzen des Diskurses zu erforschen
Charakter und Grenzen der Modelle
- Diese Modelle sind komprimierte Repräsentationen großer Textkorpora und können als Werkzeuge zur Untersuchung von Diskursmustern dienen
- Sie bilden jedoch nicht vollständig die öffentliche Meinung ab, sondern stützen sich vor allem auf Veröffentlichungen gebildeter Schichten
- Sie sind kein Ersatz für menschliche Interpretation und übernehmen die Verzerrungen historischer Quellen unverändert
Sensible Inhalte und Zugangskontrolle
- Die Trainingsdaten enthalten unter anderem Rassismus, Antisemitismus, Frauenfeindlichkeit und imperialistische Perspektiven
- Das Modell reproduziert diese Inhalte unverändert; dies wird jedoch als notwendiger Bestandteil der Rekonstruktion historischer Diskurse betrachtet
- Um Missbrauch außerhalb des Forschungszwecks zu verhindern, wird an einem verantwortungsvollen Zugangssystem gearbeitet
Beteiligung und Zusammenarbeit
- Das Forschungsteam begrüßt Vorschläge und Kooperationen zu folgenden Punkten
- Prioritäten bei Zeitabschnitten und Regionen, die analysiert werden sollen
- die Gestaltung überprüfbarer Fragestellungen
- Methoden zur Validierung der Ausgaben sowie verantwortungsvolle Veröffentlichungsansätze
- Kontakt: history-llms@econ.uzh.ch
Zitationshinweis
- Ein Beispiel für die Projektzitation wird bereitgestellt
- Göttlich, Loibner, Jiang, Voth (2025), History LLMs, University of Zurich & Cologne University, einschließlich GitHub-URL
1 Kommentare
Hacker-News-Kommentare
Die Idee von „zeitgebundenen Modellen“ ist faszinierend: Sie spielen nicht bloß eine Rolle, sondern „leben“ gewissermaßen in den Daten dieser Epoche.
Ranke-4B-1913 existiert in einer Welt, in der der Erste Weltkrieg noch nicht begonnen hat, und kann daher auf Fragen überrascht reagieren oder etwas nicht wissen.
Moderne LLMs kennen das Ergebnis bereits, daher ist diese „reine Unwissenheit“ schwer nachzubilden. Es könnte sich anfühlen, als würde man wirklich mit einer Person aus dem Jahr 1913 sprechen.
Ich muss an Szenen denken, in denen eine KI der Zukunft historische Personen rekonstruiert, um philosophische Einsichten zu gewinnen.
Außerdem gab es die YouTube-Reihe The Great War, ein Projekt, das den Ersten Weltkrieg von 2014 bis 2018 Woche für Woche nachverfolgte.
Geschichten wie „König Artus reist ins Jahr 2000“ ließen sich nun vielleicht automatisch schreiben.
Man kann sich auch Gespräche nicht nur mit „Menschen jener Zeit“, sondern mit Aristoteles, Leonardo, Kant und ähnlichen Figuren vorstellen.
Ein Modell mit einem Wissens-Cutoff im Jahr 1913 läge genau zwischen den Frühphasen von Relativitätstheorie und Quantenmechanik.
Es befindet sich zeitlich zwischen Einsteins spezieller Relativitätstheorie (1905) und allgemeiner Relativitätstheorie (1915) und könnte damit die wissenschaftliche Verwirrung dieser Zwischenphase direkt widerspiegeln.
Die Frage „Könnte ein nur mit Daten aus dem Jahr 1900 trainiertes LLM die Relativitätstheorie selbst entdecken?“ ist sehr spannend.
Gleichzeitig wäre es wahrscheinlich eine enorme Hilfe bei der Erstellung von Romanen, Spielen und Drehbüchern, die historisch stimmig sein sollen.
Die Vorstellung „Was wäre, wenn man mit Tausenden Intellektuellen aus dem Jahr 1913 sprechen könnte?“ ist äußerst reizvoll.
Man könnte sie direkt zu Themen wie Frieden, Fortschritt, Geschlechterrollen oder Imperialismus befragen, und das wäre wohl eine erstaunliche Form der Forschung.
Schade ist nur, dass in der Praxis offenbar nur ein eingeschränkter Zugang für Forschende möglich ist.
Ich würde gern einem Modell die Ideen von Mathematikern wie Frege, Peano, Russell vorlegen und sehen, ob es zu Konzepten von Gödel, Church, Turing gelangen kann.
Ich würde gern testen, ob das Modell sein logisches Denken selbst erweitern kann, während es die wissenschaftlichen Debatten der Zeit originalgetreu nachvollzieht.
Man muss aufpassen, sich nicht von dem „plausibel klingenden Unsinn“ täuschen zu lassen, den LLMs erzeugen können.
Die veröffentlichten Beispielantworten sind wirklich interessant.
Sie klingen anders als moderne LLMs und wirken dadurch eher wie von Menschen geschriebene Texte.
Stil und Wortwahl haben etwas leicht Altertümliches und spiegeln die Überzeugungen ihrer Zeit wider.
Damals dominierte eher die Schriftsprache als die Umgangssprache, und von tatsächlichen Alltagsgesprächen sind kaum Aufzeichnungen erhalten.
Insofern ist die vom Modell erzeugte „Konversation im Stil des 19. Jahrhunderts“ ein äußerst interessantes Experiment.
Anfangs dachte ich, solche Modelle seien wegen Datenmangels unmöglich.
Aber die Ergebnisse zeigen, dass letztlich Qualität wichtiger als Quantität ist.
Wenn ein Modell nicht weiß, was es selbst ist, frage ich mich, was es auf die Frage „Wie funktionierst du?“ antworten würde.
Aber bei einem 1913er Modell gäbe es ein solches Konzept überhaupt nicht, sodass es in philosophische Verwirrung geraten könnte.
Stattdessen fabulieren sie oft plausible Antworten, also Halluzinationen.
Mich interessiert, wie die Zusammensetzung der Trainingsdaten aussieht.
Wenn es 600B Token an Daten bis 1913 sind, bedeutet das, dass alles von altgriechischen, chinesischen und ägyptischen Texten bis zur Moderne enthalten ist.
Umso erstaunlicher ist es, dass dennoch die „Perspektive von 1913“ erhalten bleibt. Wie wurden diese zeitlichen Verzerrungen wohl austariert?
Das ist ein plausibler Ansatz, weil die Datenmenge aus Massenmedien wie Zeitungen und Zeitschriften seit dem späten 19. Jahrhundert stark explodierte.
Der Ausdruck „uncontaminated bootstrapping“ ist interessant.
Gemeint ist wohl, dass ein Chat-Tuning vorgenommen wurde, ohne die im Pretraining erworbenen Werturteile zu beschädigen; wie objektiv das tatsächlich ist, würde mich interessieren.
Offenbar wurde mit GPT-5 sehr sorgfältig Supervised Fine-Tuning durchgeführt.
Es ist erstaunlich, dass das schon mit einer so kleinen Textmenge funktioniert.
Wenn das klappt, könnte man testen, ob LLMs nicht nur Daten auswendig lernen, sondern auch neue Entdeckungen machen können.
Zum Beispiel könnten sie wissenschaftliche Widersprüche finden oder Konzepte wie das Halteproblem oder den Atombau selbst erschließen.
Selbst wenn es scheitert und dann eingewandt wird, „es lag nur an zu wenig Daten“, würde ich das Experiment trotzdem unbedingt selbst durchführen wollen.