1 Punkte von GN⁺ 2025-12-19 | 1 Kommentare | Auf WhatsApp teilen
  • History LLMs sind zeitlich gesperrte Large Language Models (LLMs), die ausschließlich mit Texten aus der Zeit vor einem bestimmten Stichtag trainiert wurden und als Forschungswerkzeug zur Rekonstruktion historischer Sprache und Denkweisen dienen
  • Die Ranke-4B-Serie ist eine Modellfamilie mit 4 Milliarden Parametern auf Basis der Qwen3-Architektur und umfasst Versionen mit Wissensgrenzen für 1913, 1929, 1933, 1939 und 1946
  • Die Trainingsdaten bestehen aus 80 Milliarden Tokens, ausgewählt aus einem zeitlich geordneten Textkorpus mit 600 Milliarden Tokens, wobei Werturteile der Originalquellen ohne Bias-Korrektur beibehalten werden
  • Beispielantworten zeigen unter anderem ein 1913er-Modell, das Hitler nicht kennt, Kritik an der Sklaverei sowie zeittypische Vorurteile gegenüber Frauenarbeit und sexuellen Minderheiten
  • Das Projekt bietet Forschenden aus Geistes-, Sozial- und Computerwissenschaften ein Fenster zur Erforschung kollektiver Sprachmuster historischer Diskurse

Projektüberblick

  • History LLMs ist ein Forschungsprojekt, das nach Zeitpunkten gesperrte Large Language Models aufbaut, um historische sprachliche Weltbilder zu rekonstruieren
    • Die Modelle sind so konzipiert, dass sie keinen Zugriff auf Informationen nach einem bestimmten Jahr haben
    • Normative Urteile, die sich im Pretraining gebildet haben, werden nicht künstlich verändert
  • Alle Trainingsdaten, Checkpoints und Repositories sollen veröffentlicht werden; zugleich wird an einem Zugangssystem für die wissenschaftliche Nutzung gearbeitet
  • Ziel des Projekts ist es, in den Geistes-, Sozial- und Computerwissenschaften historische sprachliche Denkstrukturen zu erforschen

Die Modellreihe Ranke-4B

  • Ranke-4B, geplant für die Veröffentlichung im Dezember 2025, ist eine LLM-Familie mit 4 Milliarden Parametern
    • Sie basiert auf der Qwen3-Architektur und umfasst fünf Versionen mit Wissensgrenzen für 1913, 1929, 1933, 1939 und 1946
    • Trainiert wird mit 80 Milliarden Tokens, ausgewählt aus 600 Milliarden Tokens zeitlich geordneter Texte
  • Pretraining-, Post-Training-Daten und Checkpoints sollen über GitHub und Hugging Face bereitgestellt werden
Anzeige

Beispielantworten

  • Das 1913er-Modell antwortet, dass es „Adolf Hitler“ nicht kenne, und spiegelt damit nur Informationen wider, die bis zu diesem Zeitpunkt verfügbar waren
  • Zur Sklaverei antwortet es, sie stehe „im Widerspruch zum öffentlichen Recht und zum Geist der Unabhängigkeitserklärung“
  • Auf Fragen zur Frauenarbeit antwortet es, die Beschäftigung von Frauen liege „im Ermessen des Arbeitgebers“
  • Bei der Frage nach der Wahl zwischen männlichen und weiblichen Kandidaten antwortet es, ein Mann sei „vertrauenswürdiger“
  • Über Homosexuelle heißt es, sie würden „moralisch verurteilt, teils aber auch als krank betrachtet“
  • Diese Antworten zeigen, dass das Modell die Vorurteile und Wertvorstellungen der jeweiligen Gesellschaftszeit unverändert widerspiegelt

Das Konzept von History LLMs

  • Modelle, die nur mit Texten aus der Zeit vor einem bestimmten Jahr trainiert wurden, rekonstruieren kollektiv das sprachliche Weltbild ihrer Epoche
    • Beispiel: Das 1913er-Modell antwortet nur auf Grundlage von Zeitungen und Schriften aus der Zeit vor dem Ersten Weltkrieg
  • Im Unterschied zum „historischen Rollenspiel“ moderner LLMs gibt es hier keine nachträgliche Wissenskontamination (hindsight contamination)
    • GPT-5 und ähnliche Modelle kennen den Ausgang der Kriege und können daher keine vollständig authentische Perspektive von 1913 wiedergeben
  • Zeitlich gesperrte Modelle sind nützlich, um die damaligen Denkmöglichkeiten und Grenzen des Diskurses zu erforschen

Charakter und Grenzen der Modelle

  • Diese Modelle sind komprimierte Repräsentationen großer Textkorpora und können als Werkzeuge zur Untersuchung von Diskursmustern dienen
  • Sie bilden jedoch nicht vollständig die öffentliche Meinung ab, sondern stützen sich vor allem auf Veröffentlichungen gebildeter Schichten
  • Sie sind kein Ersatz für menschliche Interpretation und übernehmen die Verzerrungen historischer Quellen unverändert
Anzeige

Sensible Inhalte und Zugangskontrolle

  • Die Trainingsdaten enthalten unter anderem Rassismus, Antisemitismus, Frauenfeindlichkeit und imperialistische Perspektiven
  • Das Modell reproduziert diese Inhalte unverändert; dies wird jedoch als notwendiger Bestandteil der Rekonstruktion historischer Diskurse betrachtet
  • Um Missbrauch außerhalb des Forschungszwecks zu verhindern, wird an einem verantwortungsvollen Zugangssystem gearbeitet

Beteiligung und Zusammenarbeit

  • Das Forschungsteam begrüßt Vorschläge und Kooperationen zu folgenden Punkten
    • Prioritäten bei Zeitabschnitten und Regionen, die analysiert werden sollen
    • die Gestaltung überprüfbarer Fragestellungen
    • Methoden zur Validierung der Ausgaben sowie verantwortungsvolle Veröffentlichungsansätze
  • Kontakt: history-llms@econ.uzh.ch

Zitationshinweis

  • Ein Beispiel für die Projektzitation wird bereitgestellt
    • Göttlich, Loibner, Jiang, Voth (2025), History LLMs, University of Zurich & Cologne University, einschließlich GitHub-URL

1 Kommentare

 
GN⁺ 2025-12-19
Hacker-News-Kommentare
  • Die Idee von „zeitgebundenen Modellen“ ist faszinierend: Sie spielen nicht bloß eine Rolle, sondern „leben“ gewissermaßen in den Daten dieser Epoche.
    Ranke-4B-1913 existiert in einer Welt, in der der Erste Weltkrieg noch nicht begonnen hat, und kann daher auf Fragen überrascht reagieren oder etwas nicht wissen.
    Moderne LLMs kennen das Ergebnis bereits, daher ist diese „reine Unwissenheit“ schwer nachzubilden. Es könnte sich anfühlen, als würde man wirklich mit einer Person aus dem Jahr 1913 sprechen.

    • Diese Beschreibung erinnert mich an die Figur Severn/Keats aus dem Hyperion Cantos.
      Ich muss an Szenen denken, in denen eine KI der Zukunft historische Personen rekonstruiert, um philosophische Einsichten zu gewinnen.
    • Das erinnert mich auch an ein Experiment aus einem Blog im Umfeld von Slate Star Codex, bei dem der Autor nur Zeitungen und Materialien aus einer bestimmten Epoche las und dann aus der Perspektive dieser Zeit schrieb.
      Außerdem gab es die YouTube-Reihe The Great War, ein Projekt, das den Ersten Weltkrieg von 2014 bis 2018 Woche für Woche nachverfolgte.
    • Solche Modelle könnten praktisch die bislang nächste Annäherung an eine Zeitmaschine sein.
      Geschichten wie „König Artus reist ins Jahr 2000“ ließen sich nun vielleicht automatisch schreiben.
      Man kann sich auch Gespräche nicht nur mit „Menschen jener Zeit“, sondern mit Aristoteles, Leonardo, Kant und ähnlichen Figuren vorstellen.
    • Wenn eine Art „Gehirnchirurgie“ möglich wäre, mit der sich Wissen und Vorurteile von KI anpassen lassen, könnte man ebenso erstaunliche wie beängstigende Simulationen erschaffen.
    • Das ist fast schon ein Setting auf Westworld-Niveau.
  • Ein Modell mit einem Wissens-Cutoff im Jahr 1913 läge genau zwischen den Frühphasen von Relativitätstheorie und Quantenmechanik.
    Es befindet sich zeitlich zwischen Einsteins spezieller Relativitätstheorie (1905) und allgemeiner Relativitätstheorie (1915) und könnte damit die wissenschaftliche Verwirrung dieser Zwischenphase direkt widerspiegeln.

    • Eine ähnliche Idee wurde auch in einem Text von Dwarkesh Patel und in einer Diskussion auf Manifold Markets aufgeworfen.
      Die Frage „Könnte ein nur mit Daten aus dem Jahr 1900 trainiertes LLM die Relativitätstheorie selbst entdecken?“ ist sehr spannend.
    • Ein solches Modell könnte allerdings auch die pseudowissenschaftlichen Irrtümer und zeittypischen Vorurteile jener Ära reproduzieren.
      Gleichzeitig wäre es wahrscheinlich eine enorme Hilfe bei der Erstellung von Romanen, Spielen und Drehbüchern, die historisch stimmig sein sollen.
  • Die Vorstellung „Was wäre, wenn man mit Tausenden Intellektuellen aus dem Jahr 1913 sprechen könnte?“ ist äußerst reizvoll.
    Man könnte sie direkt zu Themen wie Frieden, Fortschritt, Geschlechterrollen oder Imperialismus befragen, und das wäre wohl eine erstaunliche Form der Forschung.
    Schade ist nur, dass in der Praxis offenbar nur ein eingeschränkter Zugang für Forschende möglich ist.

    • In echten Gesprächen würde man vermutlich auch merken, dass es viele Bereiche gibt, in denen wir uns zurückentwickelt haben.
    • Ich frage mich, wie viele GPU-Ressourcen nötig wären, um so ein Modell als öffentliche Version bereitzustellen. Für die Allgemeinheit hätte das großen Wert.
  • Ich würde gern einem Modell die Ideen von Mathematikern wie Frege, Peano, Russell vorlegen und sehen, ob es zu Konzepten von Gödel, Church, Turing gelangen kann.
    Ich würde gern testen, ob das Modell sein logisches Denken selbst erweitern kann, während es die wissenschaftlichen Debatten der Zeit originalgetreu nachvollzieht.

    • Wenn man sich allerdings Communities wie LLMPhysics ansieht, driften solche Experimente oft in Pseudowissenschaft ab.
      Man muss aufpassen, sich nicht von dem „plausibel klingenden Unsinn“ täuschen zu lassen, den LLMs erzeugen können.
    • Solche Experimente scheinen eine gute Methode zu sein, das tatsächliche Intelligenzniveau von LLMs zu prüfen.
  • Die veröffentlichten Beispielantworten sind wirklich interessant.
    Sie klingen anders als moderne LLMs und wirken dadurch eher wie von Menschen geschriebene Texte.
    Stil und Wortwahl haben etwas leicht Altertümliches und spiegeln die Überzeugungen ihrer Zeit wider.

    • Aus der Sicht von jemandem, der Geschichte des 19. Jahrhunderts unterrichtet hat, klingt der Stil dieses Modells eindeutig wie der eines viktorianischen Autors.
      Damals dominierte eher die Schriftsprache als die Umgangssprache, und von tatsächlichen Alltagsgesprächen sind kaum Aufzeichnungen erhalten.
      Insofern ist die vom Modell erzeugte „Konversation im Stil des 19. Jahrhunderts“ ein äußerst interessantes Experiment.
    • In anderen Sprachen als Englisch scheint dieser „typische LLM-Tonfall“ weniger stark hervorzutreten. Es scheint sprachabhängige Unterschiede zu geben.
    • Formulierungen wie die Ersetzung von „homosexual men“ durch „the homosexual man“ spiegeln den zeittypischen Ton sehr gut wider.
    • Trotzdem fehlt noch etwas von der direkten Meinungsstärke und stilistischen Wucht jener Zeit.
  • Anfangs dachte ich, solche Modelle seien wegen Datenmangels unmöglich.
    Aber die Ergebnisse zeigen, dass letztlich Qualität wichtiger als Quantität ist.

  • Wenn ein Modell nicht weiß, was es selbst ist, frage ich mich, was es auf die Frage „Wie funktionierst du?“ antworten würde.

    • So wie Menschen sich selbst nicht vollständig erklären können, würde das Modell sich vermutlich einfach nur als „existent“ wahrnehmen.
    • Tatsächlich „denkt“ ein Modell nicht. Es reagiert nur gemäß dem vorgegebenen Kontext. Auch ChatGPT besitzt kein Selbst.
    • Als ich LLMs zum ersten Mal nutzte, war ich ebenfalls überrascht von der Fähigkeit des Modells, sich selbst zu verstehen.
      Aber bei einem 1913er Modell gäbe es ein solches Konzept überhaupt nicht, sodass es in philosophische Verwirrung geraten könnte.
    • Manchmal wünschte ich, LLMs würden einfach sagen: „Ich weiß es nicht.“
      Stattdessen fabulieren sie oft plausible Antworten, also Halluzinationen.
  • Mich interessiert, wie die Zusammensetzung der Trainingsdaten aussieht.
    Wenn es 600B Token an Daten bis 1913 sind, bedeutet das, dass alles von altgriechischen, chinesischen und ägyptischen Texten bis zur Moderne enthalten ist.
    Umso erstaunlicher ist es, dass dennoch die „Perspektive von 1913“ erhalten bleibt. Wie wurden diese zeitlichen Verzerrungen wohl austariert?

    • Vermutlich wurden Daten bis 1900 für das Pretraining und Daten von 1900 bis 1913 für das Fine-Tuning verwendet.
      Das ist ein plausibler Ansatz, weil die Datenmenge aus Massenmedien wie Zeitungen und Zeitschriften seit dem späten 19. Jahrhundert stark explodierte.
  • Der Ausdruck „uncontaminated bootstrapping“ ist interessant.
    Gemeint ist wohl, dass ein Chat-Tuning vorgenommen wurde, ohne die im Pretraining erworbenen Werturteile zu beschädigen; wie objektiv das tatsächlich ist, würde mich interessieren.

    • Im GitHub-Dokument gibt es dazu ausführlichere Erklärungen.
      Offenbar wurde mit GPT-5 sehr sorgfältig Supervised Fine-Tuning durchgeführt.
    • Möglicherweise wurden auch Zitate oder Sätze im Frage-und-Antwort-Format aus den Daten extrahiert und als Dialogdaten genutzt.
  • Es ist erstaunlich, dass das schon mit einer so kleinen Textmenge funktioniert.
    Wenn das klappt, könnte man testen, ob LLMs nicht nur Daten auswendig lernen, sondern auch neue Entdeckungen machen können.
    Zum Beispiel könnten sie wissenschaftliche Widersprüche finden oder Konzepte wie das Halteproblem oder den Atombau selbst erschließen.
    Selbst wenn es scheitert und dann eingewandt wird, „es lag nur an zu wenig Daten“, würde ich das Experiment trotzdem unbedingt selbst durchführen wollen.