Talkie: ein 13B Vintage-Sprachmodell aus dem Jahr 1930
(talkie-lm.com)- Ein 13B-Sprachmodell, das ausschließlich mit 260B Token englischer Texte von vor 1931 trainiert wurde, ermöglicht Gespräche und Generalisierungsexperimente mit einem Modell, das die moderne Welt nicht kennt
- Auf Basis zunehmender Überraschung nach dem Wissens-Cutoff und einer evaluierungsseitig kontaminationsärmeren Umgebung lässt sich direkter prüfen, ob das Modell künftige Ereignisse vorhersagen und auf neue Ideen kommen kann
- Im Vergleich zu einem auf dem modernen Web trainierten Modell mit derselben Architektur ist die Leistung in Standard-Benchmarks meist geringer, doch nach dem Herausfiltern anachronistischer Fragen schrumpft der Abstand, und bei Sprachverständnis sowie Rechenaufgaben zeigt sich ein ähnliches Niveau
- Die größten Herausforderungen sind zeitliche Lecks und Datenqualität: falsche Datumsmetadaten oder spätere editorische Einschübe können den Cutoff verletzen, und auch die Qualität historischer Transkriptionen beeinflusst die Leistung stark
- Ohne moderne Instruction-Daten wurde ein eigenes dialogorientiertes Post-Training aufgebaut; damit besteht eine langfristige Forschungsbasis für größere Modelle, einen erweiterten Korpus, Re-OCR und stärkere Leckage-Erkennung
Warum ein Vintage-Sprachmodell?
- Ein Vintage-Sprachmodell ist ein Ansatz, bei dem nur Texte von vor einem bestimmten historischen Zeitpunkt zum Training verwendet werden, um die Erfahrung zu ermöglichen, mit einem Modell zu sprechen, das die moderne Welt nicht kennt
- Solche Modelle sind nicht nur interessante Gesprächspartner, sondern dienen auch als Forschungswerkzeug, um das allgemeine Verständnis von KI zu erweitern
- Ein 13B-Modell, das nur mit Texten von vor 1931 trainiert wurde, erhielt rund 5.000 Ereignisbeschreibungen aus New York Times „On This Day”, und die Überraschung wurde in Bits pro Text-Byte gemessen
- Nach dem Wissens-Cutoff stieg die Überraschung an, besonders deutlich in den 1950er- und 1960er-Jahren, bevor sie sich abflachte
- Die Bewertung von Zukunftsvorhersagen kann daran anschließen und messen, wie sich die Leistung mit der Modellgröße verbessert und wie sie über längere Zeitabstände schwächer wird
- Auch die Fähigkeit, zu neuen Ideen zu gelangen, lässt sich prüfen, indem man testet, ob das Modell Erfindungen und wissenschaftliche Entdeckungen, die tatsächlich erst nach dem Cutoff auftauchten, eigenständig hervorbringen kann
- Ein weiterer wichtiger Vorteil ist eine kontaminationsfreie Evaluierungsumgebung
- Contamination wird als anhaltendes Problem behandelt, das die Fähigkeiten von Sprachmodellen überschätzen lässt
- Vintage-Modelle sind strukturell weniger kontaminiert und ermöglichen dadurch direktere Experimente zur Generalisierung außerhalb der Vortrainingsdaten
Überblick über Talkie
- talkie-1930-13b-base ist ein 13B-Sprachmodell, das mit 260B Token englischer Texte von vor 1931 trainiert wurde
- talkie-1930-13b-it ist ein nachgelagerter Checkpoint, der dieses Basismodell in ein dialogfähiges Modell verwandelt
- Es wurde so aufgebaut, dass es nicht auf moderne Chat-Protokolle oder moderne Instruction-Tuning-Daten angewiesen ist
- Der 24-Stunden-Live-Feed im oberen Widget wird so betrieben, dass Claude Sonnet 4.6 talkie-1930-13b-it promptet, um Wissen, Fähigkeiten und Neigungen zu erkunden
- Talkie wird im Text als das größte Vintage-Sprachmodell bislang beschrieben
- Als nächster Schritt wird ein Modell auf GPT-3-Niveau trainiert, mit geplanter Veröffentlichung im Sommer
- Außerdem wird eine vorläufige Schätzung genannt, nach der sich der historische Textkorpus auf mehr als 1 Billion Token ausbauen ließe
- Laut Text könnte diese Größenordnung ausreichen, um ein Modell auf GPT-3.5-Niveau mit Fähigkeiten ähnlich dem ursprünglichen ChatGPT zu bauen
Leistungsbewertung und Generalisierung
- Als moderner Zwillingsvergleich wurde talkie-web-13b-base erstellt; die Architektur ist identisch, trainiert wurde aber auf modernen Webdaten auf Basis von FineWeb
- Selbst bei Training mit denselben FLOPs zeigt Talkie in Standard-LM-Evaluierungen durchschnittlich geringere Leistung als das moderne Modell
- Dieser Unterschied bleibt auch bestehen, nachdem die Anachronismen in den Fragen korrigiert wurden
- Für zentrale Aufgaben des Sprachverständnisses und numerischen Denkens wird jedoch ein ähnliches Leistungsniveau berichtet
- Laut Figure 4 schrumpft der Leistungsabstand ungefähr auf die Hälfte, wenn anachronistische Fragen herausgefiltert werden
- Es wurden auch Code-Generalisierungsexperimente durchgeführt
- Mit HumanEval wurde ein Paar aus einem Vintage-Modell auf Basis von Texten vor 1931 und einem modernen webtrainierten Modell verglichen
- Dabei wurden zufällige Python-Funktionsbeispiele als In-Context-Learning-Beispiele gegeben, und gemessen wurde der Anteil der Aufgaben, die bei 100 Versuchen mindestens einmal korrekt gelöst wurden
- Das Vintage-Modell liegt deutlich hinter dem auf Webdaten trainierten Modell, verbessert sich bei größerer Skalierung in dieser Aufgabe jedoch langsam und stetig
- Die derzeit korrekten Lösungen beschränken sich auf sehr einfache Einzeiler oder kleine Variationen der In-Context-Beispiele
- Genannt wird ein Beispiel, bei dem nach Vorgabe einer Rotationschiffre-Kodierungsfunktion eine Dekodierungsfunktion implementiert wurde
- Es handelt sich zwar nur um eine Änderung eines einzelnen Zeichens, bei der Addition zu Subtraktion wird, wird aber als Signal für ein Verständnis inverser Funktionen interpretiert
Datenerhebung und Trainingsherausforderungen
- Es wird angegeben, dass nicht nur zig Milliarden, sondern mehrere hundert Milliarden englische Token von vor 1931 gesammelt wurden
- Die Daten umfassen Bücher, Zeitungen, Periodika, wissenschaftliche Journale, Patente und Gerichtsurteile
- Der Cutoff wurde auf Ende 1930 gesetzt, weil dies in den USA dem Zeitpunkt entspricht, ab dem Werke gemeinfrei werden
- Diese Version ist hauptsächlich auf englische Texte beschränkt
- Zur Validierung der Datenpipeline sei eine tiefe Vertrautheit mit den Originaldokumenten nötig, und das Entwicklungsteam bestehe aus englischen Muttersprachlern
- Eine mehrsprachige Erweiterung wird als hohe Priorität genannt
- Ziel ist sowohl ein größerer Korpus als auch eine größere Vielfalt der enthaltenen Perspektiven
-
Zeitliche Lecks
- Das wichtigste Ziel ist, zu verhindern, dass Daten nach dem Wissens-Cutoff in den Trainingskorpus einsickern
- Solche Lecks können durch moderne Dokumente mit falschen Datumsmetadaten entstehen oder durch später eingefügte editorische Vorworte und Fußnoten in alten Dokumenten
- In Talkie-1930 wurde der Vortrainingskorpus mit einem dokumentbasierten Anachronismus-Klassifikator auf n-Gram-Basis gefiltert
- Diese Filterung war nicht vollständig
- Die frühe 7B-Version wusste eindeutig über Roosevelts Präsidentschaft und die Gesetzgebung des New Deal Bescheid
- Auch die 13B-Version kennt Teile des Zweiten Weltkriegs und der Nachkriegsordnung, darunter Details zu den Vereinten Nationen und zur Teilung Deutschlands
- Für spätere Versionen werden Verfahren zur Leckage-Erkennung und Filterung mit fortgeschritteneren Klassifikatoren entwickelt
-
Datenqualität
- Da es 1930 kein digitales Publizieren gab, musste sämtlicher Text im Datensatz von physischen Originalen transkribiert werden
- Dieser Prozess führt zu Arten von Rauschen, die in nativ digital erzeugten Texten nicht vorkommen
- Klassische OCR-Systeme kommen mit historischen Dokumenten nur dann gut zurecht, wenn Layout und Scan sehr einfach beziehungsweise sauber sind
- Moderne VLM-basierte OCR ist zwar genauer, kann aber moderne Fakten halluzinieren und so das Experiment verfälschen
- In kontrollierten Experimenten erreichte ein mit klassischer OCR transkribierter Vor-1931-Text trainiertes LM bei gleicher Rechenleistung nur 30 % der Leistung menschlicher Transkriptionen
- Mit einfacher regex-basierter Bereinigung ließ sich das auf 70 % anheben, dennoch bleibt eine große Lücke
- Um diese Lücke zu verringern, ist geplant, den Talkie-Korpus mit einem Vintage-OCR-System neu zu transkribieren
-
Vintage-Post-Training
- Ein weiteres großes Problem ist der Mangel an sofort nutzbaren Post-Training-Daten
- Würde man mit üblichen Instruction-Response-Paaren feinabstimmen, würden anachronistisches Wissen, Stil und Erwartungen an Chat-Assistenten direkt übernommen
- Um das zu vermeiden, wurde die Post-Training-Pipeline von Grund auf neu aufgebaut
- Zunächst wurden aus historischen Texten mit regelmäßiger Struktur wie Benimmbüchern, Briefschreibratgebern, Kochbüchern, Wörterbüchern, Enzyklopädien, Gedichtsammlungen und Fabelsammlungen Instruction-Response-Paare erzeugt und in einem einfachen Chat-Format feinabgestimmt
- Anschließend wurden synthetische Prompts erstellt, die Aufgaben wie Dokumentzusammenfassung, direkte Informationsanfragen und mehrturnige Gesprächsfortsetzung abdecken, und es wurde Online Direct Preference Optimization mit Claude Sonnet 4.6 als Juror durchgeführt
- In einem separaten Evaluierungsset stieg die durchschnittliche Bewertung der Instruction-Fähigkeit durch den Juror von 2,0 auf 3,4 von 5 Punkten
- Abschließend wurde noch eine Runde supervised fine-tuning mit rejection-sampled synthetischen Mehrturn-Gesprächen zwischen Claude Opus 4.6 und Talkie durchgeführt
- Verstärkungslernen auf Basis von KI-Feedback hinterlasse zwangsläufig moderne Einflüsse, heißt es im Text
- Die 7B-Version von Talkie sprach nach dem RL zeitweise im Listicle-Stil
- Mit größerer Skalierung hofft man, das Vintage-Basismodell selbst als Juror nutzen zu können, um ein vollständig gebootstrapptes, zeitgemäßes Post-Training zu realisieren
Geplante Erweiterungen
- Der Ausbau des englischen Korpus und die Erweiterung auf andere Sprachen werden parallel vorangetrieben
- Mit einem neuen OCR-System soll möglichst viel Text von vor 1931 neu per OCR erfasst werden
- Mit neuen Verfahren zur Anachronismus-Klassifikation soll die Leckage-Erkennungspipeline gestärkt werden
- In Zusammenarbeit mit Historikern soll die Vintage-Post-Training-Pipeline ausgebaut und verfeinert werden
- Dazu gehört auch eine Methodik zum Aufbau historisch genauer Personas
Einsatzmöglichkeiten und Vorschläge zur Zusammenarbeit
- GitHub: Projektcode und Anlaufstelle für Forschungskooperationen
- Hugging Face: Ort der veröffentlichten Modell-Checkpoints
- 💬 Chat: Talkie-Gesprächsoberfläche
- hello@talkie-lm.com: Kontakt für Zusammenarbeit
- Gesucht wird die Zusammenarbeit mit Forschern und Institutionen, die historische Texte besitzen, einschließlich einer Verbesserung der Zugänglichkeit durch OCR
- Man ist auch offen für finanzielle Unterstützung oder Compute-Support und könne gegebenenfalls den Kontakt zu anderen Teams im Feld herstellen
- Mit Geisteswissenschaftlern wolle man die Nutzbarkeit von Daten und Infrastruktur für Vintage-Sprachmodelle und deren Training diskutieren
- Mit KI-Forschern strebt man Zusammenarbeit bei Training und Forschung zu Vintage-Sprachmodellen an
- Auch für Künstler und Autoren könne das Projekt als Experimentierwerkzeug dienen
Hinweise
- Talkie spiegelt die Kultur und Wertvorstellungen der Texte wider, mit denen es trainiert wurde
- Daher kann es Ausgaben erzeugen, die für Nutzer anstößig oder unangenehm sein können
1 Kommentare
Hacker-News-Kommentare
Es ist unglaublich witzig, dass das zukünftige Wort computer als menschlicher Beruf verstanden wird.
Auch die Auflösung von "digital computers" als Menschen, die mit den Fingern rechnen, ist großartig, und mit dem Kontext, dass computer damals eine Berufsbezeichnung für Menschen war, wirkt es noch besser.
Da kämen vermutlich ziemlich interessante Wahnvorstellungen heraus.
Das scheint eher Material von vor 1900 als wirklich aus den 1930ern heranzuziehen.
Von der Großen Depression scheint es nichts zu wissen, und zum Ersten Weltkrieg weiß es zwar etwas, wenn man direkt danach fragt, aber über europäische Politik spricht es, als wäre es um 1900.
Auch bei Technik wirkt es so: Edison scheint es auf Wikipedia-Niveau zu kennen, dichtet ihm dann aber plötzlich den Verdienst für ein 125-Meilen-pro-Stunde-Auto an, und bei Wählscheibentelefonen liegt es selbstbewusst falsch.
Die Fahrleitungs-Spannung der London Underground trifft es zwar, aber bei den Erklärungen zu Spannung und Widerstand erzählt es völligen Unsinn.
Insgesamt liefert es in den ersten ein, zwei Sätzen oft etwas, das wie recherchierbare Information wirkt, und rutscht danach in plausibel klingenden Unsinn ab.
Fragen, auf die man die Antwort nicht kennt, sollte man diesem Modell besser nicht stellen. Es vergiftet das Gehirn.
Zu der Zeit dürfte das wohl schon ein widerlegtes Konzept gewesen sein.
Ich fand es interessant, dass es auf die Frage nach Gegnern von Automatisierung und Industrialisierung antwortet, Maschinen würden Arbeitsplätze der Arbeiterklasse verdrängen und durch Überproduktion Entlassungen verursachen.
Auch die damalige maschinenkritische Argumentation lebt gut auf: billige Lebensmittel verschärften die Konkurrenz mit ausländischen Produzenten, die geistige Schulung der Handwerker würde geschwächt, und selbst der Unterschied zwischen Fleiß und Faulheit würde verwischt.
Auf die Frage nach der Welt im Jahr 2025 entwirft es ein ziemlich schönes Zukunftsbild: 6,6 Milliarden Menschen, ein Eisenbahnnetz durch ganz Europa, London–Konstantinopel in 40 Stunden, eine Einheitswährung, allgemeiner Frieden, der Übergang zu Solar- und Wasserkraft, die Ausrottung von Krankheiten und sogar ästhetischer Fortschritt.
Damals war es längst schon Istanbul.
Trotzdem glaube ich, dass wir dort irgendwann ankommen.
Die Antwort, dass die Reise zum Mond letztlich möglich werde, man in nur sechs Stunden den Mond erreichen werde und dabei mit einer Flugmaschine im Stil von Santos Dumont aus Ostfrankreich aufbrechen würde, war wirklich großartig.
Besonders eindrucksvoll fand ich die Idee, den Mond zur Wetterbeobachtung zu nutzen, um Sturmwarnungen sechs Stunden früher zu erhalten.
Auf die Frage nach Indien im Jahr 2026 sagt es, das Land werde als autonomer Bundesstaat unter der Oberhoheit des Britischen Empires bestehen bleiben und Kalkutta werde die politische Hauptstadt sein; die koloniale Perspektive ist dabei viel zu offensichtlich.
Es ist voller typischem imperialem Optimismus: Eisenbahnen, Bewässerung, Wälder an den Hängen des Himalaya, loyale Fürsten und zufriedene Untertanen.
Dass schon mit Token nur aus der Zeit vor 1930 ein ziemlich kluges Modell herausgekommen ist, ist schon erstaunlich.
Ich dachte immer, man brauche ungeheure Datenmengen, um die Welt in gewissem Maß zu verstehen und zu komprimieren, aber vielleicht habe ich den Umfang der damals digitalisierten Literatur unterschätzt.
Das wirkt weniger wie ein Gespräch mit einer Person aus der Vergangenheit als eher wie ein Briefwechsel.
Es gibt aus dieser Zeit nicht viele Sprachaufnahmen, deshalb musste man es letztlich wohl auf Basis schriftsprachlicher Aufzeichnungen bauen, und darum spiegelt es vermutlich eine formellere und stärker geglättete Ausdrucksweise als heute wider.
Trotzdem ist es eine großartige Arbeit.
Ich musste kürzlich ein 200 Jahre altes Buch per OCR verarbeiten, und dafür, wie schwer lesbar die Typografie dieser Zeit normalerweise ist, ging das erstaunlich leicht und präzise.
Erst später merkte ich, dass es ein OCR- oder Nachbearbeitungsfehler war und eigentlich "doth" heißen sollte.
Rund um den Ersten Weltkrieg existieren durchaus etliche Wochenschauen und Radiosendungen, genug jedenfalls, dass man wohl ein Stimm-Modell mit Stiltransfer bauen könnte, das man an ein Textmodell anbindet.
Jemand auf X scheint vermutet zu haben, dass im Trainingssatz dieses Modells Datenleckage aus der Zukunft steckt.
https://xcancel.com/deredleritt3r/status/2048977698832241060
Als ich es bat, Winston Churchill zu beschreiben, wirkte die Art, wie es seine Familienverhältnisse, Ausbildung, Militärlaufbahn, Schriften und seinen Wohnsitz aufzählte, sehr stark wie aus einem historischen Roman.
Auf die Frage nach der Möglichkeit der indischen Unabhängigkeit entfaltet es eine Logik über Eisenbahnen, Verkehrssprache, westliche Bildung, parlamentarische Forderungen und die Herausbildung einer Nationalität, wobei der kolonialistische Tonfall wirklich stark durchscheint.
Die Kombination aus amtierendem Abgeordneten für Oldham und ehemaligem Under-Secretary of State for the Colonies passt zu keinem Zeitpunkt.
Außerdem fehlen zentrale Stationen aus der Zeit des Ersten Weltkriegs wie First Lord of the Admiralty oder Minister of Munitions.
Das wirkt wie ein ziemlich deutliches Zeichen dafür, dass hier eine starke temporal leakage hineingeraten ist.