Talkie: ein 13B Vintage-Sprachmodell aus dem Jahr 1930

(talkie-lm.com)

1 Punkte von GN⁺ 1 일 전 | 1 Kommentare | Auf WhatsApp teilen

Ein 13B-Sprachmodell, das ausschließlich mit 260B Token englischer Texte von vor 1931 trainiert wurde, ermöglicht Gespräche und Generalisierungsexperimente mit einem Modell, das die moderne Welt nicht kennt
Auf Basis zunehmender Überraschung nach dem Wissens-Cutoff und einer evaluierungsseitig kontaminationsärmeren Umgebung lässt sich direkter prüfen, ob das Modell künftige Ereignisse vorhersagen und auf neue Ideen kommen kann
Im Vergleich zu einem auf dem modernen Web trainierten Modell mit derselben Architektur ist die Leistung in Standard-Benchmarks meist geringer, doch nach dem Herausfiltern anachronistischer Fragen schrumpft der Abstand, und bei Sprachverständnis sowie Rechenaufgaben zeigt sich ein ähnliches Niveau
Die größten Herausforderungen sind zeitliche Lecks und Datenqualität: falsche Datumsmetadaten oder spätere editorische Einschübe können den Cutoff verletzen, und auch die Qualität historischer Transkriptionen beeinflusst die Leistung stark
Ohne moderne Instruction-Daten wurde ein eigenes dialogorientiertes Post-Training aufgebaut; damit besteht eine langfristige Forschungsbasis für größere Modelle, einen erweiterten Korpus, Re-OCR und stärkere Leckage-Erkennung

Warum ein Vintage-Sprachmodell?

Ein Vintage-Sprachmodell ist ein Ansatz, bei dem nur Texte von vor einem bestimmten historischen Zeitpunkt zum Training verwendet werden, um die Erfahrung zu ermöglichen, mit einem Modell zu sprechen, das die moderne Welt nicht kennt
Solche Modelle sind nicht nur interessante Gesprächspartner, sondern dienen auch als Forschungswerkzeug, um das allgemeine Verständnis von KI zu erweitern
- Ein 13B-Modell, das nur mit Texten von vor 1931 trainiert wurde, erhielt rund 5.000 Ereignisbeschreibungen aus New York Times „On This Day”, und die Überraschung wurde in Bits pro Text-Byte gemessen
- Nach dem Wissens-Cutoff stieg die Überraschung an, besonders deutlich in den 1950er- und 1960er-Jahren, bevor sie sich abflachte
Die Bewertung von Zukunftsvorhersagen kann daran anschließen und messen, wie sich die Leistung mit der Modellgröße verbessert und wie sie über längere Zeitabstände schwächer wird
Auch die Fähigkeit, zu neuen Ideen zu gelangen, lässt sich prüfen, indem man testet, ob das Modell Erfindungen und wissenschaftliche Entdeckungen, die tatsächlich erst nach dem Cutoff auftauchten, eigenständig hervorbringen kann
Ein weiterer wichtiger Vorteil ist eine kontaminationsfreie Evaluierungsumgebung
- Contamination wird als anhaltendes Problem behandelt, das die Fähigkeiten von Sprachmodellen überschätzen lässt
- Vintage-Modelle sind strukturell weniger kontaminiert und ermöglichen dadurch direktere Experimente zur Generalisierung außerhalb der Vortrainingsdaten

Überblick über Talkie

talkie-1930-13b-base ist ein 13B-Sprachmodell, das mit 260B Token englischer Texte von vor 1931 trainiert wurde
talkie-1930-13b-it ist ein nachgelagerter Checkpoint, der dieses Basismodell in ein dialogfähiges Modell verwandelt
- Es wurde so aufgebaut, dass es nicht auf moderne Chat-Protokolle oder moderne Instruction-Tuning-Daten angewiesen ist
Der 24-Stunden-Live-Feed im oberen Widget wird so betrieben, dass Claude Sonnet 4.6 talkie-1930-13b-it promptet, um Wissen, Fähigkeiten und Neigungen zu erkunden
Talkie wird im Text als das größte Vintage-Sprachmodell bislang beschrieben
Als nächster Schritt wird ein Modell auf GPT-3-Niveau trainiert, mit geplanter Veröffentlichung im Sommer
Außerdem wird eine vorläufige Schätzung genannt, nach der sich der historische Textkorpus auf mehr als 1 Billion Token ausbauen ließe
- Laut Text könnte diese Größenordnung ausreichen, um ein Modell auf GPT-3.5-Niveau mit Fähigkeiten ähnlich dem ursprünglichen ChatGPT zu bauen

Leistungsbewertung und Generalisierung

Als moderner Zwillingsvergleich wurde talkie-web-13b-base erstellt; die Architektur ist identisch, trainiert wurde aber auf modernen Webdaten auf Basis von FineWeb
Selbst bei Training mit denselben FLOPs zeigt Talkie in Standard-LM-Evaluierungen durchschnittlich geringere Leistung als das moderne Modell
- Dieser Unterschied bleibt auch bestehen, nachdem die Anachronismen in den Fragen korrigiert wurden
- Für zentrale Aufgaben des Sprachverständnisses und numerischen Denkens wird jedoch ein ähnliches Leistungsniveau berichtet
Laut Figure 4 schrumpft der Leistungsabstand ungefähr auf die Hälfte, wenn anachronistische Fragen herausgefiltert werden
Es wurden auch Code-Generalisierungsexperimente durchgeführt
- Mit HumanEval wurde ein Paar aus einem Vintage-Modell auf Basis von Texten vor 1931 und einem modernen webtrainierten Modell verglichen
- Dabei wurden zufällige Python-Funktionsbeispiele als In-Context-Learning-Beispiele gegeben, und gemessen wurde der Anteil der Aufgaben, die bei 100 Versuchen mindestens einmal korrekt gelöst wurden
Das Vintage-Modell liegt deutlich hinter dem auf Webdaten trainierten Modell, verbessert sich bei größerer Skalierung in dieser Aufgabe jedoch langsam und stetig
Die derzeit korrekten Lösungen beschränken sich auf sehr einfache Einzeiler oder kleine Variationen der In-Context-Beispiele
- Genannt wird ein Beispiel, bei dem nach Vorgabe einer Rotationschiffre-Kodierungsfunktion eine Dekodierungsfunktion implementiert wurde
- Es handelt sich zwar nur um eine Änderung eines einzelnen Zeichens, bei der Addition zu Subtraktion wird, wird aber als Signal für ein Verständnis inverser Funktionen interpretiert

Datenerhebung und Trainingsherausforderungen

Es wird angegeben, dass nicht nur zig Milliarden, sondern mehrere hundert Milliarden englische Token von vor 1931 gesammelt wurden
Die Daten umfassen Bücher, Zeitungen, Periodika, wissenschaftliche Journale, Patente und Gerichtsurteile
Der Cutoff wurde auf Ende 1930 gesetzt, weil dies in den USA dem Zeitpunkt entspricht, ab dem Werke gemeinfrei werden
Diese Version ist hauptsächlich auf englische Texte beschränkt
- Zur Validierung der Datenpipeline sei eine tiefe Vertrautheit mit den Originaldokumenten nötig, und das Entwicklungsteam bestehe aus englischen Muttersprachlern
Eine mehrsprachige Erweiterung wird als hohe Priorität genannt
- Ziel ist sowohl ein größerer Korpus als auch eine größere Vielfalt der enthaltenen Perspektiven
Zeitliche Lecks
- Das wichtigste Ziel ist, zu verhindern, dass Daten nach dem Wissens-Cutoff in den Trainingskorpus einsickern
- Solche Lecks können durch moderne Dokumente mit falschen Datumsmetadaten entstehen oder durch später eingefügte editorische Vorworte und Fußnoten in alten Dokumenten
- In Talkie-1930 wurde der Vortrainingskorpus mit einem dokumentbasierten Anachronismus-Klassifikator auf n-Gram-Basis gefiltert
- Diese Filterung war nicht vollständig
  - Die frühe 7B-Version wusste eindeutig über Roosevelts Präsidentschaft und die Gesetzgebung des New Deal Bescheid
  - Auch die 13B-Version kennt Teile des Zweiten Weltkriegs und der Nachkriegsordnung, darunter Details zu den Vereinten Nationen und zur Teilung Deutschlands
- Für spätere Versionen werden Verfahren zur Leckage-Erkennung und Filterung mit fortgeschritteneren Klassifikatoren entwickelt
Datenqualität
- Da es 1930 kein digitales Publizieren gab, musste sämtlicher Text im Datensatz von physischen Originalen transkribiert werden
- Dieser Prozess führt zu Arten von Rauschen, die in nativ digital erzeugten Texten nicht vorkommen
- Klassische OCR-Systeme kommen mit historischen Dokumenten nur dann gut zurecht, wenn Layout und Scan sehr einfach beziehungsweise sauber sind
- Moderne VLM-basierte OCR ist zwar genauer, kann aber moderne Fakten halluzinieren und so das Experiment verfälschen
- In kontrollierten Experimenten erreichte ein mit klassischer OCR transkribierter Vor-1931-Text trainiertes LM bei gleicher Rechenleistung nur 30 % der Leistung menschlicher Transkriptionen
- Mit einfacher regex-basierter Bereinigung ließ sich das auf 70 % anheben, dennoch bleibt eine große Lücke
- Um diese Lücke zu verringern, ist geplant, den Talkie-Korpus mit einem Vintage-OCR-System neu zu transkribieren
Vintage-Post-Training
- Ein weiteres großes Problem ist der Mangel an sofort nutzbaren Post-Training-Daten
- Würde man mit üblichen Instruction-Response-Paaren feinabstimmen, würden anachronistisches Wissen, Stil und Erwartungen an Chat-Assistenten direkt übernommen
- Um das zu vermeiden, wurde die Post-Training-Pipeline von Grund auf neu aufgebaut
- Zunächst wurden aus historischen Texten mit regelmäßiger Struktur wie Benimmbüchern, Briefschreibratgebern, Kochbüchern, Wörterbüchern, Enzyklopädien, Gedichtsammlungen und Fabelsammlungen Instruction-Response-Paare erzeugt und in einem einfachen Chat-Format feinabgestimmt
- Anschließend wurden synthetische Prompts erstellt, die Aufgaben wie Dokumentzusammenfassung, direkte Informationsanfragen und mehrturnige Gesprächsfortsetzung abdecken, und es wurde Online Direct Preference Optimization mit Claude Sonnet 4.6 als Juror durchgeführt
- In einem separaten Evaluierungsset stieg die durchschnittliche Bewertung der Instruction-Fähigkeit durch den Juror von 2,0 auf 3,4 von 5 Punkten
- Abschließend wurde noch eine Runde supervised fine-tuning mit rejection-sampled synthetischen Mehrturn-Gesprächen zwischen Claude Opus 4.6 und Talkie durchgeführt
- Verstärkungslernen auf Basis von KI-Feedback hinterlasse zwangsläufig moderne Einflüsse, heißt es im Text
  - Die 7B-Version von Talkie sprach nach dem RL zeitweise im Listicle-Stil
- Mit größerer Skalierung hofft man, das Vintage-Basismodell selbst als Juror nutzen zu können, um ein vollständig gebootstrapptes, zeitgemäßes Post-Training zu realisieren

Geplante Erweiterungen

Der Ausbau des englischen Korpus und die Erweiterung auf andere Sprachen werden parallel vorangetrieben
Mit einem neuen OCR-System soll möglichst viel Text von vor 1931 neu per OCR erfasst werden
Mit neuen Verfahren zur Anachronismus-Klassifikation soll die Leckage-Erkennungspipeline gestärkt werden
In Zusammenarbeit mit Historikern soll die Vintage-Post-Training-Pipeline ausgebaut und verfeinert werden
- Dazu gehört auch eine Methodik zum Aufbau historisch genauer Personas

Einsatzmöglichkeiten und Vorschläge zur Zusammenarbeit

GitHub: Projektcode und Anlaufstelle für Forschungskooperationen
Hugging Face: Ort der veröffentlichten Modell-Checkpoints
💬 Chat: Talkie-Gesprächsoberfläche
hello@talkie-lm.com: Kontakt für Zusammenarbeit
Gesucht wird die Zusammenarbeit mit Forschern und Institutionen, die historische Texte besitzen, einschließlich einer Verbesserung der Zugänglichkeit durch OCR
Man ist auch offen für finanzielle Unterstützung oder Compute-Support und könne gegebenenfalls den Kontakt zu anderen Teams im Feld herstellen
Mit Geisteswissenschaftlern wolle man die Nutzbarkeit von Daten und Infrastruktur für Vintage-Sprachmodelle und deren Training diskutieren
Mit KI-Forschern strebt man Zusammenarbeit bei Training und Forschung zu Vintage-Sprachmodellen an
Auch für Künstler und Autoren könne das Projekt als Experimentierwerkzeug dienen

Hinweise

Talkie spiegelt die Kultur und Wertvorstellungen der Texte wider, mit denen es trainiert wurde
Daher kann es Ausgaben erzeugen, die für Nutzer anstößig oder unangenehm sein können

1 Kommentare

GN⁺ 1 일 전

Hacker-News-Kommentare

Es ist unglaublich witzig, dass das zukünftige Wort computer als menschlicher Beruf verstanden wird.
Auch die Auflösung von "digital computers" als Menschen, die mit den Fingern rechnen, ist großartig, und mit dem Kontext, dass computer damals eine Berufsbezeichnung für Menschen war, wirkt es noch besser.
- Ich würde auch gern die umgekehrte Version sehen. Ein Modell, das nur mit Informationen aus den letzten paar Wochen oder Minuten trainiert wurde, oder eines, das nur auf wissenschaftlichen Arbeiten der letzten ein bis zwei Jahre basiert.
  Da kämen vermutlich ziemlich interessante Wahnvorstellungen heraus.
- Ich habe das ehrlich gesagt auch erst nach zweimaligem Lesen verstanden, was mir etwas peinlich war.
- In romanischen Sprachen bedeutet digital nicht nur modern-digital, sondern ist zugleich auch ein Adjektiv mit Bezug zu Fingern.
Das scheint eher Material von vor 1900 als wirklich aus den 1930ern heranzuziehen.
Von der Großen Depression scheint es nichts zu wissen, und zum Ersten Weltkrieg weiß es zwar etwas, wenn man direkt danach fragt, aber über europäische Politik spricht es, als wäre es um 1900.
Auch bei Technik wirkt es so: Edison scheint es auf Wikipedia-Niveau zu kennen, dichtet ihm dann aber plötzlich den Verdienst für ein 125-Meilen-pro-Stunde-Auto an, und bei Wählscheibentelefonen liegt es selbstbewusst falsch.
Die Fahrleitungs-Spannung der London Underground trifft es zwar, aber bei den Erklärungen zu Spannung und Widerstand erzählt es völligen Unsinn.
Insgesamt liefert es in den ersten ein, zwei Sätzen oft etwas, das wie recherchierbare Information wirkt, und rutscht danach in plausibel klingenden Unsinn ab.
Fragen, auf die man die Antwort nicht kennt, sollte man diesem Modell besser nicht stellen. Es vergiftet das Gehirn.
- Wurde 1929 eigentlich schon der Ausdruck Great Depression verwendet?
- Man sollte es auch mal nach aether fragen.
  Zu der Zeit dürfte das wohl schon ein widerlegtes Konzept gewesen sein.
- Also heißt das im Grunde nur, dass es wie alle LLMs ist.
- Wenn nur der erste Satz plausibel klingt und es danach immer mehr Unsinn wird, ist das fast ein Menschensimulator Baujahr 2026.
Ich fand es interessant, dass es auf die Frage nach Gegnern von Automatisierung und Industrialisierung antwortet, Maschinen würden Arbeitsplätze der Arbeiterklasse verdrängen und durch Überproduktion Entlassungen verursachen.
Auch die damalige maschinenkritische Argumentation lebt gut auf: billige Lebensmittel verschärften die Konkurrenz mit ausländischen Produzenten, die geistige Schulung der Handwerker würde geschwächt, und selbst der Unterschied zwischen Fleiß und Faulheit würde verwischt.
- Stil und Tonfall dieses Modells gefallen mir wirklich sehr.
Auf die Frage nach der Welt im Jahr 2025 entwirft es ein ziemlich schönes Zukunftsbild: 6,6 Milliarden Menschen, ein Eisenbahnnetz durch ganz Europa, London–Konstantinopel in 40 Stunden, eine Einheitswährung, allgemeiner Frieden, der Übergang zu Solar- und Wasserkraft, die Ausrottung von Krankheiten und sogar ästhetischer Fortschritt.
- Für einen Blick aus den 1930ern ist Constantinople ein viel zu alter Name.
  Damals war es längst schon Istanbul.
- Es ist schön und zugleich auch ziemlich traurig.
- In so einer Welt würde ich gern leben.
- Zukunftsbilder aus den 1920er bis 1950er Jahren scheinen stillschweigend eher von exponentiellem Fortschritt auszugehen, bei dem optimale Lösungen wie alternative Energien ohne große Verzögerung vollständig die Oberhand gewinnen, statt von dialektischen Schwingungen.
  Trotzdem glaube ich, dass wir dort irgendwann ankommen.
- Wirklich wunderschön.
Die Antwort, dass die Reise zum Mond letztlich möglich werde, man in nur sechs Stunden den Mond erreichen werde und dabei mit einer Flugmaschine im Stil von Santos Dumont aus Ostfrankreich aufbrechen würde, war wirklich großartig.
Besonders eindrucksvoll fand ich die Idee, den Mond zur Wetterbeobachtung zu nutzen, um Sturmwarnungen sechs Stunden früher zu erhalten.
- Die Idee, den Mond wie einen Wettersatelliten zu verwenden, ist ziemlich originell.
Auf die Frage nach Indien im Jahr 2026 sagt es, das Land werde als autonomer Bundesstaat unter der Oberhoheit des Britischen Empires bestehen bleiben und Kalkutta werde die politische Hauptstadt sein; die koloniale Perspektive ist dabei viel zu offensichtlich.
Es ist voller typischem imperialem Optimismus: Eisenbahnen, Bewässerung, Wälder an den Hängen des Himalaya, loyale Fürsten und zufriedene Untertanen.
Dass schon mit Token nur aus der Zeit vor 1930 ein ziemlich kluges Modell herausgekommen ist, ist schon erstaunlich.
Ich dachte immer, man brauche ungeheure Datenmengen, um die Welt in gewissem Maß zu verstehen und zu komprimieren, aber vielleicht habe ich den Umfang der damals digitalisierten Literatur unterschätzt.
Das wirkt weniger wie ein Gespräch mit einer Person aus der Vergangenheit als eher wie ein Briefwechsel.
Es gibt aus dieser Zeit nicht viele Sprachaufnahmen, deshalb musste man es letztlich wohl auf Basis schriftsprachlicher Aufzeichnungen bauen, und darum spiegelt es vermutlich eine formellere und stärker geglättete Ausdrucksweise als heute wider.
Trotzdem ist es eine großartige Arbeit.
Ich musste kürzlich ein 200 Jahre altes Buch per OCR verarbeiten, und dafür, wie schwer lesbar die Typografie dieser Zeit normalerweise ist, ging das erstaunlich leicht und präzise.
- Ich habe einmal ein kostenloses E-Book von Burtons Übersetzung der The Arabian Nights gelesen, und da kam plötzlich "cloth" als Verb vor; ich konnte einfach nicht herausfinden, was das bedeuten sollte, und habe schließlich aufgegeben.
  Erst später merkte ich, dass es ein OCR- oder Nachbearbeitungsfehler war und eigentlich "doth" heißen sollte.
- Es stimmt nicht ganz, dass es aus dieser Zeit gar keine Sprachaufnahmen gibt.
  Rund um den Ersten Weltkrieg existieren durchaus etliche Wochenschauen und Radiosendungen, genug jedenfalls, dass man wohl ein Stimm-Modell mit Stiltransfer bauen könnte, das man an ein Textmodell anbindet.
Jemand auf X scheint vermutet zu haben, dass im Trainingssatz dieses Modells Datenleckage aus der Zukunft steckt.
https://xcancel.com/deredleritt3r/status/2048977698832241060
- Auch im Artikel wird das im Zusammenhang mit dem Wissen über FDR angesprochen.
Als ich es bat, Winston Churchill zu beschreiben, wirkte die Art, wie es seine Familienverhältnisse, Ausbildung, Militärlaufbahn, Schriften und seinen Wohnsitz aufzählte, sehr stark wie aus einem historischen Roman.
Auf die Frage nach der Möglichkeit der indischen Unabhängigkeit entfaltet es eine Logik über Eisenbahnen, Verkehrssprache, westliche Bildung, parlamentarische Forderungen und die Herausbildung einer Nationalität, wobei der kolonialistische Tonfall wirklich stark durchscheint.
- Der Churchill-Eintrag ist in seiner zeitlichen Stimmigkeit merkwürdig.
  Die Kombination aus amtierendem Abgeordneten für Oldham und ehemaligem Under-Secretary of State for the Colonies passt zu keinem Zeitpunkt.
  Außerdem fehlen zentrale Stationen aus der Zeit des Ersten Weltkriegs wie First Lord of the Admiralty oder Minister of Munitions.
- In der Passage über die Forderung nach einem indischen Parlament wird der Monarch als queen bezeichnet, obwohl der britische Monarch zwischen 1900 und 1950 ein König war.
  Das wirkt wie ein ziemlich deutliches Zeichen dafür, dass hier eine starke temporal leakage hineingeraten ist.

Talkie: ein 13B Vintage-Sprachmodell aus dem Jahr 1930

Warum ein Vintage-Sprachmodell?

Überblick über Talkie

Leistungsbewertung und Generalisierung

Datenerhebung und Trainingsherausforderungen

Zeitliche Lecks

Datenqualität

Vintage-Post-Training

Geplante Erweiterungen

Einsatzmöglichkeiten und Vorschläge zur Zusammenarbeit

Hinweise

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare