Die Gewichte großer LLMs sind ein Teil der Geschichte
(antirez.com)- Jedes Jahr verschwinden viele alte Webseiten, und damit geht Geschichte für immer verloren
- Das Internet Archive ist eines der wertvollsten Güter der modernen Geschichte
- Doch verschiedene Unternehmen und Institutionen erschweren das Überleben und die Bewahrung des Archivs
- Dass sich der Hauptsitz des Internet Archive in einem ehemaligen Kirchengebäude befindet, ist symbolisch, und man sollte ihn als einen heiligen Ort betrachten
- Die Zeiten, in denen frühe Programmierer mit Z80-Assembly arbeiteten, die Diskussionen der frühen Internetgeneration und die in den 90er Jahren entstandenen Subkulturen verschwinden allmählich
- Das Verschwinden persönlicher Blogs → Aufzeichnungen über individuelles Leben und Bewusstsein gehen verloren
- Auch wissenschaftliche Arbeiten, digitale Kunst, Videospiele, Klimadaten und frühe Nachrichtenquellen verschwinden nach und nach
- Wenn Verlage oder Websites verschwinden, gehen diese Informationen oft für immer verloren
- Der Versuch, alle Informationen zu bewahren, wird in der Praxis mit hoher Wahrscheinlichkeit scheitern
- weil enorme Kosten entstehen, ohne dass ein wirtschaftlicher Nutzen besteht
- die heutige Welt befindet sich in einem Zustand, in dem es schwierig ist, Ressourcen in Dinge zu investieren, die kein Geld einbringen
- Die Fähigkeit von LLMs (Large Language Models), Informationen zu komprimieren, ist nicht perfekt, kann aber zumindest eine minimale Form der Bewahrung leisten
- DeepSeek V3 ist bereits als verlustbehaftet komprimierte Version des Internets veröffentlicht und nutzbar
- Auch wenn sich nicht jeder Verlust rückgängig machen lässt, sollten wir Institutionen wie das Internet Archive unterstützen
- Gleichzeitig eine wichtige Aufgabe: sicherstellen, dass öffentlich verfügbare LLM-Gewichte nicht verloren gehen
- Es muss gewährleistet werden, dass die Inhalte des Internet Archive in Vortrainingsdatensätzen für LLMs enthalten sind
2 Kommentare
Hacker-News-Kommentare
Ich mag den Titel „Big LLMs“. Jetzt wird offenbar zwischen großen LLMs und kleinen LLMs unterschieden, und vielleicht auch mittleren LLMs. Ich würde vorschlagen, sie „Tall LLMs“, „Grande LLMs“ und „Venti LLMs“ zu nennen.
Das Internet Archive sollte als einer der wertvollsten Teile der modernen Geschichte gelten. Doch viele Unternehmen und Organisationen machen das Überleben und den Ausbau des Archivs zunehmend schwieriger. Ich verstehe, dass sich der Hauptsitz des Archivs in einem ehemaligen Kirchengebäude befindet. Das ist wohl die beste Art, es als heiligen Ort zu betrachten. Es gibt aktive Bemühungen, ein in Europa ansässiges Internet Archive aufzubauen.
Mozillas llamafile-Projekt wurde dafür entworfen, LLMs für historische Zwecke zu bewahren. Es liefert die Gewichte und alle benötigten Software-Komponenten als deterministische, abhängigskeitsfreie Single-File-Executable. Wenn man llamafiles speichert, kann man auch in 50 Jahren noch dieselbe Ausgabe wie heute erhalten. Bitte unterstützt Mozilla dabei, diesen besonderen Moment für künftige Generationen zu archivieren.
So wie die Karte nicht das Gebiet ist, ist eine Zusammenfassung nicht der Inhalt oder das eigentliche Buch in einer Bibliothek. Wenn ich einen Beitrag, ein Buch oder ein Forum lesen will, dann will ich genau das lesen und kein durch einen mysteriösen mathematischen Algorithmus erzeugtes Imitat.
Ich vermisse die guten alten Zeiten, als man mit text-davinci Filmtabellen mit Links zu Filmplakaten erstellt hat. Normalerweise wurden Bild-URLs in einem s3-Bucket erzeugt. Die Links haben immer funktioniert.
Ich finde es in Ordnung, dass nicht alles im Internet für immer archiviert wird. Früher haben Menschen auf Papier geschrieben, und das meiste davon wurde auch nicht archiviert. Irgendwann ist es einfach verschwunden. Ich habe viele Kisten mit Notizen, Büchern und Dokumenten von meinen Großeltern geerbt. Das meiste bedeutete mir nichts. Vieles musste ich wegwerfen, und nur einige tausend Seiten verschiedener Dokumente habe ich behalten. Alles andere ist für immer verschwunden. Und das ist wahrscheinlich in Ordnung. Archive sind sehr wichtig, aber der schwierigste Teil ist heute, auszuwählen, was archiviert werden soll. Jede Sekunde kommt so viel neuer Inhalt ins Internet, dass nur ein Teil davon überhaupt archiviert werden kann.
Ich frage mich, ob man mit mehreren verschiedenen LLMs eine ungefähre Version der populären gemeinsamen Teilmenge der Internet-Trainingsdaten rekonstruieren könnte. Ich frage mich, ob jemand Hinweise auf mathematische Arbeiten zu so etwas kennt.
Das ergibt für mich keinen großen Sinn. Gerüchte ohne Quellen haben nur begrenzten historischen Wert, und die meisten im Web verfügbaren, gewichtsverwendbaren Modelle scheinen auf Common Crawl zu basieren und sind damit für die Bewahrung verfügbar.
Mir gefällt das Narrativ, dass LLMs menschliches Wissen bewahren. Persönlich wünsche ich mir, dass alles Wissen und alle Informationen leicht zugänglich und nutzbar sind. Ich bin sicher, dass die meisten Menschen ähnlich empfinden, trotz der konsequenten Geschäftsentscheidungen von Rechteinhabern, alles zu monetarisieren oder hinter Registrierungsschranken zu verstecken. Viele mögen es nicht, dass Google durch Werbung die Informationen der Welt organisiert hat und damit erfolgreich war, aber langfristig werden Informationen in verschiedenen Internet-Datenformaten organisiert und bewahrt. Letztlich hat Google den Transformer ursprünglich entworfen, der LLM-Gewichte überhaupt erst ermöglicht hat, und auch das ist inzwischen Teil der Geschichte.
Wissenschaftliche Arbeiten und Lehrmaterialien gehen für immer verloren, wenn Verlage scheitern und Websites abgeschaltet werden. Ich glaube nicht, dass die großen wissenschaftlichen Verlage (derzeit, in unserer Zeit) scheitern werden. Sie sind wohlhabend.
„Eine Zusammenfassung ist nicht der eigentliche Inhalt oder das tatsächliche Buch in einer Bibliothek. Wenn ich einen Beitrag, ein Buch oder ein Forum lesen möchte, dann möchte ich genau das lesen. Kein mit mysteriösen mathematischen Algorithmen erzeugtes Imitat.“
Dem stimme ich zu.