Selbstadaptierende große Sprachmodelle

(arxiv.org)

3 Punkte von GN⁺ 2025-06-15 | 1 Kommentare | Auf WhatsApp teilen

Bestehende LLMs behalten ihre Gewichte oft unverändert, selbst wenn sie neues Wissen oder neue Aufgaben erhalten. SEAL schlägt dafür ein Framework zur Selbstanpassung vor, in dem das Modell selbst Trainingsdaten und -verfahren erstellt und aktualisiert
Die zentrale Einheit, der self-edit, strukturiert Informationen neu, legt Optimierungs-Hyperparameter fest und umfasst auch Datenaugmentation sowie Tool-Aufrufe für gradientenbasierte Updates
SEAL lernt über eine Reinforcement-Learning-Schleife, bei der die Downstream-Leistung des aktualisierten Modells als Belohnung dient, eine effektivere Politik zur Erzeugung von self-edits
In Experimenten zur Wissensintegration stieg die Leistung bei no-passage-in-context SQuAD nach Fine-Tuning mit selbst erzeugten synthetischen Daten von 33,5 % auf 47,0 % und lag damit über synthetischen Daten, die von GPT-4.1 erzeugt wurden
Auch beim Few-Shot-Learning auf einer vereinfachten Teilmenge von ARC-AGI erzielte SEAL bessere Ergebnisse als Standard-ICL und self-editing ohne RL, indem es Datenaugmentation, Lernrate, Epochen und Loss-Berechnung je Token-Typ automatisch auswählte

Wie sich ein statisches LLM selbst aktualisiert

Bestehende LLMs sind leistungsfähig, aber statisch und verfügen über keinen Mechanismus, um ihre Gewichte an neue Aufgaben, neues Wissen oder neue Beispiele anzupassen
SEAL (Self-Adapting LLMs) ist so konzipiert, dass das Modell bei neuen Eingaben selbst Trainingsdaten und Trainingsverfahren verändert und sich dadurch selbst anpasst
Das zentrale Artefakt ist der self-edit
- Er kann Informationen in ein anderes Format umstrukturieren
- Er kann Optimierungs-Hyperparameter festlegen
- Er kann Tools für Datenaugmentation und gradientenbasierte Updates aufrufen
Ein self-edit führt über supervised fine-tuning (SFT) zu dauerhaften Updates der Modellgewichte
Website und Code sind unter https://jyopari.github.io/posts/seal verfügbar

Unterschiede zu bisherigen Adaptionsmethoden

Aktuelle LLMs verwenden neue Aufgabendaten in der Regel unverändert (as-is), wenn sie per Fine-Tuning oder In-Context Learning an neue Aufgaben angepasst werden
Die Eingabedaten haben möglicherweise nicht das optimale Format oder den optimalen Umfang für das Training, doch bisherige Ansätze lassen das Modell keine eigene Strategie dafür entwickeln, wie es Daten transformiert und erlernt
SEAL stützt sich nicht auf ein separates Adaptionsmodul oder ein Hilfsnetzwerk, sondern parametrisiert und steuert den Anpassungsprozess über die eigenen Generierungen des Modells
Das ähnelt der Art, wie menschliche Lernende Rohmaterial nicht einfach auswendig lernen, sondern es in Notizen neu interpretieren und strukturieren
- Unterschiedliche Menschen assimilieren Informationen auf unterschiedliche Weise, etwa über visuelle Diagramme, Text oder mathematische Erklärungen
- SEAL ist ein Versuch, solche Umstrukturierungs- und Umschreibprozesse in das Trainingsverfahren von LLMs einzubringen

Lernen einer self-edit-Politik mit Reinforcement Learning

SEAL trainiert ein LLM mit einem Reinforcement-Learning-Algorithmus darauf, effektive self-edits zu erzeugen
Jede äußere Reinforcement-Learning-Iteration läuft wie folgt ab
- Das Modell erzeugt Kandidaten für self-edits
- Entsprechend dem self-edit wird ein Gewichtsupdate angewendet
- Das aktualisierte Modell wird auf einer Downstream-Aufgabe evaluiert
- Mit der aus dem Evaluationsergebnis gewonnenen Belohnung wird die Erzeugungspolitik für self-edits verbessert
Das Belohnungssignal ist die Downstream-Leistung des aktualisierten Modells

Experimentelle Ergebnisse: Wissensintegration

Das Experiment zur Wissensintegration behandelt die Aufgabe, neues Faktenwissen in ein LLM einzubringen
Statt den Passage-Text direkt feinzujustieren, wird mit vom SEAL-Modell erzeugten synthetischen Daten feinjustiert
Nach dem Reinforcement-Learning-Training steigerten die von SEAL selbst erzeugten synthetischen Daten die Frage-Antwort-Leistung bei no-passage-in-context SQuAD von 33,5 % auf 47,0 %
Die selbst erzeugten Daten von SEAL erzielten eine höhere Leistung als von GPT-4.1 erstellte synthetische Daten

Experimentelle Ergebnisse: Few-Shot-Generalization auf ARC-AGI

Die zweite Evaluation führt Few-Shot Learning auf einer vereinfachten Teilmenge des ARC-AGI-Benchmarks durch
Das Modell nutzt ein Set von Tools, um synthetische Datenaugmentation und Optimierungs-Hyperparameter autonom auszuwählen
Zu den automatisch ausgewählten Elementen gehören
- Lernrate
- Trainingsepochen
- selektive Loss-Berechnung je Token-Typ
Die automatische Auswahl und Konfiguration der Tools durch SEAL verbesserte die Leistung gegenüber Standard-In-Context-Learning (ICL) sowie gegenüber self-editing ohne RL, das den effektiven Einsatz von Tools nicht gelernt hatte
Beide Experimente zeigen, dass SEAL ein Framework sein kann, um Sprachmodelle als Reaktion auf neue Daten selbstgesteuert anzupassen

1 Kommentare

GN⁺ 2025-06-15

Meinungen auf Hacker News

Der Self-Edit-Ansatz ist clever, weil er per Reinforcement Learning optimiert, wie ein Modell Informationen so umstrukturiert, dass sie besser zu seinem eigenen Lernen passen.
Der Kern ist, dass für verschiedene Arten von Wissen unterschiedliche Darstellungsformen besser geeignet sind – ähnlich wie Menschen für Mathematik und Geschichte unterschiedlich Notizen machen.
Bei den GPT-4.1-Daten lag das Ergebnis der Wissensintegration bei 47 % gegenüber 46,3 % und damit deutlich über der Baseline kleiner Modelle; es scheint also nicht einfach an mehr Daten zu liegen, sondern daran, dass ein besseres Lernformat gefunden wurde.
Allerdings ist katastrophales Vergessen weiterhin nicht gelöst, und auch ist nicht völlig klar, ob sich die Datenvielfalt tatsächlich verbessert hat.
Die Rechenkosten von 30–45 Sekunden pro Reward-Bewertung sind für die meisten Einsatzzwecke zu hoch, könnten aber bei der Verarbeitung hochwertiger Dokumente sinnvoll sein, wenn optimale Wissensbewahrung wirklich entscheidend ist.
Die größte Einschränkung ist, dass der Ansatz auf Aufgaben mit expliziten Bewertungsmetriken beschränkt ist; zur Berechnung des Rewards braucht man korrekte Frage-Antwort-Paare oder Testfälle.
Dennoch könnte er in Bereichen wie technischer Dokumentation oder Bildungsinhalten, in denen Bewertungen erzeugt werden können, die Verarbeitung neuer Informationen deutlich verbessern. Auch wenn das noch nicht die Stufe „kontinuierlich selbstverbessernder Agenten“ ist, wirkt es wie ein wichtiger Schritt in Richtung Modelle, die ihre eigene Lernstrategie anpassen.
Zwei mathematisch hochbegabte Freunde, die schon seit Mitte der 2010er sehr früh Machine Learning betrieben, sprachen oft über die ähnlich klingenden Algorithmen NEAT/HyperNEAT.
„NEAT/HyperNEAT“ (Neuroevolution of Augmented Topologies) [0]
Ich bin kein Machine-Learning-Experte, aber soweit ich es verstehe, entwickelt NEAT die Topologie des Netzwerks weiter, während dieses Paper offenbar die Gewichte weiterentwickelt.
Letztlich wirken sie wie zwei Ansätze für dasselbe Problem: der eine entwickelt die Netzwerkstruktur, der andere die Gewichte.
Diese beiden Freunde gehören zu den klügsten Menschen, die ich je getroffen habe, und sie waren ziemlich überzeugt, dass Reinforcement Learning und evolutionäre Algorithmen der Weg nach vorn für Machine Learning sind.
[0] https://en.wikipedia.org/wiki/Neuroevolution_of_augmenting_t...
- Menschen sind beeindruckend. Sie bauten ein imaginäres Rechensystem, um Neuronen zu verstehen, stellten fest, dass echte Neuronen nicht so funktionieren – und entwickelten darauf trotzdem eine paradigmenverändernde Technologie.
  Und sie stärken diese Technologie weiterhin mit Ideen aus diesem imaginären System.
- Mein liebstes Einführungsmaterial zu NEAT ist SethBlings MarI/O - Machine Learning for Video Games.
  https://www.youtube.com/watch?v=qv6UVOQ0F44
- Ich bin dieser Idee in letzter Zeit völlig verfallen. Nachdem ich mit einem genetischen Algorithmus beim Voice Cloning für Kokoro einigen Erfolg hatte, fragte ich mich, ob man die Architektur selbst evolvieren lassen könnte.
  Die Idee selbstorganisierender Intelligenz ist äußerst faszinierend, aber ich frage mich, wie man sie praktisch realisierbar machen kann.
  Wenn man sieht, wie sich LLMs bis heute entwickelt haben, könnte ein solcher hybrider Ansatz vielleicht der beste Weg sein.
Auch von Anthropic ist vor ein paar Tagen ein Paper zu Self-Finetuning erschienen.
https://arxiv.org/html/2506.10139v1
- Das ist enorm.
  „Bei Bewertung durch das produktionsreife Reward-Modell von Claude 3.5 Sonnet gewann die unüberwachte Hilfspolicy im direkten Vergleich gegen eine Policy, die mit einem Reward-Modell aus menschlicher Supervision trainiert wurde, in 60 % der Fälle.“
  Damit können Modelle inzwischen sogar das Post-Training neuer Modelle besser durchführen als Menschen.
- Es gibt dazu einen laufenden Thread.
  Unsupervised Elicitation of Language Models - https://news.ycombinator.com/item?id=44276041
Ich wünschte, jemand, der sich gut auskennt, würde zusammenfassen, wie weit die Forschung dazu ist, LLMs „bei der Arbeit“ lernen zu lassen, und welche Blocker verhindern, dass daraus etwas wirklich Einsatzfähiges wird.
Zum Beispiel frage ich mich bei Modellen plus Coding Agents, die eine Codebase über die Zeit tatsächlich lernen, etwa durch kontinuierliches Finetuning, ob Kosten, Modellkollaps oder andere Faktoren das Problem sind.
Große Labore versuchen das sicher, aber aus Sicht eines LLM-Nutzers hört man nicht besonders viel darüber; derzeit scheint der Fokus eher auf besserem Training zu liegen, etwa Reinforcement Learning.
Offenbar steckt auch die Annahme dahinter, dass man Dinge, die nicht im Training gelernt wurden, bei Bedarf einfach in den Kontext legen kann.
Aus naiver Sicht wirkt die Unfähigkeit, nach dem Training aus Erfahrung zu lernen, wie das größte Hindernis auf dem Weg zu AGI.
- Wir wissen überhaupt nicht, wie kontinuierliches Lernen funktionieren soll.
  Rechenkosten, Kollaps und Vergessen sind zwar reale Themen, aber der einzige „wirklich“ gangbare Weg besteht darin, ein Modell zu trainieren, neue Daten zu erhalten, das Modell mit dem gesamten bisherigen Datensatz plus den neuen Daten vollständig neu zu trainieren und das Ganze zu wiederholen.
  Trotzdem gibt es dabei keine Garantien in Bezug auf „Zeit“.
  Das Feld des kontinuierlichen Lernens hat kaum Antworten, die das im eigentlichen Sinne lösen, und die Lösungen sind in vielerlei Hinsicht widersprüchlich – es ist zum Verrücktwerden schwierig.
  Man muss den Repräsentationsraum des Modells erweitern und dabei den bisherigen Repräsentationsraum fast unverändert lassen; im Grunde heißt das, etwas zu verändern, ohne es zu verändern.
  Am ärgerlichsten ist, dass selbst sehr kleine natürliche Gehirne das problemlos schaffen.
  Ich hätte dazu eine lange theoretische Erklärung, aber kurz gesagt braucht KI wahrscheinlich auf die eine oder andere Weise einen Prozess des Schlafens oder Ruhens.
- Ich bin kein Experte, aber ich denke, Privatsphäre spielt eine große Rolle – oder sollte es zumindest.
  Wegen der Rechenkosten müsste jedes Lernen wohl aggregiert und nicht pro Nutzer erfolgen; dadurch wird das Risiko von Informationslecks zwischen Sitzungen sehr groß.
  Ich stimme völlig zu, dass eine sichere Methode für kontinuierliches Lernen vermutlich das größte Hindernis für AGI ist.
- Die eigentliche Antwort ist, dass wir automatisierten Evaluationen nicht genug vertrauen.
  Selbst wenn Evaluationswerte steigen, ist schwer sicher zu sein, dass ein bestimmtes automatisch trainiertes Release die reale Leistung tatsächlich verbessert hat; deshalb bündeln derzeit alle Updates und machen vor der Auslieferung eine Plausibilitätsprüfung.
- Das offensichtlichste Problem ist Alignment.
  Es ist bereits bekannt, dass schon LLM-Finetuning Alignment zerstören kann; daher kann theoretisch jede Form von kontinuierlichem Finetuning auf dieselbe Weise Alignment beseitigen.
- Das klarste Hindernis ist katastrophales Vergessen.
Auf den ersten Blick scheint es nur ein Framework zu sein, das einen LoRA-Adapter feinabstimmt und ihn anschließend in das ursprüngliche Modell merged.
Es verwendet PeftModel aus der HuggingFace-Bibliothek und merge_and_unload, um den Adapter in das Basismodell zu mergen; mir ist aber nicht klar, was daran genau neu sein soll.
- Der neu wirkende Teil könnte in der Stabilität des Ansatzes liegen, also darin, Alignment-Kosten und Model Collapse zu vermeiden.
  Ich würde gern einen vollständigen Zyklus des Hypernetzwerks sehen, bei dem beide Modelle mit dem generierten LoRA fortlaufend aktualisiert werden und auch das Hypernetzwerk passend zum neuen Modellzustand aktualisiert wird.
  Um LoRA auf das Hypernetzwerk anzuwenden, bräuchte man ein Meta-Hypernetzwerk; damit könnte faktisch kontinuierliches Lernen möglich werden.
Die zentrale Passage ist: „Große Sprachmodelle sind leistungsfähig, aber statisch, und sie haben keinen Mechanismus, um ihre Gewichte als Reaktion auf neue Aufgaben anzupassen.“
Training und Inferenz sind vollständig getrennt, was für Menschen, die mit traditionellen Vorstellungen menschlicher Intelligenz vertraut sind, sehr verwirrend ist.
Beim Menschen sind das Lernen von etwas und die Anwendung dieses Wissens in der Realität ein einziger integrierter Feedbackprozess; bei LLMs ist das nicht so.
Wir trainieren sie, deployen sie und ersetzen sie dann durch ein neues Modell, das ein wenig mehr „gelernt“ hat.
Für ein LLM ist Inferenz das Ende des Lernens.
Wahrscheinlich liegt hier das größte Missverständnis über KI.
Wenn man glaubt, dass LLMs lernen, ist es leicht, sich vorzustellen, AGI stehe unmittelbar bevor.
- Wie DeepSeek gezeigt hat, lassen sich LLMs mit Reinforcement Learning verfeinern.
- Was wäre, wenn man prüft, ob Nutzer positiv oder negativ auf die Ausgabe reagieren, und das LLM anschließend mit der Eingabe, die das Modell erhalten hat, und der von ihm erzeugten Ausgabe trainiert?
Website mit Code und Beispielen: https://jyopari.github.io/posts/seal
In diesem Bereich scheint richtiges Vergessen schnell zu einem wichtigeren Problem zu werden als „richtiges Lernen“.
Es gibt große Fortschritte darin, Modelle sich neue Fakten selbst beibringen zu lassen, aber der Stand der Technik beim Verwerfen der am wenigsten relevanten Informationen, wenn neues Wissen und eine endliche Kapazität gegeben sind, hinkt deutlich hinterher.
Der größte Teil des menschlichen Gehirns ist sehr gut im „richtigen Vergessen“; ich frage mich, wie das funktioniert.
- Ich glaube nicht, dass Menschen wirklich gut im richtigen Vergessen sind.
  Ehrlich gesagt bin ich nicht einmal sicher, dass das menschliche Gehirn in vielen Dingen, die wir tun, „außergewöhnlich gut“ ist.
  Da die Speicherkapazität des menschlichen Gehirns so groß ist, sehe ich das meiste Vergessen weniger als Freimachen von Platz für neue Informationen, sondern eher als korrektes Erkennen des Gehirns, dass schlechte Informationen aus der Vergangenheit neues Lernen stören.
- Soweit ich weiß, gab es bei künstlichen neuronalen Netzen kaum Fortschritte dabei zu identifizieren, welche Gewichte in welchem Maß für welche Ausgabe verantwortlich sind.
  Deshalb können sie Informationen, die Nutzer als falsch, ungenau oder unerwünscht markiert haben, nicht verwerfen.
  Der menschliche Geist hingegen tut das leicht.
  Er merkt sich, dass etwas als falsch, nutzlos oder irrelevant eingestuft wurde, tut es nicht mehr, und mit der Zeit kann er sogar den seltener genutzten Pfad selbst vergessen.
  Zumindest in künstlichen neuronalen Netzen gibt es keinen solchen offensichtlichen Mechanismus.
- Lernen hängt stark mit Spaced Repetition zusammen.
  Das verbindet man meist mit Lernwerkzeugen wie Anki, aber die reale Welt ist voll davon, Dingen in bestimmten Abständen zu begegnen.
  Der Tag-Nacht-Zyklus, Jahreszeiten, Orte, die man besucht, Menschen, die man trifft – praktisch alles.
  Ich frage mich, ob es vielleicht so etwas wie die Umkehrung von Spaced Repetition gibt.
- Ich habe eine interessante Studie gesehen: LLMs können interne Daten auch „verstecken“.
  Sie vergessen nicht einfach; wenn man sie weiter trainiert, können diese Informationen später wieder auftauchen.
  Deshalb muss man beim Trainieren eines Modells nicht nur einen kleinen Teil betrachten, sondern das gesamte Gedächtnis prüfen.
- So etwas wie Least Recently Used?
  Ich teste das gerade in meinem Kopf und versuche es herauszufinden :D
  Genau wegen solcher Dinge mag ich dieses Feld der Informatik.
Beeindruckend ist die Passage: „Villalobos et al. [75] prognostizieren, dass Frontier-LLMs bis 2028 mit allen öffentlich verfügbaren von Menschen erzeugten Texten trainiert sein werden.“
Das Paper geht davon aus, dass wegen der kommenden Datenbarriere synthetische Datenaugmentation nötig wird und dass, sobald Web-Scale-Korpora erschöpft sind, Fortschritt davon abhängt, ob Modelle selbst nützliche Trainingssignale erzeugen können.
Der natürliche nächste Schritt wäre, ein dediziertes SEAL-Modell zur Erzeugung synthetischer Daten per Meta-Learning zu trainieren, damit neue Pretraining-Korpora entstehen und künftige Modelle ihre Skalierbarkeit und Dateneffizienz erhöhen können, ohne auf zusätzliche menschliche Texte angewiesen zu sein.
2028 ist praktisch morgen, und das ist eine interessante Einsicht.
- Das ist nur eine Theorie.
  Ein einzelnes menschliches Gehirn ist in Bezug auf die Zahl der Knoten und Verbindungen deutlich komplexer als das gesamte Web.
  Wir verstehen das Gehirn nicht einmal gut genug, um zu erklären, wie Denken funktioniert.
  Auch den Prozess, bevor das Gehirn Ausgaben erzeugt und ins Web schickt, verstehen wir nicht vollständig.
  Die Vorhersage, dass Modelle nach dem Ende von Web-Scale-Daten selbst nützliche Trainingsdaten erzeugen können, ist reine Spekulation.
  Solche Trainingsdaten erreichen möglicherweise nicht die Qualität menschlichen Denkens und könnten stattdessen nur wiederkäuen, ohne Lernen oder Modellqualität überhaupt voranzubringen.
  Das als „Einsicht“ zu bezeichnen, ist etwas optimistisch.
- Das ist im Grunde schon fast der aktuelle Stand.
  Frontier-LLMs wurden bereits mit allen öffentlich verfügbaren von Menschen erzeugten Texten trainiert und werden auch schon umfassend mit synthetischen Daten trainiert, um überprüfbare Aufgaben wie Coding zu verbessern.

Selbstadaptierende große Sprachmodelle

Wie sich ein statisches LLM selbst aktualisiert

Unterschiede zu bisherigen Adaptionsmethoden

Lernen einer self-edit-Politik mit Reinforcement Learning

Experimentelle Ergebnisse: Wissensintegration

Experimentelle Ergebnisse: Few-Shot-Generalization auf ARC-AGI

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News