3 Punkte von GN⁺ 2025-06-15 | 1 Kommentare | Auf WhatsApp teilen
  • Bestehenden großen Sprachmodellen (LLMs) fehlt die Fähigkeit, sich sofort an neue Aufgaben oder neues Wissen anzupassen
  • Das neue SEAL-Framework verleiht LLMs eine Selbstadaptionsfunktion, indem sie ihre eigenen Fine-Tuning-Daten und Update-Anweisungen selbst erzeugen
  • Dieser Prozess umfasst die Erzeugung von Self-Edits, die Ausführung von Anweisungen sowie einen kontinuierlichen Verbesserungsprozess über eine auf RL basierende Schleife
  • SEAL weist in Experimenten zur Integration neuen Wissens und zur Few-Shot-Generalisation eine bessere Leistung als bestehende Methoden nach
  • Diese Studie stellt einen vielversprechenden Schritt zur Realisierung von LLMs mit selbstinstruktiver Anpassungsfähigkeit dar

Überblick

  • Große Sprachmodelle (LLMs) zeigen starke Leistung, aber es fehlt ihnen ein Mechanismus, ihre eigenen Gewichte dynamisch an neue Aufgaben, Informationen und Beispiele anzupassen
  • Das Paper stellt das Framework Self-Adapting LLM (SEAL) vor, das es einem LLM ermöglicht, selbst Daten für das Fine-Tuning zu erzeugen und Update-Anweisungen zu erstellen
  • Wenn SEAL neue Eingaben erhält, erzeugt das Modell Self-Edits, etwa indem es Informationen auf unterschiedliche Weise umstrukturiert, Optimierungs-Hyperparameter festlegt oder Tools für Datenaugmentation und gradientenbasierte Updates aufruft
  • Diese Self-Edits führen über einen überwachten Fine-Tuning-(SFT)-Prozess zu dauerhaften Updates der Modellgewichte und sichern damit eine kontinuierliche Anpassungsfähigkeit
  • Für die Erzeugung wirksamer Self-Edits wird eine Reinforcement-Learning-Schleife genutzt, wobei die Downstream-Leistung nach dem Modell-Update als Belohnungssignal dient

Analogie zum menschlichen Lernen

  • Inspiriert ist der Ansatz von der Lernweise, bei der Studierende zur Prüfungsvorbereitung Informationen aus Vorlesungen, Lehrbüchern oder dem Internet in eigenen Notizen neu formulieren
  • Menschen unterscheiden sich darin, wie sie Informationen rekonstruieren: Manche fassen sie als Diagramme zusammen, andere als Text, wieder andere als Formeln
  • Das selbstständige Neuordnen oder Anreichern externen Wissens, damit es leichter verständlich wird, ist ein allgemeines Merkmal menschlichen Lernens
  • Bestehende LLMs führen bei neuen Aufgaben nur Fine-Tuning auf dem gegebenen Datensatz oder In-Context Learning durch
  • Dieser Ansatz hat jedoch Grenzen, wenn Format oder Menge der Daten nicht für das Lernen optimiert sind

SEAL: Vorschlag eines selbstadaptiven Frameworks

  • SEAL wird mit einem Reinforcement-Learning-Algorithmus darauf trainiert, dass ein LLM selbst Trainingsdaten und Fine-Tuning-Anweisungen in natürlicher Sprache erzeugt
  • Ein Self-Edit ist hier eine Befehlsform, die Daten und optional Optimierungs-Hyperparameter festlegt
  • Kennzeichnend für SEAL ist, dass es ohne zusätzliche Module oder Hilfsnetzwerke den eigenen Anpassungsprozess direkt allein über die natürlichsprachige Generationsfähigkeit des Modells steuert

Funktionsweise von SEAL

  • In jeder Iteration der äußeren Reinforcement-Learning-(RL)-Schleife erzeugt das Modell mögliche Self-Edits
  • Die erzeugten Self-Edits werden angewendet, um die Gewichte zu aktualisieren
  • Anschließend wird die Modellleistung bei Downstream-Tasks bewertet, und aus dem Ergebnis wird ein Belohnungssignal gewonnen
  • Mithilfe dieses Belohnungssignals wird die Policy zur Erzeugung von Self-Edits wiederholt verbessert

Experimente und Ergebnisse

  • Bei der Wissensintegrationsaufgabe führt SEAL Fine-Tuning mit vom Modell selbst erzeugten synthetischen Daten durch
    • In einer No-Passage-In-Context-Version von SQuAD verbesserte sich die Frage-Antwort-Leistung deutlich von 33,5 % vor dem RL-Training auf 47,0 % nach dem RL-Training
    • Die von SEAL erzeugten Daten erzielten sogar bessere Leistung als synthetische Daten von GPT-4.1
  • In Few-Shot-Lernexperimenten wurde eine vereinfachte Version des ARC-AGI-Benchmarks verwendet, bei der SEAL augmentierte Daten und Optimierungs-Hyperparameter selbst auswählt
    • Es werden automatisch verschiedene Tool-Kombinationen gewählt, darunter Lernrate, Epochen und selektive Verlustberechnung nach Tokentyp
    • Der Einsatz von SEAL mit Reinforcement Learning verbessert die Leistung und ist wirksamer als reines In-Context Learning oder der Einsatz von Tools ohne RL

Fazit

  • Das SEAL-Framework zeigt experimentell, dass Selbstadaption von LLMs über selbst erzeugte Daten und Anweisungen möglich ist
  • Dieser Ansatz deutet auf einen wichtigen Fortschritt für die Entwicklung der nächsten Generation von Sprachmodellen hin, die Dateneffizienz, Anpassungsfähigkeit und Universalität vereinen

1 Kommentare

 
GN⁺ 2025-06-15
Hacker-News-Kommentare
  • Als zwei befreundete Mathe-Genies Mitte der 2010er sehr früh in ML eingestiegen sind, haben sie mir oft von einem Algorithmus namens NEAT/HyperNEAT (Neuroevolution of Augmented Topologies) erzählt [NEAT-Wikipedia-Link]. Ich bin kein ML-Experte und kenne die Details daher nicht genau, aber ich verstehe den Unterschied so: NEAT entwickelt die Topologie des Netzwerks weiter, während es in dieser Arbeit darum geht, die Gewichte weiterzuentwickeln. Im Grunde scheinen das zwei unterschiedliche Ansätze zu sein, um dasselbe Problem zu lösen: einmal durch Veränderung der Netzwerkstruktur, einmal durch Veränderung der Gewichte. Die beiden schienen fest davon überzeugt zu sein, dass die Zukunft der KI in RL und evolutionären Algorithmen liegt.

    • Es gibt ein NEAT-Einführungsvideo, das ich besonders mag: SethBlings MarI/O - Machine Learning for Video Games [YouTube-Link]

    • Ich finde Menschen beeindruckend. Wir bauen virtuelle Computersysteme, um Neuronen zu verstehen, merken dann aber, dass sie in Wirklichkeit gar nicht so funktionieren, und erschaffen trotzdem aus Ideen dieser vorgestellten Systeme revolutionäre Technologien. Und bis heute entwickeln wir sie weiter, indem wir uns weiterhin von diesem gedachten System inspirieren lassen.

    • In letzter Zeit bin ich völlig von diesem NEAT-/evolutionsbasierten Konzept fasziniert. Nachdem ich bei einem Kokoro-Stimmklon-Projekt mit einem genetischen Algorithmus einigen Erfolg hatte, fragte ich mich, ob es möglich wäre, die Netzwerkstruktur selbst weiterzuentwickeln und so eine „sich selbst zusammensetzende Intelligenz“ zu erreichen. Mich interessiert, wie das praktisch möglich werden könnte, und wenn ich mir anschaue, wie LLMs entstanden sind, frage ich mich, ob ein hybrider Ansatz nicht eine realistische Alternative wäre.

  • Ich halte den „self-edit“-Ansatz, bei dem ein Modell mithilfe von RL Informationen selbst umstrukturiert, um die Lerneffizienz zu steigern, für sehr clever. Die Kernidee ist, dass unterschiedliche Arten von Wissen von unterschiedlichen Repräsentationen profitieren können — so wie man sich Mathematik anders notiert als Geschichte. Zwei Beobachtungen sind wichtig. Erstens zeigt das Ergebnis bei der Wissensintegration (47 % vs. 46,3 %, basierend auf GPT-4.1-Daten), dass das Modell nicht bloß mehr Daten hineingesteckt bekam, sondern tatsächlich ein besseres Lernformat gefunden hat. Das Problem des catastrophic forgetting ist noch nicht gelöst, und auch wie stark sich die Datenvielfalt real verbessert, ist unklar. Zweitens dauert eine einzelne Belohnungsauswertung 30 bis 45 Sekunden, was für die meisten praktischen Einsätze zu schwergewichtig ist. Für Bereiche wie die Verarbeitung wirklich wichtiger Dokumente, in denen optimale Informationsbewahrung entscheidend ist, könnte sich der Aufwand aber lohnen. Eine große Einschränkung ist, dass das auf Aufgaben mit klaren Bewertungsmetriken beschränkt ist (man braucht Referenz-Q&A oder Testfälle, um die Belohnung zu berechnen). Trotzdem könnte das in Bereichen wie technischer Dokumentation oder Lehrmaterial, wo sich die Bewertung automatisieren lässt, ein völlig neues Paradigma der Wissensverarbeitung eröffnen. Es ist noch keine vollständig selbstverbessernde Agentik, aber es fühlt sich wie ein wichtiger Fortschritt an: Das Modell verbessert selbst, wie es lernt.

  • Vor ein paar Tagen hat auch Anthropic ähnliche Forschung zum Thema self finetuning veröffentlicht [arXiv-Paper-Link]

    • Dazu läuft gerade eine Diskussion [verlinkter HN-Thread]

    • Ich finde das wirklich erstaunlich. Gemessen am produktionsreifen RM von Claude 3.5 Sonnet wurde bewertet, dass eine unsupervised assistant policy im Paarvergleich eine mit menschlich überwachtem RM trainierte Policy zu 60 % schlägt. Ich denke, wir haben jetzt einen Punkt erreicht, an dem Modelle auch ohne menschliche Anleitung untereinander bessere Leistung erzielen können.

  • Große Sprachmodelle (LLMs) sind leistungsfähig, aber das Problem ist, dass ihnen ein Mechanismus fehlt, um ihre Gewichte an neue Aufgaben anzupassen. Bei menschlicher Intelligenz sind Lernen und Anwenden in einer einzigen Feedbackschleife integriert, während bei LLMs Training und Inferenz vollständig getrennt sind. Wenn wir ein neues Modell ausrollen, das ein wenig mehr „gelernt“ hat, werfen wir das alte weg. Bei LLMs ist Inferenz das Ende des Lernens. Ich halte das für eines der verbreitetsten Missverständnisse rund um KI. Wenn man glaubt, LLMs würden lernen, verfällt man leicht der Illusion, dass AGI unmittelbar bevorsteht.

    • Wie das Beispiel von Deepseek zeigt, kann man mit Reinforcement Learning die Leistung von LLMs weiter verfeinern.

    • Was wäre, wenn man ein LLM anhand der Reaktionen der Nutzer (positiv/negativ) weitertrainieren könnte? Ich stelle mir vor, dass man Eingabe- und Ausgabedaten in eine Feedbackschleife zurückführen könnte.

  • Ich wünschte, ein wirklich kundiger Experte würde einmal den Stand der Forschung und die Grenzen beim fortlaufenden Lernen von LLMs „im Feld“ zusammenfassen — also etwa dazu, wie codebasierte Agenten eine Codebasis über die Zeit hinweg lernen lassen, und welche Hürden es gibt (Kosten? Modellkollaps? anderes?). Die großen Forschungslabore werden das sicher ausprobieren, aber aus Sicht normaler Nutzer hört man erstaunlich wenig darüber. Im Moment scheint der Fokus eher auf besseren RL-basierten Trainingsmethoden zu liegen, und alles, was im Training nicht gelernt wurde, wird später in den Kontext hineingepresst. Aber ich habe den Eindruck, dass genau dieses Fehlen erfahrungsbasierten Selbstlernens in Echtzeit der eigentliche Trennpunkt zu AGI ist.

    • Für continual learning gibt es derzeit keine durchschlagende Lösung. Es stimmt, dass dabei Gründe wie Rechenressourcen, Modellkollaps und Vergessen genannt werden. Die einzige Methode scheint zu sein: 1) Modell trainieren 2) neue Daten hinzufügen 3) alles neu trainieren 4) wiederholen. Auch in zeitlicher Hinsicht gibt es dafür keine vollständige Garantie. Im Bereich CL gibt es wirklich überhaupt keine „echte“ Antwort. Man müsste den Repräsentationsraum des Modells erweitern und zugleich den bisherigen Repräsentationsraum möglichst unverändert bewahren, und beides gleichzeitig zu verlangen ist fast unmöglich. Biologische Wesen mit Nervensystem scheinen das sehr leicht zu schaffen, aber für KI ist diese Aufgabe extrem schwierig. Ich denke, vielleicht braucht künstliche Intelligenz auch Konzepte wie „Schlaf“ oder „Ruhe“.

    • Ich bin kein Experte, aber ich glaube, Datenschutz spielt ebenfalls eine wichtige Rolle. Für kontinuierliches Lernen müsste man wegen Traffic- und Kostenfragen zwangsläufig aggregiert statt pro Nutzer arbeiten, und dann entsteht das Risiko, dass Informationen zwischen Sitzungen auslaufen. Ich stimme stark zu, dass das Finden einer sicheren Form des kontinuierlichen Lernens eines der größten Hindernisse für AGI ist.

    • Auch das Zuverlässigkeitsproblem ist groß. Weil man automatischen Bewertungen nicht vollständig traut, wird eine automatisierte Version von continuous training nicht sofort ausgerollt, bevor man nicht überprüft hat, ob die Leistung wirklich besser geworden ist. Am Ende sammelt man mehrere Updates und macht erst nach einer abschließenden Prüfung („Vibe-Check“) die tatsächliche Übernahme.

    • Das klarste Problem scheint zu sein, dass kontinuierliches Finetuning von LLMs die Alignment-Ausrichtung leicht stören kann. Dadurch sind Stabilität und Sicherheit letztlich nicht gewährleistet.

    • Das offensichtlichste Hindernis ist meiner Meinung nach das Problem des catastrophic forgetting.

  • Meine CPU ist ein neural-net processor, ein learning computer. Aber wenn Skynet mich alleine losschickt, legt es den Schalter auf read-only um. Das erinnert mich an ein Terminator-Zitat.

  • Hinweise auf die offizielle Website mit Code und Beispielen [SEAL-Projektseite]

  • Laut der Prognose von Villalobos et al. [75] werden frontier LLMs bis 2028 an die Grenze aller öffentlich verfügbaren, von Menschen geschriebenen Texte stoßen. Dieses „Datenmauer“-Problem werde die Notwendigkeit von synthetic data augmentation auslösen. Wenn Webscale-Korpora erschöpft sind, können Modelle sich letztlich nur weiterentwickeln, wenn sie selbst neue, hocheffiziente Trainingssignale erzeugen. Die Idee ist also, das SEAL-synthetic-data-generator-Modell per Meta-Training so zu trainieren, dass es mit frischen Daten Pretraining durchführt und die Effizienz zukünftiger Modelle erhöht. Angesichts dessen, dass 2028 nicht mehr weit entfernt ist, finde ich das äußerst aufschlussreich.

  • Es scheint, als werde „richtig vergessen“ nun wichtiger als „richtig lernen“. Beim schnellen Aufnehmen neuer Fakten gab es große Fortschritte, aber innerhalb endlicher Kapazität unwichtigere Informationen effizient zu verwerfen, liegt technologisch noch weit zurück. „Richtiges Vergessen“ ist etwas, das das menschliche Gehirn sehr gut kann, und ich frage mich, wie es tatsächlich funktioniert.

    • Ich stimme nicht zu, dass Menschen „richtiges Vergessen“ besonders gut beherrschen. Ich glaube nicht, dass der Mensch in dieser Hinsicht ein außergewöhnlich gutes System hat. Das Gehirn hat einfach so viel Kapazität, dass es nicht absichtlich Platz für neue Informationen freiräumt, sondern eher dann vergisst, wenn vorhandene schlechte Informationen neues Lernen stören.

    • Ich glaube, Lernen und spaced repetition hängen sehr eng zusammen. Das wird oft mit Lernwerkzeugen wie Anki verbunden, aber in der realen Welt ist die Welt selbst ein natürliches spaced repetition-System — Tag und Nacht, Jahreszeiten, Orte, die wir oft besuchen, Menschen, die wir oft sehen, und so weiter. Ich frage mich, ob es vielleicht auch eine „umgekehrte“ Version dieses Konzepts gibt.

    • In meiner Forschung zeigte sich, dass LLMs interne Daten „verstecken“. Sie „vergessen“ nicht einfach, sondern diese Informationen können bei weiterem Training später wieder an die Oberfläche kommen. Wenn man beim Modelltraining also nicht kontinuierlich den tatsächlichen Zustand des gesamten Gedächtnisses überprüft, hat partielle Prüfung klare Grenzen.

    • Vielleicht funktioniert es nach dem least-recently-used-Prinzip? Ich teste das probeweise in meinem Kopf. Genau deshalb ist dieses Gebiet so spannend.

  • Oberflächlich betrachtet sieht das nach einem Framework aus, das einen LoRA-Adapter feinabstimmt und ihn dann mit dem Basismodell zusammenführt. Es verwendet in HuggingFaces PeftModel die Funktion merge_and_unload, um den Adapter in das Basismodell zu integrieren … ich bin mir nicht sicher, was daran neu sein soll.

    • Der wesentliche Unterschied scheint die Stabilität zu sein. Die Struktur ist darauf ausgelegt, alignment tax und Modellkollaps zu vermeiden. Ich würde gern einen „full circle“-Aufbau sehen: ein Hypernetzwerk, also zwei Modelle, die sich fortlaufend per LoRA aktualisieren, während das Hypernetzwerk selbst ebenfalls aktualisiert wird, um den neuen Modellzustand aufzunehmen. Wenn man ein Meta-Hypernetzwerk verwendet und auch auf das Hypernetzwerk LoRA anwendet, könnte echtes continuous learning im eigentlichen Sinne möglich werden.