- Durch das Kopieren und Neuarrangieren der mittleren 7 Schichten eines riesigen 72B-Parameter-LLM wurde ohne jegliches Training Platz 1 im Leaderboard erreicht
- Das Experiment wurde mit zwei RTX 4090 durchgeführt; verändert wurde nicht das Gewicht des Modells, sondern nur die Struktur, sodass mittlere Schichten wiederholt ausgeführt werden
- Über zwei kleine Proxy-Tasks – mathematisches Schlussfolgern und emotionales Schlussfolgern (EQ) – wurde der optimale Schichtbereich gesucht
- Im Ergebnis verzeichnete das auf Qwen2-72B basierende Modell RYS-XLarge eine durchschnittliche Verbesserung von +2,61 %, insbesondere MuSR +17,72 % und MATH +8,16 %
- Dieser Ansatz zeigt die mögliche Existenz „funktionaler Schaltkreise (circuits)“ im Inneren von LLMs und führt zu Forschung an der „neuroanatomischen Struktur“ großer Modelle
Open LLM Leaderboard und Hintergrund des Experiments
- Mitte 2024 war das Open LLM Leaderboard von HuggingFace ein Wettkampffeld für Modelle mit offenen Gewichten
- Bewertungskategorien: IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
- Der Autor führte das Experiment ohne neues Modelltraining oder Fine-Tuning durch, indem er einige mittlere Schichten vorhandener Modelle kopierte
- Es wird vermutet, dass die kopierten Schichten für den „Denkprozess“ des Modells zuständig sind
Hinweis 1 – Base64-Gesprächsexperiment
- Es wurde beobachtet, dass ein LLM in Base64 kodierte Fragen versteht und die korrekte Antwort in Base64 zurückgibt
- Da das Modell auch bei anderem Eingabeformat Schlussfolgerungen zieht, wurde die Hypothese aufgestellt, dass frühe Schichten die Eingabe interpretieren (translation) und späte Schichten die Ausgabe umwandeln (re-translation)
- Daraus ergab sich die Möglichkeit, dass mittlere Schichten der Bereich für abstraktes Denken sind
Hinweis 2 – Ungewöhnliche Struktur des Modells Goliath-120B
- Goliath-120B auf HuggingFace ist eine Struktur, in der zwei Llama-2-70B-Modelle wechselseitig kombiniert werden und die Ausgabe später Schichten auf die Eingabe früher Schichten zurückgeführt wird
- Es wurde bestätigt, dass das Modell trotz einer Struktur außerhalb der normalen Trainingsverteilung funktioniert
- Das deutet darauf hin, dass Darstellungen zwischen Schichten gegenseitig kompatibel sind und interne Transformer-Repräsentationen homogen sind
Aufbau eines „Brain Scanners“
- Es wurde eine Pipeline gebaut, die beim Modell Qwen2-72B alle Schichtbereichskombinationen (i, j) testet (insgesamt 3.241)
- Bei jeder Kombination wurde das Modell so umgebaut, dass ein bestimmter Schichtbereich zweimal durchlaufen wird
- Die Bewertung musste drei Bedingungen erfüllen
- minimale Ausgabe (für Geschwindigkeit)
- objektive Bewertbarkeit
- kognitive Unabhängigkeit (wenn sich beide Tasks gleichzeitig verbessern, gilt das als strukturelle Verbesserung)
Entwurf der Proxy-Tasks
- Hard Math Probe: direkte Schätzung der richtigen Antwort auf komplexe Rechenaufgaben
- EQ-Bench Probe: Vorhersage der Emotionsstärke von 0 bis 100 in sozialen Situationen
- Beide Tasks liefern kurze Ausgaben und klare richtige Antworten und eignen sich daher zur Messung struktureller Veränderungen
Mathematische Bewertungsfunktion und Teilpunktzahl für teilweise richtige Antworten
- Unter Berücksichtigung numerischer Fehler von LLMs (fehlende Stellen, Vertauschungen usw.) wurde eine Bewertungsfunktion für Teiltreffer entwickelt
- Kurze Antworten werden aufgefüllt und der relative Fehler wird berechnet, um die Trefferquote in einen kontinuierlichen Score umzuwandeln
- So lassen sich feine Leistungsunterschiede quantitativ unterscheiden
Aufbau des Modells RYS-XLarge
- Die optimale Kombination war (45, 52), wobei die Schichten 45 bis 51 ein weiteres Mal wiederholt werden
- Dadurch wurden 7 mittlere Schichten kopiert, die Gesamtparameterzahl stieg von 72B auf 78B
- Ohne Gewichtsänderung, nur durch Strukturänderung, umgesetzt per Pointer-Kopie ohne zusätzlichen VRAM-Verbrauch
Leaderboard-Ergebnis
| Kategorie |
Punktzahl |
Verbesserung gegenüber dem Ausgangswert |
| Durchschnitt |
44.75 |
+2.61% |
| MATH Lvl 5 |
38.97 |
+8.16% |
| MuSR |
23.72 |
+17.72% |
| BBH |
+2.51% |
|
| GPQA |
+2.58% |
|
| IFEval |
-2.05% |
|
- In 5 Kategorien verbessert, mit dem Durchschnittswert Platz 1 im Leaderboard erreicht
- Da bei der Entwicklung keine Leaderboard-Kategorien verwendet wurden, wird dies als reiner struktureller Generalisierungseffekt bewertet
Entdeckung „funktionaler Schaltkreise“ im Transformer
- Die Wiederholung einer einzelnen Schicht hatte keinen Effekt, doch nur bei Wiederholung zusammenhängender Blöcke stieg die Leistung
- Das bedeutet, dass mittlere Schichten nicht als unabhängig wiederholbare Operationen arbeiten, sondern als mehrstufiger Rechenschaltkreis (circuit)
- Beispiel: Die Schichten 46 bis 52 führen wie ein „Rezept“ schrittweises Schlussfolgern aus
- Wird der gesamte Block wiederholt, entsteht der Effekt, den Schlussfolgerungsprozess noch einmal auszuführen
Heatmap-Analyse und „LLM-Neuroanatomie“
- Die Heatmap, die die Leistung jeder Kombination (i, j) visualisiert, zeigte ein fMRI-ähnliches Muster
- Bei mathematischen Tasks verbesserte sich die Leistung bei Wiederholung mittlerer Schichten, beim EQ-Task in anderen Bereichen
- Das deutet darauf hin, dass es aufgabenspezifische funktionale Schaltkreise im Inneren des Transformers gibt
Nebenwirkungen fehlerhafter Kopien
- Einige Kombinationen führten dazu, dass das Modell abnormale Sprachwiederholungen oder halluzinatorische Ausgaben zeigte
- Dies wurde als Ergebnis einer übermäßigen Ausdehnung bestimmter Schaltkreise beschrieben, vergleichbar mit einer „künstlichen Hirnschädigung“
- Beispiel: Ein Schaltkreis für soziale Angemessenheit ist beschädigt, wodurch anormale Gesprächsmuster entstehen
Folgeforschung und abgeleitete Modelle
- Auf Basis von RYS-XLarge führten mehrere Forschende zusätzlich Fine-Tuning und ORPO-Training durch
- Stand Anfang 2026 basieren die Top-4-Modelle im Leaderboard alle auf 78B-Modellen mit RYS-Struktur
- calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys usw.
Strukturelle Erweiterung und Bedeutung
- Schichtkopien sind unabhängig von Fine-Tuning und damit kombinierbar
- Es ist eine Methode, nicht zu verändern, was das Modell weiß, sondern wie es denkt
- Je größer das Modell, desto stärker sind Funktionsbereiche differenziert, sodass Kopien auf Schaltkreisebene wirksam sind
- Bei kleineren Modellen sind Kodierung, Schlussfolgern und Dekodierung stärker verflochten, daher ist derselbe Effekt begrenzt
Ausblick
- Die gleiche Technik wird derzeit auf aktuelle Modelle wie Qwen, MiniMax und GLM angewendet
- Es wurde bestätigt, dass jedes Modell eine eigene „neuroanatomische Struktur“ besitzt
- Künftig sind Code-Veröffentlichung und weitere Releases der RYS-Serie geplant
- Der Autor formulierte es so: „Jetzt sezieren wir statt Mäusegehirnen künstliche Gehirne.“
Fazit
- Ein Experiment, das die Leistung von LLMs allein durch Schichtkopien ohne Gewichtsänderungen verbessert
- Es zeigt empirisch, dass es im Inneren von Transformern funktionale Schaltkreise und strukturelle Differenzierung gibt
- Das weist auf eine neue Richtung für mechanistic interpretability und effiziente Architekturerweiterung hin
1 Kommentare
Hacker-News-Kommentare
Es ist erstaunlich, wie unausgewogen hier das Verhältnis von Punkten zu Kommentaren ist.
Ich war beeindruckt davon, wie gehaltvoll der Artikel ist und wie gut er technische Inhalte auch für Laien verständlich aufbereitet.
Besonders der Punkt „Allein die Tatsache, dass Goliath funktioniert hat, ist erstaunlich“ scheint mir der Kern zu sein. Ich frage mich, warum nicht mehr Forschende darauf aufmerksam geworden sind.
Interessant ist auch, wie der Autor von der Hirnforschung in der Biotechnologie dazu kam, sich im GPU-Keller(?) mit KI zu beschäftigen.
So wie die Kernel in den frühen Schichten von CNNs zu Gabor-Filtern konvergieren, denke ich, dass auch die inneren Schichten von LLMs zu universellen mathematischen Optimierungen wie Energieeffizienz, Informationskompression und Entropieoptimierung konvergieren.
Mir hat sehr gefallen, wie detailliert der Entdeckungsprozess gezeigt wurde. Der Prozess ist interessanter als das Ergebnis.
Besonders eindrucksvoll waren die geschachtelte abstrakte Schlussfolgerung zur Leistungssteigerung und die Visualisierung der Wahrscheinlichkeitsverteilung per Heatmap.
Die zugehörigen Arbeiten holen auch zunehmend auf.
Allerdings glaube ich, dass Modelle wie SOLAR letztlich an Grenzen stoßen werden. Die Heatmap zeigt, dass der Transformer-Stack zunächst mit zufälligen Gewichten startet und sich während des Trainings allmählich in eine auf „Organe“ spezialisierte Struktur verwandelt.
„Token-to-thought“ und „thought-to-token“ sind Organe, die jeweils nur einmal existieren sollten. Am Ende wird sich meiner Meinung nach immer eine spezialisierte Struktur durchsetzen.
Ich stimme zu, dass „es erstaunlich ist, dass Goliath funktioniert hat“.
Früher gab es schon Experimente, die mehrere Modelle kombinierten, aber die meisten blieben auf dem Niveau von Community-Experimenten auf Reddit oder Discord. In Wissenschaft und Industrie fand das kaum Beachtung.
Trotzdem frage ich mich, ob es auch funktionieren könnte, Schichten aus völlig unterschiedlichen Modellen wie Llama und Qwen zu mischen.
Interessant ist auch, warum LLMs bei Arithmetikaufgaben seltsame Fehler machen, etwa die letzte Ziffer auslassen oder die Reihenfolge vertauschen. Ich würde gern testen, ob eine erzwungene Grammatik-Parsing-Struktur das verbessert.
Die Idee, dass sich in LLMs eine kognitive lingua franca verbergen könnte, ist faszinierend.
Vielleicht ließe sich damit eine plug-in-fähige Wissensbank bauen.
Wenn man ein schlankes Modell hätte, in das man nur das benötigte Wissen einsteckt, könnte man aktuelles Wissen pflegen, ohne das ganze Modell neu zu trainieren.
Das vom Autor erwähnte Latent-Space-Reasoning war wirklich beeindruckend.
Erstaunlich ist, dass sich das Training allein durch das Kopieren von Schichten rückwärts ausbreitet.
Ich frage mich auch, wie sich die Leistung verändern würde, wenn man duplizierte Schichten in eine Schleife setzt. Im Vergleich mit MoE-Modellen könnte man prüfen, ob jede Schicht wie ein eigenständiger Experte arbeitet.
Spannend waren aber Experimente, bei denen an mehreren Stellen Schichten mehrfach kopiert und Zusammenführungen mit einem XGBoost-basierten Metamodell vorhergesagt wurden. Das funktioniert auch gut mit MoE.
Allerdings findet meine Frau diese Zeitverschwendung(?) nicht besonders gut.
Das Konzept der „Gehirnchirurgie“ in LLMs ist faszinierend. Als
llama.cppUnterstützung für Vision-Modelle bekam, habe ich versucht, einen Teil der im Projector erzeugten Embeddings auf 0 zu setzen und das LLM dann das Bild beschreiben zu lassen.Dabei entstanden erstaunliche Ergebnisse, etwa dass es nicht vorhandene Personen oder Hintergründe erfunden hat.
Irgendwann würde ich gern systematisch die Korrelation zwischen Vektordimensionen und Bedeutung untersuchen.
Ich hatte auch eine ähnliche Intuition zur Nutzung mittlerer Schichten.
Nachdem ich dieses YouTube-Video gesehen hatte, habe ich meine Gedanken geordnet und bin zu dem Schluss gekommen, dass die Reihenfolge der Schichten nicht fest sein muss, je öfter man sie in Schleifen nutzt.
Wenn man bei Wiederholungen unnötige Schichten überspringen und nur die nötigen wiederholen könnte, würde das am Ende vielleicht auf ein einlagiges MOE-Modell hinauslaufen.
Auch so etwas wie ein Reasoning-Intensity-Knopf, mit dem man steuert, „wie tief gedacht“ werden soll, wäre denkbar.
Trotzdem wäre es spannend, die Leistungsänderung zu testen, wenn man die Aufrufreihenfolge der Transformer-Blöcke randomisiert.
Beim Lesen des Artikels konnte ich viel mit der geometrischen Struktur von Wissen anfangen.
Die Denkweise eines Generalisten, der sich über viele Fachgebiete bewegt, scheint eine solche neuronale Struktur widerzuspiegeln.
Das hat mir den Tag versüßt.
Es ist interessant, dass offenbar nur etwa 7 Schichtblöcke funktionieren und mehr oder weniger nicht.
Das deutet darauf hin, dass es im Transformer funktionale Einheiten („Organe“) gibt, die wir noch nicht verstehen.
Ich frage mich, ob dieselbe „7-Schichten-Magie“ auch in anderen Architekturen wie Llama oder Mistral und nicht nur in Qwen auftaucht.
Diese Idee wirft für mich zwei Fragen auf.
Wenn ein Modell gegenüber internen Schichtveränderungen so tolerant ist, muss man nicht für jedes Token alle Schichten durchlaufen lassen.
Wenn man ein Modell baut, das die Anzahl der Wiederholungen je nach Schwierigkeit der Aufgabe anpasst, könnte es einfache Probleme schnell und schwierige mit tieferem Schlussfolgern bearbeiten.
Während des Trainings könnte es sogar lernen, seine eigene confidence vorherzusagen und so zu entscheiden, ob zusätzliche Rechenarbeit nötig ist.