1 Punkte von GN⁺ 2026-03-11 | 1 Kommentare | Auf WhatsApp teilen
  • Durch das Kopieren und Neuarrangieren der mittleren 7 Schichten eines riesigen 72B-Parameter-LLM wurde ohne jegliches Training Platz 1 im Leaderboard erreicht
  • Das Experiment wurde mit zwei RTX 4090 durchgeführt; verändert wurde nicht das Gewicht des Modells, sondern nur die Struktur, sodass mittlere Schichten wiederholt ausgeführt werden
  • Über zwei kleine Proxy-Tasks – mathematisches Schlussfolgern und emotionales Schlussfolgern (EQ) – wurde der optimale Schichtbereich gesucht
  • Im Ergebnis verzeichnete das auf Qwen2-72B basierende Modell RYS-XLarge eine durchschnittliche Verbesserung von +2,61 %, insbesondere MuSR +17,72 % und MATH +8,16 %
  • Dieser Ansatz zeigt die mögliche Existenz „funktionaler Schaltkreise (circuits)“ im Inneren von LLMs und führt zu Forschung an der „neuroanatomischen Struktur“ großer Modelle

Open LLM Leaderboard und Hintergrund des Experiments

  • Mitte 2024 war das Open LLM Leaderboard von HuggingFace ein Wettkampffeld für Modelle mit offenen Gewichten
    • Bewertungskategorien: IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
  • Der Autor führte das Experiment ohne neues Modelltraining oder Fine-Tuning durch, indem er einige mittlere Schichten vorhandener Modelle kopierte
  • Es wird vermutet, dass die kopierten Schichten für den „Denkprozess“ des Modells zuständig sind

Hinweis 1 – Base64-Gesprächsexperiment

  • Es wurde beobachtet, dass ein LLM in Base64 kodierte Fragen versteht und die korrekte Antwort in Base64 zurückgibt
  • Da das Modell auch bei anderem Eingabeformat Schlussfolgerungen zieht, wurde die Hypothese aufgestellt, dass frühe Schichten die Eingabe interpretieren (translation) und späte Schichten die Ausgabe umwandeln (re-translation)
  • Daraus ergab sich die Möglichkeit, dass mittlere Schichten der Bereich für abstraktes Denken sind

Hinweis 2 – Ungewöhnliche Struktur des Modells Goliath-120B

  • Goliath-120B auf HuggingFace ist eine Struktur, in der zwei Llama-2-70B-Modelle wechselseitig kombiniert werden und die Ausgabe später Schichten auf die Eingabe früher Schichten zurückgeführt wird
  • Es wurde bestätigt, dass das Modell trotz einer Struktur außerhalb der normalen Trainingsverteilung funktioniert
  • Das deutet darauf hin, dass Darstellungen zwischen Schichten gegenseitig kompatibel sind und interne Transformer-Repräsentationen homogen sind

Aufbau eines „Brain Scanners“

  • Es wurde eine Pipeline gebaut, die beim Modell Qwen2-72B alle Schichtbereichskombinationen (i, j) testet (insgesamt 3.241)
  • Bei jeder Kombination wurde das Modell so umgebaut, dass ein bestimmter Schichtbereich zweimal durchlaufen wird
  • Die Bewertung musste drei Bedingungen erfüllen
    • minimale Ausgabe (für Geschwindigkeit)
    • objektive Bewertbarkeit
    • kognitive Unabhängigkeit (wenn sich beide Tasks gleichzeitig verbessern, gilt das als strukturelle Verbesserung)

Entwurf der Proxy-Tasks

  • Hard Math Probe: direkte Schätzung der richtigen Antwort auf komplexe Rechenaufgaben
  • EQ-Bench Probe: Vorhersage der Emotionsstärke von 0 bis 100 in sozialen Situationen
  • Beide Tasks liefern kurze Ausgaben und klare richtige Antworten und eignen sich daher zur Messung struktureller Veränderungen

Mathematische Bewertungsfunktion und Teilpunktzahl für teilweise richtige Antworten

  • Unter Berücksichtigung numerischer Fehler von LLMs (fehlende Stellen, Vertauschungen usw.) wurde eine Bewertungsfunktion für Teiltreffer entwickelt
  • Kurze Antworten werden aufgefüllt und der relative Fehler wird berechnet, um die Trefferquote in einen kontinuierlichen Score umzuwandeln
  • So lassen sich feine Leistungsunterschiede quantitativ unterscheiden

Aufbau des Modells RYS-XLarge

  • Die optimale Kombination war (45, 52), wobei die Schichten 45 bis 51 ein weiteres Mal wiederholt werden
  • Dadurch wurden 7 mittlere Schichten kopiert, die Gesamtparameterzahl stieg von 72B auf 78B
  • Ohne Gewichtsänderung, nur durch Strukturänderung, umgesetzt per Pointer-Kopie ohne zusätzlichen VRAM-Verbrauch

Leaderboard-Ergebnis

Kategorie Punktzahl Verbesserung gegenüber dem Ausgangswert
Durchschnitt 44.75 +2.61%
MATH Lvl 5 38.97 +8.16%
MuSR 23.72 +17.72%
BBH +2.51%
GPQA +2.58%
IFEval -2.05%
  • In 5 Kategorien verbessert, mit dem Durchschnittswert Platz 1 im Leaderboard erreicht
  • Da bei der Entwicklung keine Leaderboard-Kategorien verwendet wurden, wird dies als reiner struktureller Generalisierungseffekt bewertet

Entdeckung „funktionaler Schaltkreise“ im Transformer

  • Die Wiederholung einer einzelnen Schicht hatte keinen Effekt, doch nur bei Wiederholung zusammenhängender Blöcke stieg die Leistung
  • Das bedeutet, dass mittlere Schichten nicht als unabhängig wiederholbare Operationen arbeiten, sondern als mehrstufiger Rechenschaltkreis (circuit)
  • Beispiel: Die Schichten 46 bis 52 führen wie ein „Rezept“ schrittweises Schlussfolgern aus
    • Wird der gesamte Block wiederholt, entsteht der Effekt, den Schlussfolgerungsprozess noch einmal auszuführen

Heatmap-Analyse und „LLM-Neuroanatomie“

  • Die Heatmap, die die Leistung jeder Kombination (i, j) visualisiert, zeigte ein fMRI-ähnliches Muster
  • Bei mathematischen Tasks verbesserte sich die Leistung bei Wiederholung mittlerer Schichten, beim EQ-Task in anderen Bereichen
  • Das deutet darauf hin, dass es aufgabenspezifische funktionale Schaltkreise im Inneren des Transformers gibt

Nebenwirkungen fehlerhafter Kopien

  • Einige Kombinationen führten dazu, dass das Modell abnormale Sprachwiederholungen oder halluzinatorische Ausgaben zeigte
  • Dies wurde als Ergebnis einer übermäßigen Ausdehnung bestimmter Schaltkreise beschrieben, vergleichbar mit einer „künstlichen Hirnschädigung“
  • Beispiel: Ein Schaltkreis für soziale Angemessenheit ist beschädigt, wodurch anormale Gesprächsmuster entstehen

Folgeforschung und abgeleitete Modelle

  • Auf Basis von RYS-XLarge führten mehrere Forschende zusätzlich Fine-Tuning und ORPO-Training durch
  • Stand Anfang 2026 basieren die Top-4-Modelle im Leaderboard alle auf 78B-Modellen mit RYS-Struktur
    • calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys usw.

Strukturelle Erweiterung und Bedeutung

  • Schichtkopien sind unabhängig von Fine-Tuning und damit kombinierbar
  • Es ist eine Methode, nicht zu verändern, was das Modell weiß, sondern wie es denkt
  • Je größer das Modell, desto stärker sind Funktionsbereiche differenziert, sodass Kopien auf Schaltkreisebene wirksam sind
  • Bei kleineren Modellen sind Kodierung, Schlussfolgern und Dekodierung stärker verflochten, daher ist derselbe Effekt begrenzt

Ausblick

  • Die gleiche Technik wird derzeit auf aktuelle Modelle wie Qwen, MiniMax und GLM angewendet
  • Es wurde bestätigt, dass jedes Modell eine eigene „neuroanatomische Struktur“ besitzt
  • Künftig sind Code-Veröffentlichung und weitere Releases der RYS-Serie geplant
  • Der Autor formulierte es so: „Jetzt sezieren wir statt Mäusegehirnen künstliche Gehirne.“

Fazit

  • Ein Experiment, das die Leistung von LLMs allein durch Schichtkopien ohne Gewichtsänderungen verbessert
  • Es zeigt empirisch, dass es im Inneren von Transformern funktionale Schaltkreise und strukturelle Differenzierung gibt
  • Das weist auf eine neue Richtung für mechanistic interpretability und effiziente Architekturerweiterung hin

1 Kommentare

 
GN⁺ 2026-03-11
Hacker-News-Kommentare
  • Es ist erstaunlich, wie unausgewogen hier das Verhältnis von Punkten zu Kommentaren ist.
    Ich war beeindruckt davon, wie gehaltvoll der Artikel ist und wie gut er technische Inhalte auch für Laien verständlich aufbereitet.
    Besonders der Punkt „Allein die Tatsache, dass Goliath funktioniert hat, ist erstaunlich“ scheint mir der Kern zu sein. Ich frage mich, warum nicht mehr Forschende darauf aufmerksam geworden sind.
    Interessant ist auch, wie der Autor von der Hirnforschung in der Biotechnologie dazu kam, sich im GPU-Keller(?) mit KI zu beschäftigen.

    • Ich plane auch, frühere Optogenetics- oder CRISPR/Cas9-Projekte im Blog zu veröffentlichen.
      1. Andere Arbeiten (wie Solar10.7B usw.) haben Ähnliches versucht, aber experimentell bestätigt, dass es keine gute Idee ist, den gesamten Transformer-Stack zu duplizieren. Das kommt einer redundanten Vervielfachung von „Organen“ gleich und ist ineffizient.
      2. Die Forschung in der Biologie hat mir Spaß gemacht, aber Peer Review und Förderanträge lagen mir nicht. Deshalb habe ich als unabhängiger Forscher mit dem Blog begonnen. Hoffentlich zitiert mich irgendwann jemand.
    • Die Analogie, ein Katzengehirn in einen Hundekopf zu setzen, war witzig. Eigentlich finde ich das nicht überraschend.
      So wie die Kernel in den frühen Schichten von CNNs zu Gabor-Filtern konvergieren, denke ich, dass auch die inneren Schichten von LLMs zu universellen mathematischen Optimierungen wie Energieeffizienz, Informationskompression und Entropieoptimierung konvergieren.
  • Mir hat sehr gefallen, wie detailliert der Entdeckungsprozess gezeigt wurde. Der Prozess ist interessanter als das Ergebnis.
    Besonders eindrucksvoll waren die geschachtelte abstrakte Schlussfolgerung zur Leistungssteigerung und die Visualisierung der Wahrscheinlichkeitsverteilung per Heatmap.
    Die zugehörigen Arbeiten holen auch zunehmend auf.

    • SOLAR / DUS (Kim et al., 2023): Durch Duplizieren von Transformer-Schichten wurde ein 10.7B-Modell erstellt, das besser abschnitt als ein 30B-Modell.
    • The Curse of Depth (2025): Erklärt, dass die Pre-LN-Struktur tiefe Schichten zu einer identity function konvergieren lässt, während die mittleren Schichten die eigentliche Berechnung übernehmen.
    • Scaling up Test-Time Compute with Latent Reasoning (Geiping et al., NeurIPS 2025): Stellt einen Ansatz vor, der einen einzelnen recurrent Block wiederholt verwendet, um die Tiefe des Schlussfolgerns zu erweitern.
    • Danke für das Lob!
      Allerdings glaube ich, dass Modelle wie SOLAR letztlich an Grenzen stoßen werden. Die Heatmap zeigt, dass der Transformer-Stack zunächst mit zufälligen Gewichten startet und sich während des Trainings allmählich in eine auf „Organe“ spezialisierte Struktur verwandelt.
      „Token-to-thought“ und „thought-to-token“ sind Organe, die jeweils nur einmal existieren sollten. Am Ende wird sich meiner Meinung nach immer eine spezialisierte Struktur durchsetzen.
  • Ich stimme zu, dass „es erstaunlich ist, dass Goliath funktioniert hat“.
    Früher gab es schon Experimente, die mehrere Modelle kombinierten, aber die meisten blieben auf dem Niveau von Community-Experimenten auf Reddit oder Discord. In Wissenschaft und Industrie fand das kaum Beachtung.
    Trotzdem frage ich mich, ob es auch funktionieren könnte, Schichten aus völlig unterschiedlichen Modellen wie Llama und Qwen zu mischen.
    Interessant ist auch, warum LLMs bei Arithmetikaufgaben seltsame Fehler machen, etwa die letzte Ziffer auslassen oder die Reihenfolge vertauschen. Ich würde gern testen, ob eine erzwungene Grammatik-Parsing-Struktur das verbessert.

    • Das Mischen unterschiedlicher Modelle ist wegen Embedding-Größe oder Vokabularunterschieden vermutlich schwierig. Selbst bei gleicher Architektur können sich die internen Repräsentationen wegen unterschiedlicher Trainingsdaten unterscheiden. Trotzdem wäre es ein spannendes Experiment.
    • Solche Themen eignen sich gut für Hobbyforschende. Unternehmen konzentrieren sich eher darauf, bestehende Modelle zu fine-tunen.
    • Mehrstellige Zahlen sind wegen der vielen möglichen Token-Kombinationen komplex. Der Code im Blog hilft dabei, aus teilweise richtigen Antworten nützliche Metriken zu extrahieren.
  • Die Idee, dass sich in LLMs eine kognitive lingua franca verbergen könnte, ist faszinierend.
    Vielleicht ließe sich damit eine plug-in-fähige Wissensbank bauen.
    Wenn man ein schlankes Modell hätte, in das man nur das benötigte Wissen einsteckt, könnte man aktuelles Wissen pflegen, ohne das ganze Modell neu zu trainieren.

    • Die Formulierung „eine Wissensbank einstecken“ ist lustig — LLM: „...jetzt kann ich Kung-Fu.“
    • Künftige LLMs könnten vielleicht so aufgebaut sein, dass standardisierte Encoding-/Decoding-Layer in logische Layer eingesteckt werden.
    • Mit so einer Struktur könnten sich womöglich auch Halluzinationen verringern.
    • Eigentlich erinnert dieser Ansatz nicht schon stark an das, was LoRA bereits tut?
  • Das vom Autor erwähnte Latent-Space-Reasoning war wirklich beeindruckend.
    Erstaunlich ist, dass sich das Training allein durch das Kopieren von Schichten rückwärts ausbreitet.
    Ich frage mich auch, wie sich die Leistung verändern würde, wenn man duplizierte Schichten in eine Schleife setzt. Im Vergleich mit MoE-Modellen könnte man prüfen, ob jede Schicht wie ein eigenständiger Experte arbeitet.

    • Ich habe einzelne Schichten kopiert, aber das hatte keinen großen Effekt. Im Gegenteil: Output→Input-Feedback ist meist eher schädlich.
      Spannend waren aber Experimente, bei denen an mehreren Stellen Schichten mehrfach kopiert und Zusammenführungen mit einem XGBoost-basierten Metamodell vorhergesagt wurden. Das funktioniert auch gut mit MoE.
      Allerdings findet meine Frau diese Zeitverschwendung(?) nicht besonders gut.
    • LoopLM scheint eine ähnliche Idee zu behandeln.
  • Das Konzept der „Gehirnchirurgie“ in LLMs ist faszinierend. Als llama.cpp Unterstützung für Vision-Modelle bekam, habe ich versucht, einen Teil der im Projector erzeugten Embeddings auf 0 zu setzen und das LLM dann das Bild beschreiben zu lassen.
    Dabei entstanden erstaunliche Ergebnisse, etwa dass es nicht vorhandene Personen oder Hintergründe erfunden hat.
    Irgendwann würde ich gern systematisch die Korrelation zwischen Vektordimensionen und Bedeutung untersuchen.

    • Heute ist eine gute Zeit, um Hacker zu sein.
  • Ich hatte auch eine ähnliche Intuition zur Nutzung mittlerer Schichten.
    Nachdem ich dieses YouTube-Video gesehen hatte, habe ich meine Gedanken geordnet und bin zu dem Schluss gekommen, dass die Reihenfolge der Schichten nicht fest sein muss, je öfter man sie in Schleifen nutzt.
    Wenn man bei Wiederholungen unnötige Schichten überspringen und nur die nötigen wiederholen könnte, würde das am Ende vielleicht auf ein einlagiges MOE-Modell hinauslaufen.
    Auch so etwas wie ein Reasoning-Intensity-Knopf, mit dem man steuert, „wie tief gedacht“ werden soll, wäre denkbar.

    • Interessante Idee. Wenn man die Reihenfolge der Schichten aber völlig zufällig macht, könnte es zu einer kombinatorischen Explosion kommen.
      Trotzdem wäre es spannend, die Leistungsänderung zu testen, wenn man die Aufrufreihenfolge der Transformer-Blöcke randomisiert.
  • Beim Lesen des Artikels konnte ich viel mit der geometrischen Struktur von Wissen anfangen.
    Die Denkweise eines Generalisten, der sich über viele Fachgebiete bewegt, scheint eine solche neuronale Struktur widerzuspiegeln.
    Das hat mir den Tag versüßt.

    • Danke.
  • Es ist interessant, dass offenbar nur etwa 7 Schichtblöcke funktionieren und mehr oder weniger nicht.
    Das deutet darauf hin, dass es im Transformer funktionale Einheiten („Organe“) gibt, die wir noch nicht verstehen.
    Ich frage mich, ob dieselbe „7-Schichten-Magie“ auch in anderen Architekturen wie Llama oder Mistral und nicht nur in Qwen auftaucht.

  • Diese Idee wirft für mich zwei Fragen auf.

    1. Sollte man Modelle von Anfang an mit einer solchen Loop-Struktur trainieren?
    2. Ist es überhaupt richtig, eine feste Zahl von Schichten zu verwenden?
      Wenn ein Modell gegenüber internen Schichtveränderungen so tolerant ist, muss man nicht für jedes Token alle Schichten durchlaufen lassen.
      Wenn man ein Modell baut, das die Anzahl der Wiederholungen je nach Schwierigkeit der Aufgabe anpasst, könnte es einfache Probleme schnell und schwierige mit tieferem Schlussfolgern bearbeiten.
      Während des Trainings könnte es sogar lernen, seine eigene confidence vorherzusagen und so zu entscheiden, ob zusätzliche Rechenarbeit nötig ist.