Wie man Platz 1 im HuggingFace Open LLM Leaderboard erreichte – mit zwei Gaming-GPUs, ohne Gewichtsänderungen

(dnhkng.github.io)

1 Punkte von GN⁺ 2026-03-11 | 1 Kommentare | Auf WhatsApp teilen

Durch das Kopieren und Neuarrangieren der mittleren 7 Schichten eines riesigen 72B-Parameter-LLM wurde ohne jegliches Training Platz 1 im Leaderboard erreicht
Das Experiment wurde mit zwei RTX 4090 durchgeführt; verändert wurde nicht das Gewicht des Modells, sondern nur die Struktur, sodass mittlere Schichten wiederholt ausgeführt werden
Über zwei kleine Proxy-Tasks – mathematisches Schlussfolgern und emotionales Schlussfolgern (EQ) – wurde der optimale Schichtbereich gesucht
Im Ergebnis verzeichnete das auf Qwen2-72B basierende Modell RYS-XLarge eine durchschnittliche Verbesserung von +2,61 %, insbesondere MuSR +17,72 % und MATH +8,16 %
Dieser Ansatz zeigt die mögliche Existenz „funktionaler Schaltkreise (circuits)“ im Inneren von LLMs und führt zu Forschung an der „neuroanatomischen Struktur“ großer Modelle

Open LLM Leaderboard und Hintergrund des Experiments

Mitte 2024 war das Open LLM Leaderboard von HuggingFace ein Wettkampffeld für Modelle mit offenen Gewichten
- Bewertungskategorien: IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
Der Autor führte das Experiment ohne neues Modelltraining oder Fine-Tuning durch, indem er einige mittlere Schichten vorhandener Modelle kopierte
Es wird vermutet, dass die kopierten Schichten für den „Denkprozess“ des Modells zuständig sind

Hinweis 1 – Base64-Gesprächsexperiment

Es wurde beobachtet, dass ein LLM in Base64 kodierte Fragen versteht und die korrekte Antwort in Base64 zurückgibt
Da das Modell auch bei anderem Eingabeformat Schlussfolgerungen zieht, wurde die Hypothese aufgestellt, dass frühe Schichten die Eingabe interpretieren (translation) und späte Schichten die Ausgabe umwandeln (re-translation)
Daraus ergab sich die Möglichkeit, dass mittlere Schichten der Bereich für abstraktes Denken sind

Hinweis 2 – Ungewöhnliche Struktur des Modells Goliath-120B

Goliath-120B auf HuggingFace ist eine Struktur, in der zwei Llama-2-70B-Modelle wechselseitig kombiniert werden und die Ausgabe später Schichten auf die Eingabe früher Schichten zurückgeführt wird
Es wurde bestätigt, dass das Modell trotz einer Struktur außerhalb der normalen Trainingsverteilung funktioniert
Das deutet darauf hin, dass Darstellungen zwischen Schichten gegenseitig kompatibel sind und interne Transformer-Repräsentationen homogen sind

Aufbau eines „Brain Scanners“

Es wurde eine Pipeline gebaut, die beim Modell Qwen2-72B alle Schichtbereichskombinationen (i, j) testet (insgesamt 3.241)
Bei jeder Kombination wurde das Modell so umgebaut, dass ein bestimmter Schichtbereich zweimal durchlaufen wird
Die Bewertung musste drei Bedingungen erfüllen
- minimale Ausgabe (für Geschwindigkeit)
- objektive Bewertbarkeit
- kognitive Unabhängigkeit (wenn sich beide Tasks gleichzeitig verbessern, gilt das als strukturelle Verbesserung)

Entwurf der Proxy-Tasks

Hard Math Probe: direkte Schätzung der richtigen Antwort auf komplexe Rechenaufgaben
EQ-Bench Probe: Vorhersage der Emotionsstärke von 0 bis 100 in sozialen Situationen
Beide Tasks liefern kurze Ausgaben und klare richtige Antworten und eignen sich daher zur Messung struktureller Veränderungen

Mathematische Bewertungsfunktion und Teilpunktzahl für teilweise richtige Antworten

Unter Berücksichtigung numerischer Fehler von LLMs (fehlende Stellen, Vertauschungen usw.) wurde eine Bewertungsfunktion für Teiltreffer entwickelt
Kurze Antworten werden aufgefüllt und der relative Fehler wird berechnet, um die Trefferquote in einen kontinuierlichen Score umzuwandeln
So lassen sich feine Leistungsunterschiede quantitativ unterscheiden

Aufbau des Modells RYS-XLarge

Die optimale Kombination war (45, 52), wobei die Schichten 45 bis 51 ein weiteres Mal wiederholt werden
Dadurch wurden 7 mittlere Schichten kopiert, die Gesamtparameterzahl stieg von 72B auf 78B
Ohne Gewichtsänderung, nur durch Strukturänderung, umgesetzt per Pointer-Kopie ohne zusätzlichen VRAM-Verbrauch

Leaderboard-Ergebnis

Kategorie	Punktzahl	Verbesserung gegenüber dem Ausgangswert
Durchschnitt	44.75	+2.61%
MATH Lvl 5	38.97	+8.16%
MuSR	23.72	+17.72%
BBH	+2.51%
GPQA	+2.58%
IFEval	-2.05%

In 5 Kategorien verbessert, mit dem Durchschnittswert Platz 1 im Leaderboard erreicht
Da bei der Entwicklung keine Leaderboard-Kategorien verwendet wurden, wird dies als reiner struktureller Generalisierungseffekt bewertet

Entdeckung „funktionaler Schaltkreise“ im Transformer

Die Wiederholung einer einzelnen Schicht hatte keinen Effekt, doch nur bei Wiederholung zusammenhängender Blöcke stieg die Leistung
Das bedeutet, dass mittlere Schichten nicht als unabhängig wiederholbare Operationen arbeiten, sondern als mehrstufiger Rechenschaltkreis (circuit)
Beispiel: Die Schichten 46 bis 52 führen wie ein „Rezept“ schrittweises Schlussfolgern aus
- Wird der gesamte Block wiederholt, entsteht der Effekt, den Schlussfolgerungsprozess noch einmal auszuführen

Heatmap-Analyse und „LLM-Neuroanatomie“

Die Heatmap, die die Leistung jeder Kombination (i, j) visualisiert, zeigte ein fMRI-ähnliches Muster
Bei mathematischen Tasks verbesserte sich die Leistung bei Wiederholung mittlerer Schichten, beim EQ-Task in anderen Bereichen
Das deutet darauf hin, dass es aufgabenspezifische funktionale Schaltkreise im Inneren des Transformers gibt

Nebenwirkungen fehlerhafter Kopien

Einige Kombinationen führten dazu, dass das Modell abnormale Sprachwiederholungen oder halluzinatorische Ausgaben zeigte
Dies wurde als Ergebnis einer übermäßigen Ausdehnung bestimmter Schaltkreise beschrieben, vergleichbar mit einer „künstlichen Hirnschädigung“
Beispiel: Ein Schaltkreis für soziale Angemessenheit ist beschädigt, wodurch anormale Gesprächsmuster entstehen

Folgeforschung und abgeleitete Modelle

Auf Basis von RYS-XLarge führten mehrere Forschende zusätzlich Fine-Tuning und ORPO-Training durch
Stand Anfang 2026 basieren die Top-4-Modelle im Leaderboard alle auf 78B-Modellen mit RYS-Struktur
- calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys usw.

Strukturelle Erweiterung und Bedeutung

Schichtkopien sind unabhängig von Fine-Tuning und damit kombinierbar
Es ist eine Methode, nicht zu verändern, was das Modell weiß, sondern wie es denkt
Je größer das Modell, desto stärker sind Funktionsbereiche differenziert, sodass Kopien auf Schaltkreisebene wirksam sind
Bei kleineren Modellen sind Kodierung, Schlussfolgern und Dekodierung stärker verflochten, daher ist derselbe Effekt begrenzt

Ausblick

Die gleiche Technik wird derzeit auf aktuelle Modelle wie Qwen, MiniMax und GLM angewendet
Es wurde bestätigt, dass jedes Modell eine eigene „neuroanatomische Struktur“ besitzt
Künftig sind Code-Veröffentlichung und weitere Releases der RYS-Serie geplant
Der Autor formulierte es so: „Jetzt sezieren wir statt Mäusegehirnen künstliche Gehirne.“

Fazit

Ein Experiment, das die Leistung von LLMs allein durch Schichtkopien ohne Gewichtsänderungen verbessert
Es zeigt empirisch, dass es im Inneren von Transformern funktionale Schaltkreise und strukturelle Differenzierung gibt
Das weist auf eine neue Richtung für mechanistic interpretability und effiziente Architekturerweiterung hin

1 Kommentare

GN⁺ 2026-03-11

Hacker-News-Kommentare

Es ist erstaunlich, wie unausgewogen hier das Verhältnis von Punkten zu Kommentaren ist.
Ich war beeindruckt davon, wie gehaltvoll der Artikel ist und wie gut er technische Inhalte auch für Laien verständlich aufbereitet.
Besonders der Punkt „Allein die Tatsache, dass Goliath funktioniert hat, ist erstaunlich“ scheint mir der Kern zu sein. Ich frage mich, warum nicht mehr Forschende darauf aufmerksam geworden sind.
Interessant ist auch, wie der Autor von der Hirnforschung in der Biotechnologie dazu kam, sich im GPU-Keller(?) mit KI zu beschäftigen.
- Ich plane auch, frühere Optogenetics- oder CRISPR/Cas9-Projekte im Blog zu veröffentlichen.
  1. Andere Arbeiten (wie Solar10.7B usw.) haben Ähnliches versucht, aber experimentell bestätigt, dass es keine gute Idee ist, den gesamten Transformer-Stack zu duplizieren. Das kommt einer redundanten Vervielfachung von „Organen“ gleich und ist ineffizient.
  2. Die Forschung in der Biologie hat mir Spaß gemacht, aber Peer Review und Förderanträge lagen mir nicht. Deshalb habe ich als unabhängiger Forscher mit dem Blog begonnen. Hoffentlich zitiert mich irgendwann jemand.
- Die Analogie, ein Katzengehirn in einen Hundekopf zu setzen, war witzig. Eigentlich finde ich das nicht überraschend.
  So wie die Kernel in den frühen Schichten von CNNs zu Gabor-Filtern konvergieren, denke ich, dass auch die inneren Schichten von LLMs zu universellen mathematischen Optimierungen wie Energieeffizienz, Informationskompression und Entropieoptimierung konvergieren.
Mir hat sehr gefallen, wie detailliert der Entdeckungsprozess gezeigt wurde. Der Prozess ist interessanter als das Ergebnis.
Besonders eindrucksvoll waren die geschachtelte abstrakte Schlussfolgerung zur Leistungssteigerung und die Visualisierung der Wahrscheinlichkeitsverteilung per Heatmap.
Die zugehörigen Arbeiten holen auch zunehmend auf.
- SOLAR / DUS (Kim et al., 2023): Durch Duplizieren von Transformer-Schichten wurde ein 10.7B-Modell erstellt, das besser abschnitt als ein 30B-Modell.
- The Curse of Depth (2025): Erklärt, dass die Pre-LN-Struktur tiefe Schichten zu einer identity function konvergieren lässt, während die mittleren Schichten die eigentliche Berechnung übernehmen.
- Scaling up Test-Time Compute with Latent Reasoning (Geiping et al., NeurIPS 2025): Stellt einen Ansatz vor, der einen einzelnen recurrent Block wiederholt verwendet, um die Tiefe des Schlussfolgerns zu erweitern.
- Danke für das Lob!
  Allerdings glaube ich, dass Modelle wie SOLAR letztlich an Grenzen stoßen werden. Die Heatmap zeigt, dass der Transformer-Stack zunächst mit zufälligen Gewichten startet und sich während des Trainings allmählich in eine auf „Organe“ spezialisierte Struktur verwandelt.
  „Token-to-thought“ und „thought-to-token“ sind Organe, die jeweils nur einmal existieren sollten. Am Ende wird sich meiner Meinung nach immer eine spezialisierte Struktur durchsetzen.
Ich stimme zu, dass „es erstaunlich ist, dass Goliath funktioniert hat“.
Früher gab es schon Experimente, die mehrere Modelle kombinierten, aber die meisten blieben auf dem Niveau von Community-Experimenten auf Reddit oder Discord. In Wissenschaft und Industrie fand das kaum Beachtung.
Trotzdem frage ich mich, ob es auch funktionieren könnte, Schichten aus völlig unterschiedlichen Modellen wie Llama und Qwen zu mischen.
Interessant ist auch, warum LLMs bei Arithmetikaufgaben seltsame Fehler machen, etwa die letzte Ziffer auslassen oder die Reihenfolge vertauschen. Ich würde gern testen, ob eine erzwungene Grammatik-Parsing-Struktur das verbessert.
- Das Mischen unterschiedlicher Modelle ist wegen Embedding-Größe oder Vokabularunterschieden vermutlich schwierig. Selbst bei gleicher Architektur können sich die internen Repräsentationen wegen unterschiedlicher Trainingsdaten unterscheiden. Trotzdem wäre es ein spannendes Experiment.
- Solche Themen eignen sich gut für Hobbyforschende. Unternehmen konzentrieren sich eher darauf, bestehende Modelle zu fine-tunen.
- Mehrstellige Zahlen sind wegen der vielen möglichen Token-Kombinationen komplex. Der Code im Blog hilft dabei, aus teilweise richtigen Antworten nützliche Metriken zu extrahieren.
Die Idee, dass sich in LLMs eine kognitive lingua franca verbergen könnte, ist faszinierend.
Vielleicht ließe sich damit eine plug-in-fähige Wissensbank bauen.
Wenn man ein schlankes Modell hätte, in das man nur das benötigte Wissen einsteckt, könnte man aktuelles Wissen pflegen, ohne das ganze Modell neu zu trainieren.
- Die Formulierung „eine Wissensbank einstecken“ ist lustig — LLM: „...jetzt kann ich Kung-Fu.“
- Künftige LLMs könnten vielleicht so aufgebaut sein, dass standardisierte Encoding-/Decoding-Layer in logische Layer eingesteckt werden.
- Mit so einer Struktur könnten sich womöglich auch Halluzinationen verringern.
- Eigentlich erinnert dieser Ansatz nicht schon stark an das, was LoRA bereits tut?
Das vom Autor erwähnte Latent-Space-Reasoning war wirklich beeindruckend.
Erstaunlich ist, dass sich das Training allein durch das Kopieren von Schichten rückwärts ausbreitet.
Ich frage mich auch, wie sich die Leistung verändern würde, wenn man duplizierte Schichten in eine Schleife setzt. Im Vergleich mit MoE-Modellen könnte man prüfen, ob jede Schicht wie ein eigenständiger Experte arbeitet.
- Ich habe einzelne Schichten kopiert, aber das hatte keinen großen Effekt. Im Gegenteil: Output→Input-Feedback ist meist eher schädlich.
  Spannend waren aber Experimente, bei denen an mehreren Stellen Schichten mehrfach kopiert und Zusammenführungen mit einem XGBoost-basierten Metamodell vorhergesagt wurden. Das funktioniert auch gut mit MoE.
  Allerdings findet meine Frau diese Zeitverschwendung(?) nicht besonders gut.
- LoopLM scheint eine ähnliche Idee zu behandeln.
Das Konzept der „Gehirnchirurgie“ in LLMs ist faszinierend. Als llama.cpp Unterstützung für Vision-Modelle bekam, habe ich versucht, einen Teil der im Projector erzeugten Embeddings auf 0 zu setzen und das LLM dann das Bild beschreiben zu lassen.
Dabei entstanden erstaunliche Ergebnisse, etwa dass es nicht vorhandene Personen oder Hintergründe erfunden hat.
Irgendwann würde ich gern systematisch die Korrelation zwischen Vektordimensionen und Bedeutung untersuchen.
- Heute ist eine gute Zeit, um Hacker zu sein.
Ich hatte auch eine ähnliche Intuition zur Nutzung mittlerer Schichten.
Nachdem ich dieses YouTube-Video gesehen hatte, habe ich meine Gedanken geordnet und bin zu dem Schluss gekommen, dass die Reihenfolge der Schichten nicht fest sein muss, je öfter man sie in Schleifen nutzt.
Wenn man bei Wiederholungen unnötige Schichten überspringen und nur die nötigen wiederholen könnte, würde das am Ende vielleicht auf ein einlagiges MOE-Modell hinauslaufen.
Auch so etwas wie ein Reasoning-Intensity-Knopf, mit dem man steuert, „wie tief gedacht“ werden soll, wäre denkbar.
- Interessante Idee. Wenn man die Reihenfolge der Schichten aber völlig zufällig macht, könnte es zu einer kombinatorischen Explosion kommen.
  Trotzdem wäre es spannend, die Leistungsänderung zu testen, wenn man die Aufrufreihenfolge der Transformer-Blöcke randomisiert.
Beim Lesen des Artikels konnte ich viel mit der geometrischen Struktur von Wissen anfangen.
Die Denkweise eines Generalisten, der sich über viele Fachgebiete bewegt, scheint eine solche neuronale Struktur widerzuspiegeln.
Das hat mir den Tag versüßt.
- Danke.
Es ist interessant, dass offenbar nur etwa 7 Schichtblöcke funktionieren und mehr oder weniger nicht.
Das deutet darauf hin, dass es im Transformer funktionale Einheiten („Organe“) gibt, die wir noch nicht verstehen.
Ich frage mich, ob dieselbe „7-Schichten-Magie“ auch in anderen Architekturen wie Llama oder Mistral und nicht nur in Qwen auftaucht.
Diese Idee wirft für mich zwei Fragen auf.
1. Sollte man Modelle von Anfang an mit einer solchen Loop-Struktur trainieren?
2. Ist es überhaupt richtig, eine feste Zahl von Schichten zu verwenden?
  Wenn ein Modell gegenüber internen Schichtveränderungen so tolerant ist, muss man nicht für jedes Token alle Schichten durchlaufen lassen.
  Wenn man ein Modell baut, das die Anzahl der Wiederholungen je nach Schwierigkeit der Aufgabe anpasst, könnte es einfache Probleme schnell und schwierige mit tieferem Schlussfolgern bearbeiten.
  Während des Trainings könnte es sogar lernen, seine eigene confidence vorherzusagen und so zu entscheiden, ob zusätzliche Rechenarbeit nötig ist.

Wie man Platz 1 im HuggingFace Open LLM Leaderboard erreichte – mit zwei Gaming-GPUs, ohne Gewichtsänderungen

Open LLM Leaderboard und Hintergrund des Experiments

Hinweis 1 – Base64-Gesprächsexperiment

Hinweis 2 – Ungewöhnliche Struktur des Modells Goliath-120B

Aufbau eines „Brain Scanners“

Entwurf der Proxy-Tasks

Mathematische Bewertungsfunktion und Teilpunktzahl für teilweise richtige Antworten

Aufbau des Modells RYS-XLarge

Leaderboard-Ergebnis

Entdeckung „funktionaler Schaltkreise“ im Transformer

Heatmap-Analyse und „LLM-Neuroanatomie“

Nebenwirkungen fehlerhafter Kopien

Folgeforschung und abgeleitete Modelle

Strukturelle Erweiterung und Bedeutung

Ausblick

Fazit

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare