Platz 1 im Leaderboard durch das Duplizieren von 7 mittleren Schichten von Qwen2-72B – ohne auch nur ein einziges Gewicht anzufassen

(dnhkng.github.io)

11 Punkte von davespark 2026-03-11 | 1 Kommentare | Auf WhatsApp teilen

Der Entwickler David Noel Ng erreichte mit einer extrem einfachen Methode den 1. Platz im HuggingFace Open LLM Leaderboard 2024: Beim Modell Qwen2-72B werden nur 7 mittlere Schichten ein weiteres Mal durchlaufen, ganz ohne Gewichte zu verändern oder Fine-Tuning.

Wichtige Punkte

Qwen2-72B (insgesamt 80 Schichten) wurde so modifiziert, dass ein bestimmter mittlerer Bereich (Schichten 45–51, also 7 Schichten) ein weiteres Mal durchlaufen wird
→ Die Parameterzahl steigt dadurch von 72B auf etwa 78B, aber es kommen 0 neue Gewichte hinzu
Benchmark-Ergebnisse
- MATH Lvl 5: +8,16 %
- MuSR: +17,72 %
- In 5 von 6 wichtigen Benchmarks stieg die Leistung → nach Durchschnittswert Platz 1 im Leaderboard

Warum hat das funktioniert?

Die Hypothese, dass es im Inneren von Transformer-Modellen nach Funktionen differenzierte „Schaltkreise (circuit)“ gibt (LLM Neuroanatomy)
Frühe Schichten: Eingabekodierung
Mittlere Schichten: der eigentliche Teil für Schlussfolgern und „Denken“ (mit spezifischen Schaltkreisen für Mathematik, Emotionsverständnis usw.)
Späte Schichten: Ausgabedekodierung
→ Wenn der Schaltkreis für Schlussfolgern in der Mitte noch einmal durchlaufen wird, wird diese Funktion verstärkt

Versuchsaufbau
Mit zwei RTX 4090 wurden 3.241 Kombinationen von Schichtbereichen vollständig getestet → Analyse per Heatmap
→ Dabei wurde ein Muster entdeckt, bei dem die Leistung stark ansteigt, wenn nur ein bestimmter Bereich (45–52) wiederholt wird

Weitere Erkenntnisse

Das Wiederholen einer einzelnen Schicht → Leistungsabfall
Das Wiederholen eines Blocks aus mehreren Schichten → Verstärkung bestimmter Funktionen
Spätere Modelle auf Basis dieser Idee (RYS-XLarge → calme-3.2 usw.) erreichten Anfang 2026 ebenfalls Spitzenplätze im Leaderboard

Fazit
LLMs bestehen nicht einfach nur aus aufeinandergestapelten Schichten, sondern besitzen funktional differenzierte Schaltkreise wie ein Gehirn.
Die Entdeckung zeigt, dass sich die Leistung deutlich steigern lässt, ohne die Gewichte anzufassen – allein dadurch, dass man diese Schaltkreise findet und erneut durchlaufen lässt.

https://aisparkup.com/posts/9997

1 Kommentare

sygys10293 2026-03-13

Kleine Modelle wirken offenbar umso komplexer. Funktionen für Encoding, Inferenz und Decoding sind stärker miteinander verflochten und über den gesamten Modellbereich verteilt. Ich habe keine überlappenden Funktionsbereiche gefunden, die sich über mehrere Aufgaben hinweg verallgemeinern lassen, aber es war klar erkennbar, dass die Stärkung einer bestimmten „Fähigkeit“ andere Fähigkeiten schwächen kann. Je größer das Modell jedoch wird, desto stärker trennt sich die funktionale Struktur auf. Große Modelle haben mehr „Raum“, um verallgemeinerte „Denk“-Schaltkreise zu entwickeln, und das könnte der Grund sein, warum meine Methode beim 72B-Modell so gut funktioniert hat. Unterhalb eines bestimmten Schwellenwerts an Parametern ist der „Inferenzkortex“ noch nicht vollständig vom Rest des Gehirns differenziert.

Wenn das so weitergeht, könnte sich der Leistungsunterschied zwischen kleinen und großen Modellen noch deutlich extremer vergrößern.

Platz 1 im Leaderboard durch das Duplizieren von 7 mittleren Schichten von Qwen2-72B – ohne auch nur ein einziges Gewicht anzufassen

Verwandte Beiträge

1 Kommentare