Platz 1 im Leaderboard durch das Duplizieren von 7 mittleren Schichten von Qwen2-72B – ohne auch nur ein einziges Gewicht anzufassen
(dnhkng.github.io)Der Entwickler David Noel Ng erreichte mit einer extrem einfachen Methode den 1. Platz im HuggingFace Open LLM Leaderboard 2024: Beim Modell Qwen2-72B werden nur 7 mittlere Schichten ein weiteres Mal durchlaufen, ganz ohne Gewichte zu verändern oder Fine-Tuning.
Wichtige Punkte
-
Qwen2-72B (insgesamt 80 Schichten) wurde so modifiziert, dass ein bestimmter mittlerer Bereich (Schichten 45–51, also 7 Schichten) ein weiteres Mal durchlaufen wird
→ Die Parameterzahl steigt dadurch von 72B auf etwa 78B, aber es kommen 0 neue Gewichte hinzu -
Benchmark-Ergebnisse
- MATH Lvl 5: +8,16 %
- MuSR: +17,72 %
- In 5 von 6 wichtigen Benchmarks stieg die Leistung → nach Durchschnittswert Platz 1 im Leaderboard
Warum hat das funktioniert?
- Die Hypothese, dass es im Inneren von Transformer-Modellen nach Funktionen differenzierte „Schaltkreise (circuit)“ gibt (LLM Neuroanatomy)
- Frühe Schichten: Eingabekodierung
- Mittlere Schichten: der eigentliche Teil für Schlussfolgern und „Denken“ (mit spezifischen Schaltkreisen für Mathematik, Emotionsverständnis usw.)
- Späte Schichten: Ausgabedekodierung
→ Wenn der Schaltkreis für Schlussfolgern in der Mitte noch einmal durchlaufen wird, wird diese Funktion verstärkt
Versuchsaufbau
Mit zwei RTX 4090 wurden 3.241 Kombinationen von Schichtbereichen vollständig getestet → Analyse per Heatmap
→ Dabei wurde ein Muster entdeckt, bei dem die Leistung stark ansteigt, wenn nur ein bestimmter Bereich (45–52) wiederholt wird
Weitere Erkenntnisse
- Das Wiederholen einer einzelnen Schicht → Leistungsabfall
- Das Wiederholen eines Blocks aus mehreren Schichten → Verstärkung bestimmter Funktionen
- Spätere Modelle auf Basis dieser Idee (RYS-XLarge → calme-3.2 usw.) erreichten Anfang 2026 ebenfalls Spitzenplätze im Leaderboard
Fazit
LLMs bestehen nicht einfach nur aus aufeinandergestapelten Schichten, sondern besitzen funktional differenzierte Schaltkreise wie ein Gehirn.
Die Entdeckung zeigt, dass sich die Leistung deutlich steigern lässt, ohne die Gewichte anzufassen – allein dadurch, dass man diese Schaltkreise findet und erneut durchlaufen lässt.
1 Kommentare
Wenn das so weitergeht, könnte sich der Leistungsunterschied zwischen kleinen und großen Modellen noch deutlich extremer vergrößern.