4 Punkte von devworld 2026-01-07 | 3 Kommentare | Auf WhatsApp teilen

Hallo, dies ist meine erste arXiv-Arbeit, entstanden aus einem unabhängigen Forschungsprojekt als Oberschüler.

Paper | Code

Kernidee:
Da es ineffizient ist, wenn ein LLM für einfache und schwierige Eingaben den gleichen Rechenaufwand verwendet, wird der Reconstruction Loss der TTT-Schicht als Signal genutzt, um zwischen UPDATE und SKIP zu entscheiden.
Ohne zusätzliches Training wurden allein mit Threshold + EMA 82–89 % der Leistung des Oracle erreicht.

Implementiert in JAX/Flax; aktuell läuft die Skalierungsvalidierung mit Gemma 3.

Feedback ist willkommen!

3 Kommentare

 
jhk0530 2026-01-07

Du bist noch in der Oberstufe, das ist wirklich beeindruckend. Wie hast du das Problem mit dem Bürgen gelöst?

 
devworld 2026-01-07

Ich habe fleißig Cold Emails an Professoren und Doktoren im Ausland geschickt, die bereits Vorarbeiten dazu durchgeführt hatten, und habe eine Antwort bekommen!

 
jhk0530 2026-01-07

Ah, das ist wirklich eine kluge und treffende Antwort.