PonderTTT – Adaptive Zuweisung von Rechenaufwand auf TTT-Basis
(ponderttt.worldsw.dev)Hallo, dies ist meine erste arXiv-Arbeit, entstanden aus einem unabhängigen Forschungsprojekt als Oberschüler.
Kernidee:
Da es ineffizient ist, wenn ein LLM für einfache und schwierige Eingaben den gleichen Rechenaufwand verwendet, wird der Reconstruction Loss der TTT-Schicht als Signal genutzt, um zwischen UPDATE und SKIP zu entscheiden.
Ohne zusätzliches Training wurden allein mit Threshold + EMA 82–89 % der Leistung des Oracle erreicht.
Implementiert in JAX/Flax; aktuell läuft die Skalierungsvalidierung mit Gemma 3.
Feedback ist willkommen!
3 Kommentare
Du bist noch in der Oberstufe, das ist wirklich beeindruckend. Wie hast du das Problem mit dem Bürgen gelöst?
Ich habe fleißig Cold Emails an Professoren und Doktoren im Ausland geschickt, die bereits Vorarbeiten dazu durchgeführt hatten, und habe eine Antwort bekommen!
Ah, das ist wirklich eine kluge und treffende Antwort.