PonderTTT – Adaptive Zuweisung von Rechenaufwand auf TTT-Basis

(ponderttt.worldsw.dev)

4 Punkte von devworld 2026-01-07 | 3 Kommentare | Auf WhatsApp teilen

Hallo, dies ist meine erste arXiv-Arbeit, entstanden aus einem unabhängigen Forschungsprojekt als Oberschüler.

Kernidee:
Da es ineffizient ist, wenn ein LLM für einfache und schwierige Eingaben den gleichen Rechenaufwand verwendet, wird der Reconstruction Loss der TTT-Schicht als Signal genutzt, um zwischen UPDATE und SKIP zu entscheiden.
Ohne zusätzliches Training wurden allein mit Threshold + EMA 82–89 % der Leistung des Oracle erreicht.

Implementiert in JAX/Flax; aktuell läuft die Skalierungsvalidierung mit Gemma 3.

Feedback ist willkommen!

3 Kommentare

jhk0530 2026-01-07

Du bist noch in der Oberstufe, das ist wirklich beeindruckend. Wie hast du das Problem mit dem Bürgen gelöst?

devworld 2026-01-07

Ich habe fleißig Cold Emails an Professoren und Doktoren im Ausland geschickt, die bereits Vorarbeiten dazu durchgeführt hatten, und habe eine Antwort bekommen!

jhk0530 2026-01-07

Ah, das ist wirklich eine kluge und treffende Antwort.

PonderTTT – Adaptive Zuweisung von Rechenaufwand auf TTT-Basis

Verwandte Beiträge

3 Kommentare