16 Punkte von taekim34 25 일 전 | 13 Kommentare | Auf WhatsApp teilen

LoPE ist eine Technik, bei der während des RL-Trainings Lorem ipsum dolor sit amet ... vor den Prompt eingefügt wird. Sie löst das "Zero-Advantage"-Problem, bei dem das Lernsignal auf 0 fällt, wenn bei schwierigen Aufgaben alle Samples scheitern.

Wichtigste Ergebnisse:

  • Im Durchschnitt +4,62 Punkte bei Mathematik-Benchmarks mit Qwen3-4B
  • 22 % relative Leistungssteigerung bei AMC 2023
  • Als einzige Methode Durchbruch bei 50 schwierigen Aufgaben, an denen alle bisherigen Verfahren scheiterten

Lesenswerte Punkte

Spannend sind sowohl der Grund, warum auf Latein basierender "wie Sprache aussehender, aber bedeutungsloser Text" wirksam ist, als auch der Mechanismus, mit dem die grundlegende Inferenzbahn des Modells gestört wird, um mehr Suchdiversität zu erreichen.

13 Kommentare

 
gooksangom6394 25 일 전

„Eule Nr. 158, schaffen Sie das?“
„… Ausbilder, das ist zu viel für mich …“
„Lorem ipsum! Schaffen Sie das?“
„Aah!!! Ich schaffe es!“

 
sonic0987 24 일 전

Ach du Scheiße hahahahahahahahaha

 
epics 24 일 전

LOL

 
taekim34 25 일 전

🤣🤣🤣🤣 Ich musste laut loslachen

 
ide127 16 일 전

Vielleicht könnte man das auch so interpretieren, dass die aktuellen Modelle überangepasst trainiert sind und es daher noch Spielraum gibt, die Modellkapazität weiter zu verringern.

 
mammal 25 일 전

Interessant. Es geht also darum, beim Sampling den Suchraum zu vergrößern, indem man Sätze, die das Modell ignorieren kann, wie eine zusätzliche Seed verwendet.

 
taekim34 25 일 전

Genau. Dass damit eine völlig unerwartete neue Perspektive aufgezeigt wurde und sich zudem die tatsächliche Leistung verbessert hat, ist zugleich unterhaltsam und interessant.

 
happing94 24 일 전

Dann war es also doch nicht nur ein Gefühl, dass die Leistung steigt, wenn man Prompts mit hundsmiserablen Tippfehlern schreibt.

 
taekim34 24 일 전

hahaha, warum seid ihr alle so witzig?

 
aliveornot 24 일 전

Das Prinzip klingt plausibel, aber es ist trotzdem erstaunlich. Warum ist die Leistung nicht gesunken, sondern gestiegen?

 
taekim34 24 일 전

Meiner Meinung nach ist das vielleicht ähnlich wie bei Menschen: Wenn man ein schwieriges Problem lösen will, hilft es manchmal, die Gedanken erst einmal anzuregen und dann noch einmal von vorn darüber nachzudenken, sodass sich das Problem lösen lässt. Das ist nur meine persönliche Vermutung, haha.

 
somang04 24 일 전

Ich frage mich: Wenn man das nutzt, könnte es auch beim allgemeinen Training zu sinnvollen Ergebnissen führen?? Herzklopf..

 
taekim34 24 일 전

Ich würde das auch gern mal ausprobieren. ^^
Früher gab es ja auch Forschungsergebnisse dazu, dass man bessere Resultate bekommt, wenn man denselben Prompt zweimal wiederholt eingibt (auch wenn das inhaltlich bedeutungslos ist). Es ist irgendwie so, als würde man noch einmal nachdrücklich darauf hinweisen … Wie ich schon in einem Kommentar unter dem Beitrag von aliverornot geschrieben habe, scheint das hier die Gedanken anzustoßen. Ein bisschen so, wie wenn Mathematiker bei einem schwierigen Problem kurz den Stift weglegen und spazieren gehen … haha