LoPE ist eine Technik, bei der während des RL-Trainings Lorem ipsum dolor sit amet ... vor den Prompt eingefügt wird. Sie löst das "Zero-Advantage"-Problem, bei dem das Lernsignal auf 0 fällt, wenn bei schwierigen Aufgaben alle Samples scheitern.
Wichtigste Ergebnisse:
- Im Durchschnitt +4,62 Punkte bei Mathematik-Benchmarks mit Qwen3-4B
- 22 % relative Leistungssteigerung bei AMC 2023
- Als einzige Methode Durchbruch bei 50 schwierigen Aufgaben, an denen alle bisherigen Verfahren scheiterten
Lesenswerte Punkte
Spannend sind sowohl der Grund, warum auf Latein basierender "wie Sprache aussehender, aber bedeutungsloser Text" wirksam ist, als auch der Mechanismus, mit dem die grundlegende Inferenzbahn des Modells gestört wird, um mehr Suchdiversität zu erreichen.
13 Kommentare
„Eule Nr. 158, schaffen Sie das?“
„… Ausbilder, das ist zu viel für mich …“
„Lorem ipsum! Schaffen Sie das?“
„Aah!!! Ich schaffe es!“
Ach du Scheiße hahahahahahahahaha
LOL
🤣🤣🤣🤣 Ich musste laut loslachen
Vielleicht könnte man das auch so interpretieren, dass die aktuellen Modelle überangepasst trainiert sind und es daher noch Spielraum gibt, die Modellkapazität weiter zu verringern.
Interessant. Es geht also darum, beim Sampling den Suchraum zu vergrößern, indem man Sätze, die das Modell ignorieren kann, wie eine zusätzliche Seed verwendet.
Genau. Dass damit eine völlig unerwartete neue Perspektive aufgezeigt wurde und sich zudem die tatsächliche Leistung verbessert hat, ist zugleich unterhaltsam und interessant.
Dann war es also doch nicht nur ein Gefühl, dass die Leistung steigt, wenn man Prompts mit hundsmiserablen Tippfehlern schreibt.
hahaha, warum seid ihr alle so witzig?
Das Prinzip klingt plausibel, aber es ist trotzdem erstaunlich. Warum ist die Leistung nicht gesunken, sondern gestiegen?
Meiner Meinung nach ist das vielleicht ähnlich wie bei Menschen: Wenn man ein schwieriges Problem lösen will, hilft es manchmal, die Gedanken erst einmal anzuregen und dann noch einmal von vorn darüber nachzudenken, sodass sich das Problem lösen lässt. Das ist nur meine persönliche Vermutung, haha.
Ich frage mich: Wenn man das nutzt, könnte es auch beim allgemeinen Training zu sinnvollen Ergebnissen führen?? Herzklopf..
Ich würde das auch gern mal ausprobieren. ^^
Früher gab es ja auch Forschungsergebnisse dazu, dass man bessere Resultate bekommt, wenn man denselben Prompt zweimal wiederholt eingibt (auch wenn das inhaltlich bedeutungslos ist). Es ist irgendwie so, als würde man noch einmal nachdrücklich darauf hinweisen … Wie ich schon in einem Kommentar unter dem Beitrag von aliverornot geschrieben habe, scheint das hier die Gedanken anzustoßen. Ein bisschen so, wie wenn Mathematiker bei einem schwierigen Problem kurz den Stift weglegen und spazieren gehen … haha