Bessere Leistung und schnellere Geschwindigkeit für Large Language Models durch Mehr-Token-Vorhersage
(arxiv.org)Verbesserung des Trainings großer Sprachmodelle durch Mehr-Token-Vorhersage
- GPT und Llama werden wie andere Large Language Models mit dem Verlust für die Vorhersage des nächsten Tokens trainiert.
- In dieser Arbeit wird vorgeschlagen, dass sich die Proben-Effizienz verbessert, wenn das Sprachmodell darauf trainiert wird, mehrere zukünftige Tokens gleichzeitig vorherzusagen.
- Konkret wird das Modell an jeder Position im Trainingskorpus dazu aufgefordert, die nächsten n Tokens vorherzusagen, wobei es auf einem gemeinsamen Modelltrunk aufbauend auf n unabhängige Ausgabeköpfe zurückgreift.
- Wird die Mehr-Token-Vorhersage als Nebenaufgabe betrachtet, wird bei Code- und Modellen für natürliche Sprache eine Verbesserung untergeordneter Fähigkeiten ohne zusätzlichen Trainings-Overhead gemessen.
Mit größerer Modellgröße wirksamer und auch bei Multi-Epochen-Training attraktiv
- Diese Methode ist besonders wirksam für größere Modelle und behält ihren Reiz auch bei Training über mehrere Epochen.
- Der Vorteil ist besonders in Generierungs-Benchmarks wie Coding ausgeprägt, wobei das Modell im Vergleich zu einer starken Baseline regelmäßig um mehrere Prozentpunkte besser abschneidet.
- Das 13B-Parameter-Modell löst 12% mehr Aufgaben in HumanEval und 17% mehr im MBPP.
Nützlich für die Entwicklung von Induction Heads und algorithmischem Schließen
- Experimente mit kleinen algorithmischen Aufgaben zeigen, dass die Mehr-Token-Vorhersage für die Entwicklung von Induction Heads und die algorithmische Schlussfolgerungsfähigkeit vorteilhaft ist.
- Als zusätzlicher Vorteil läuft ein mit 4-Token-Vorhersage trainiertes Modell bei großen Batch-Größen mit bis zu 3-fach höherer Inferenzgeschwindigkeit.
GN⁺-Meinung
-
Dies ist eine interessante Studie, die ein neues Trainingsverfahren zur Verbesserung der Effizienz von Sprachmodellen vorschlägt. Besonders auffällig ist, dass die Leistungsverbesserung bei größeren Modellen deutlicher ist.
-
Es wäre sinnvoll, zusätzliche Experimente dazu zu sehen, wie die Mehr-Token-Vorhersage das Lernen langfristiger Abhängigkeiten beeinflusst. Beispielsweise wäre es aufschlussreich, die Leistungsänderungen bei Aufgaben mit fernem Kontext wie referenzieller Auflösung über Satzgrenzen hinweg zu untersuchen.
-
Es ist bemerkenswert, dass die Leistungssteigerung bei bestimmten Generierungsaufgaben wie Coding oder Matheaufgaben groß war. Zugleich ist es spannend, wie stark der Effekt bei allgemeinen Natural-Language-Understanding- oder QA-Tasks ausfällt. Es wäre wünschenswert, die Ergebnisse auf einer größeren Vielfalt von Benchmarks zu ergänzen.
-
Die Beschleunigung der Inferenzgeschwindigkeit kann im praktischen Einsatz ein großer Vorteil sein. Insbesondere in Chatsystemen oder Frage-Antwort-Systemen mit Echtzeitanforderungen scheint das äußerst vorteilhaft zu sein.
-
Angesichts der zunehmenden Aufmerksamkeit für RLHF-basierte Modelle wie Anthropic Constitutional AI oder OpenAI InstructGPT ist diese Studie insofern bedeutsam, als sie zeigt, dass Sprachmodellleistung auch allein mit überwachten Lernmethoden verbessert werden kann. Die Frage der ethischen Werteinordnung ist weiterhin offen, aber in Bezug auf Trainingseffizienz stellt der Ansatz einen wettbewerbsfähigen Weg dar.
1 Kommentare
Hacker News Kommentar
Zusammenfassung: