Mehrfachtoken-Vorhersage verbessert die Sample-Effizienz und Leistung von Large Language Models
(arxiv.org)• Diese Arbeit stellt eine neue Trainingsmethode für große Sprachmodelle (Large Language Models, LLM) vor, bei der das Modell darauf trainiert wird, mehrere zukünftige Tokens gleichzeitig vorherzusagen. Die Autoren argumentieren, dass dieser Ansatz zu einer höheren Sample-Effizienz führt, was bedeutet, dass das Modell aus der gegebenen Menge an Trainingsdaten effektiver lernen kann.
• Sie zeigen die Wirksamkeit der Methode für verschiedene Downstream-Aufgaben, darunter Code-Generierung und Natural Language Processing, und belegen, dass Mehrfachtoken-Vorhersage die starken Baselines konstant um mehrere Prozentpunkte übertrifft. Insbesondere erreicht ihr 13B-Parameter-Modell auf anspruchsvollen Coding-Benchmarks wie HumanEval und MBPP deutliche Verbesserungen.
• Neben der verbesserten Leistung bietet Mehrfachtoken-Vorhersage auch einen Rechenvorteil. Ein mit 4-Token-Vorhersage trainiertes Modell bietet bei großen Batch-Größen eine bis zu drei Mal schnellere Inferenzgeschwindigkeit und ist dadurch für den Einsatz in realen Anwendungen effizienter.
Noch keine Kommentare.