- Ein Artikel über die Schwierigkeiten bei der Bereitstellung großer Sprachmodelle (Large Language Models, LLMs): Aufgrund ihrer Größe und ihres Rechenbedarfs sind sie für viele Forschungsteams schwer zugänglich, insbesondere für Anwendungen, die eine geringe Latenz erfordern
- Um diese Herausforderungen zu bewältigen, werden häufig kleine spezialisierte Modelle eingesetzt, die per Fine-Tuning oder Distillation trainiert wurden. Diese Methoden haben jedoch eigene Einschränkungen, etwa den Bedarf an von Menschen erzeugten Labels oder großen Mengen unlabelierter Daten
- Die Autoren stellen einen neuen Mechanismus namens „Step-by-Step Distillation“ vor, mit dem sich kleine aufgabenbezogene Modelle mit deutlich weniger Trainingsdaten trainieren lassen, als bei Standardansätzen für Fine-Tuning oder Distillation erforderlich ist
- Dieser Mechanismus ermöglicht es, dass ein T5-Modell mit 770M Parametern unter Verwendung von nur 80 % der Beispiele aus Benchmark-Datensätzen ein per Few-Shot Prompting gesteuertes PaLM-Modell mit 540B übertrifft, und zeigt dabei eine Reduktion der Modellgröße um mehr als das 700-Fache bei deutlich geringerem Trainingsdatenbedarf als bei Standardansätzen
- Die Kernidee von Step-by-Step Distillation besteht darin, informationsreiche natürliche Sprachbegründungen aus LLMs zu extrahieren und diese zu nutzen, um kleinere Modelle effizienter zu trainieren
- Der Prozess besteht aus zwei Hauptschritten: Erstens werden mit Few-Shot Chain-of-Thought-Prompts Begründungen aus LLMs extrahiert, zweitens werden diese Begründungen in das Training kleiner Modelle integriert, indem der Trainingsprozess als Multi-Task-Problem formuliert wird
- Die Autoren führten Experimente auf vier Benchmark-Datensätzen über drei verschiedene NLP-Aufgaben hinweg durch und stellten fest, dass die Methode Step-by-Step Distillation mit deutlich weniger Trainingsdaten als Standard-Fine-Tuning eine bessere Leistung erzielt
- Der Mechanismus Step-by-Step Distillation ist auf der Google-Cloud-Plattform Vertex AI als private Vorschau verfügbar
- Die Forschung wurde von Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee und Tomas Pfister durchgeführt.
1 Kommentare
Hacker-News-Kommentare