3 Punkte von GN⁺ 2023-09-24 | 1 Kommentare | Auf WhatsApp teilen
  • Ein Artikel über die Schwierigkeiten bei der Bereitstellung großer Sprachmodelle (Large Language Models, LLMs): Aufgrund ihrer Größe und ihres Rechenbedarfs sind sie für viele Forschungsteams schwer zugänglich, insbesondere für Anwendungen, die eine geringe Latenz erfordern
  • Um diese Herausforderungen zu bewältigen, werden häufig kleine spezialisierte Modelle eingesetzt, die per Fine-Tuning oder Distillation trainiert wurden. Diese Methoden haben jedoch eigene Einschränkungen, etwa den Bedarf an von Menschen erzeugten Labels oder großen Mengen unlabelierter Daten
  • Die Autoren stellen einen neuen Mechanismus namens „Step-by-Step Distillation“ vor, mit dem sich kleine aufgabenbezogene Modelle mit deutlich weniger Trainingsdaten trainieren lassen, als bei Standardansätzen für Fine-Tuning oder Distillation erforderlich ist
  • Dieser Mechanismus ermöglicht es, dass ein T5-Modell mit 770M Parametern unter Verwendung von nur 80 % der Beispiele aus Benchmark-Datensätzen ein per Few-Shot Prompting gesteuertes PaLM-Modell mit 540B übertrifft, und zeigt dabei eine Reduktion der Modellgröße um mehr als das 700-Fache bei deutlich geringerem Trainingsdatenbedarf als bei Standardansätzen
  • Die Kernidee von Step-by-Step Distillation besteht darin, informationsreiche natürliche Sprachbegründungen aus LLMs zu extrahieren und diese zu nutzen, um kleinere Modelle effizienter zu trainieren
  • Der Prozess besteht aus zwei Hauptschritten: Erstens werden mit Few-Shot Chain-of-Thought-Prompts Begründungen aus LLMs extrahiert, zweitens werden diese Begründungen in das Training kleiner Modelle integriert, indem der Trainingsprozess als Multi-Task-Problem formuliert wird
  • Die Autoren führten Experimente auf vier Benchmark-Datensätzen über drei verschiedene NLP-Aufgaben hinweg durch und stellten fest, dass die Methode Step-by-Step Distillation mit deutlich weniger Trainingsdaten als Standard-Fine-Tuning eine bessere Leistung erzielt
  • Der Mechanismus Step-by-Step Distillation ist auf der Google-Cloud-Plattform Vertex AI als private Vorschau verfügbar
  • Die Forschung wurde von Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee und Tomas Pfister durchgeführt.

1 Kommentare

 
GN⁺ 2023-09-24
Hacker-News-Kommentare
  • Es wird erwartet, dass kleinere Expertenmodelle aufgrund des optimalen Gleichgewichts zwischen Größe und Nutzbarkeit die meisten Anwendungen dominieren werden.
  • Mit T5 distillierte Modelle deuten darauf hin, dass Encoder-Decoder-Architekturen weiterhin relevant sein könnten.
  • Da der Ansatz nicht übermäßig komplex ist, deutet er darauf hin, dass es im Bereich der Large Language Models (LLMs) noch viel zu erforschen gibt.
  • Die Zukunft der LLMs könnte eine Mischung von Expertenmodellen umfassen, die in diesem Stil trainiert wurden.
  • Das Aktivitäts- und Fortschrittsniveau in den Bereichen LLM, Machine Learning (ML) und Artificial Intelligence (AI) ist beeindruckend.
  • Wenn Hardware wie die von Nvidia teuer ist, sind solche Optimierungen wertvoll.
  • Die effektivsten Modelle werden wahrscheinlich multimodal sein und mit einem sorgfältig zugeschnittenen Kerncurriculum trainiert werden.
  • Es gibt die Frage, warum die Trainingsdaten von LLMs geringer sind als bei destillierten und aufgabenspezifischen Modellen.
  • Es gibt Spekulationen darüber, ob Reinforcement Learning from Human Feedback (RLHF) für kleinere Modelle nötig sein wird, um so gut zu funktionieren wie modernste LLMs.
  • Es ist unklar, ob bei großen LLMs viel Kapazität ungenutzt bleibt oder ob kleinere Sprachmodelle lediglich Inferenzaufgaben nachahmen.
  • Das Mac Studio mit Unterstützung für bis zu 144 GB verfügbarem GPU-Speicher könnte im Bereich von LLM-Diensten eingesetzt werden.
  • Es gibt den Vorschlag, dass Facebook ein LLM auf dem gesamten Chatverlauf seiner Nutzer trainieren könnte.