19 Punkte von xguru 2023-12-21 | 1 Kommentare | Auf WhatsApp teilen
  • Das öffentliche Interesse an Large Language Models (LLMs) nahm zu, und die Debatte über Open Source und Closed Source breitete sich aus

Rezept für pretrained LLMs

  • Modellarchitektur: beschreibt die konkrete Implementierung und mathematische Form
  • Trainingsdatensatz: enthält Beispiele und Dokumente, aus denen das Modell lernt
  • Tokenizer: definiert, wie Text in Zahlen umgewandelt wird
  • Trainings-Hyperparameter: definieren, wie das Modell trainiert wird
  • Erfordert Rechenleistung und die Überwachung durch Fachleute
  • Die Gewichte des vortrainierten Modells werden für die Inferenz verwendet

2022, vom Größenwettlauf zum Datenwettlauf

  • Bis Anfang 2022 war die Modellgröße ein wichtiger Faktor für die Leistung
  • Modelle wie BLOOM, OPT und GLM-130B wurden veröffentlicht
  • Neue Forschung von DeepMind hob die Bedeutung der Datengröße hervor und leitete einen Paradigmenwechsel ein

2023, das Jahr der offenen Releases

  • Der Aufstieg kleinerer LLMs: Im Februar erschienen LLaMA (Meta), im April Pythia (Eleuther AI), im Mai MPT (MosaicML), im Juni X-GEN (Salesforce) und Falcon (TIIUAE), im Juli Llama 2 (Meta). Im September folgten Qwen (Alibaba) und Mistral (Mistral.AI), im November Yi (01-ai) und im Dezember DeciLM (Deci), Phi-2 (Microsoft) und SOLAR (Upstage)
  • Sie enthielten Modellgewichte und zeigten bei kleineren Modellen gute Leistung, sodass sie von der Community schnell übernommen wurden
  • Die entscheidenden Unterschiede liegen in den Trainingsdaten und den Modelllizenzen

Das Aufkommen dialogorientierter Modelle

  • 2023 wurden die meisten vortrainierten Modelle zusammen mit einer dialogorientierten Version veröffentlicht
  • Dabei kamen Methoden wie chatbasiertes Fine-Tuning, Instruction-Fine-Tuning, Reinforcement Learning from Human Feedback (RLHF) und DPO (Direct Preference Optimization) zum Einsatz
  • Für die Modelle MPT, Falcon, XGen, Llama-2, Qwen, Yi und DeciLM wurden dialogorientierte Versionen veröffentlicht

Die Rolle der Community

  • Community und Forschende nutzten die bereitgestellten Basismodelle, um neue Datensätze und feinabgestimmte Modelle zu entwickeln
  • Veröffentlichung verschiedenster Datensätze und Fine-Tuning-Strategien
    • Human Preference: WebGPT-Datensatz von OpenAI, HH-RLHF-Datensatz (Anthropic) und Summarize (OpenAI)
    • Instruction: Public Pool of Prompts von BigScience, FLAN 1 und 2 von Google, Natural Instructions von AllenAI, Self Instruct, SuperNatural Instructions, Unnatural Instructions
    • Human ChatGPT Instruction Corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,..

Demokratisierung des Zugangs

  • Modell-/Daten-Merging: Kombination von Modellgewichten, um Stärken zu vereinen
  • PEFT: Fine-Tuning ist möglich, ohne das gesamte Modell zu verwenden
  • Quantisierung: eine Technik zur Verringerung der Modellgröße, die mehr Menschen die Nutzung von LLMs ermöglicht

Was kommt als Nächstes?

  • Das Auftauchen neuer Architekturen, die Transformer übertreffen, und weitere Leistungssteigerungen
  • Veröffentlichung neuer Modelle wie Mixtral, Mamba und Striped Hyena

1 Kommentare

 
laeyoung 2023-12-22

Es war schön, dass viele gute Open-Source-Modelle herausgekommen sind. Das galt für LLaMA genauso wie für Open-Source-Modelle, die so bereitgestellt wurden, dass sie auch im Web laufen, und ich habe mir dies und das heruntergeladen und vieles ausprobiert. Aber tatsächlich im Einsatz und im Alltag genutzt werden am Ende nur ChatGPT oder Anbieter, die GPT-4 nehmen und als SaaS bereitstellen – das ist schon etwas ironisch. Open-Source-Modelle sind zwar wichtig, aber ohne eine Infrastruktur, die sie am Ende stabil betreibt, und finanzielle Unterstützer, die das wiederum zuverlässig tragen, ist es wohl schwierig – so denke ich zumindest.