2023 war das Jahr der offenen LLMs

xguru · 2023-12-21T10:33:04+09:00

Das öffentliche Interesse an Large Language Models (LLMs) nahm zu, und die Debatte über Open Source und Closed Source breitete sich aus Rezept für pretrained LLMs Modellarchitektur: beschreibt die konkrete Implementierung und mathematische Form Trainingsdatensatz: enthält Beispiele und Dokumente, aus denen das Modell lernt Tokenizer: definiert, wie Text in Zahlen umgewandelt wird Trainings-Hyperparameter: definieren, wie das Modell trainiert wird Erfordert Rechenleistung und die Überwachung durch Fachleute Die Gewichte des vortrainierten Modells werden für die Inferenz verwendet 2022, vom Größenwettlauf zum Datenwettlauf Bis Anfang 2022 war die Modellgröße ein wichtiger Faktor für die Leistung Modelle wie BLOOM, OPT und GLM-130B wurden veröffentlicht Neue Forschung von DeepMind hob die Bedeutung der Datengröße hervor und leitete einen Paradigmenwechsel ein 2023, das Jahr der offenen Releases Der Aufstieg kleinerer LLMs: Im Februar erschienen LLaMA (Meta), im April Pythia (Eleuther AI), im Mai MPT (MosaicML), im Juni X-GEN (Salesforce) und Falcon (TIIUAE), im Juli Llama 2 (Meta). Im September folgten Qwen (Alibaba) und Mistral (Mistral.AI), im November Yi (01-ai) und im Dezember DeciLM (Deci), Phi-2 (Microsoft) und SOLAR (Upstage) Sie enthielten Modellgewichte und zeigten bei kleineren Modellen gute Leistung, sodass sie von der Community schnell übernommen wurden Die entscheidenden Unterschiede liegen in den Trainingsdaten und den Modelllizenzen Das Aufkommen dialogorientierter Modelle 2023 wurden die meisten vortrainierten Modelle zusammen mit einer dialogorientierten Version veröffentlicht Dabei kamen Methoden wie chatbasiertes Fine-Tuning, Instruction-Fine-Tuning, Reinforcement Learning from Human Feedback (RLHF) und DPO (Direct Preference Optimization) zum Einsatz Für die Modelle MPT, Falcon, XGen, Llama-2, Qwen, Yi und DeciLM wurden dialogorientierte Versionen veröffentlicht Die Rolle der Community Community und Forschende nutzten die bereitgestellten Basismodelle, um neue Datensätze und feinabgestimmte Modelle zu entwickeln Veröffentlichung verschiedenster Datensätze und Fine-Tuning-Strategien Human Preference: WebGPT-Datensatz von OpenAI, HH-RLHF-Datensatz (Anthropic) und Summarize (OpenAI) Instruction: Public Pool of Prompts von BigScience, FLAN 1 und 2 von Google, Natural Instructions von AllenAI, Self Instruct, SuperNatural Instructions, Unnatural Instructions Human ChatGPT Instruction Corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,.. Demokratisierung des Zugangs Modell-/Daten-Merging: Kombination von Modellgewichten, um Stärken zu vereinen PEFT: Fine-Tuning ist möglich, ohne das gesamte Modell zu verwenden Quantisierung: eine Technik zur Verringerung der Modellgröße, die mehr Menschen die Nutzung von LLMs ermöglicht Was kommt als Nächstes? Das Auftauchen neuer Architekturen, die Transformer übertreffen, und weitere Leistungssteigerungen Veröffentlichung neuer Modelle wie Mixtral, Mamba und Striped Hyena

(huggingface.co)

19 Punkte von xguru 2023-12-21 | 1 Kommentare | Auf WhatsApp teilen

Das öffentliche Interesse an Large Language Models (LLMs) nahm zu, und die Debatte über Open Source und Closed Source breitete sich aus

Rezept für pretrained LLMs

Modellarchitektur: beschreibt die konkrete Implementierung und mathematische Form
Trainingsdatensatz: enthält Beispiele und Dokumente, aus denen das Modell lernt
Tokenizer: definiert, wie Text in Zahlen umgewandelt wird
Trainings-Hyperparameter: definieren, wie das Modell trainiert wird
Erfordert Rechenleistung und die Überwachung durch Fachleute
Die Gewichte des vortrainierten Modells werden für die Inferenz verwendet

2022, vom Größenwettlauf zum Datenwettlauf

Bis Anfang 2022 war die Modellgröße ein wichtiger Faktor für die Leistung
Modelle wie BLOOM, OPT und GLM-130B wurden veröffentlicht
Neue Forschung von DeepMind hob die Bedeutung der Datengröße hervor und leitete einen Paradigmenwechsel ein

2023, das Jahr der offenen Releases

Der Aufstieg kleinerer LLMs: Im Februar erschienen LLaMA (Meta), im April Pythia (Eleuther AI), im Mai MPT (MosaicML), im Juni X-GEN (Salesforce) und Falcon (TIIUAE), im Juli Llama 2 (Meta). Im September folgten Qwen (Alibaba) und Mistral (Mistral.AI), im November Yi (01-ai) und im Dezember DeciLM (Deci), Phi-2 (Microsoft) und SOLAR (Upstage)
Sie enthielten Modellgewichte und zeigten bei kleineren Modellen gute Leistung, sodass sie von der Community schnell übernommen wurden
Die entscheidenden Unterschiede liegen in den Trainingsdaten und den Modelllizenzen

Das Aufkommen dialogorientierter Modelle

2023 wurden die meisten vortrainierten Modelle zusammen mit einer dialogorientierten Version veröffentlicht
Dabei kamen Methoden wie chatbasiertes Fine-Tuning, Instruction-Fine-Tuning, Reinforcement Learning from Human Feedback (RLHF) und DPO (Direct Preference Optimization) zum Einsatz
Für die Modelle MPT, Falcon, XGen, Llama-2, Qwen, Yi und DeciLM wurden dialogorientierte Versionen veröffentlicht

Die Rolle der Community

Community und Forschende nutzten die bereitgestellten Basismodelle, um neue Datensätze und feinabgestimmte Modelle zu entwickeln
Veröffentlichung verschiedenster Datensätze und Fine-Tuning-Strategien
- Human Preference: WebGPT-Datensatz von OpenAI, HH-RLHF-Datensatz (Anthropic) und Summarize (OpenAI)
- Instruction: Public Pool of Prompts von BigScience, FLAN 1 und 2 von Google, Natural Instructions von AllenAI, Self Instruct, SuperNatural Instructions, Unnatural Instructions
- Human ChatGPT Instruction Corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,..

Demokratisierung des Zugangs

Modell-/Daten-Merging: Kombination von Modellgewichten, um Stärken zu vereinen
PEFT: Fine-Tuning ist möglich, ohne das gesamte Modell zu verwenden
Quantisierung: eine Technik zur Verringerung der Modellgröße, die mehr Menschen die Nutzung von LLMs ermöglicht

Was kommt als Nächstes?

Das Auftauchen neuer Architekturen, die Transformer übertreffen, und weitere Leistungssteigerungen
Veröffentlichung neuer Modelle wie Mixtral, Mamba und Striped Hyena

1 Kommentare

laeyoung 2023-12-22

Es war schön, dass viele gute Open-Source-Modelle herausgekommen sind. Das galt für LLaMA genauso wie für Open-Source-Modelle, die so bereitgestellt wurden, dass sie auch im Web laufen, und ich habe mir dies und das heruntergeladen und vieles ausprobiert. Aber tatsächlich im Einsatz und im Alltag genutzt werden am Ende nur ChatGPT oder Anbieter, die GPT-4 nehmen und als SaaS bereitstellen – das ist schon etwas ironisch. Open-Source-Modelle sind zwar wichtig, aber ohne eine Infrastruktur, die sie am Ende stabil betreibt, und finanzielle Unterstützer, die das wiederum zuverlässig tragen, ist es wohl schwierig – so denke ich zumindest.