Meta stellt Llama 3.1 vor

xguru · 2024-07-24T09:04:18+09:00

Unterstützt eine Kontextlänge von 128K und 8 Sprachen, außerdem kommt ein 405B-Modell hinzu (8B, 70B, 405B) Open-Source-Instruction-Tuned-AI-Modelle, die jeder feinabstimmen, verfeinern und überall bereitstellen kann Das neu vorgestellte 405B-Modell erreicht in Benchmarks wie MMLU (allgemein), Human Eval (Coding) und GSM8K (Mathematik) ein Niveau, das GPT-4o nahezu entspricht oder es übertrifft Ein KI-Modell auf Spitzenniveau bei Flexibilität und Steuerbarkeit Ermöglicht der Community, neue Workflows wie die Erzeugung synthetischer Daten und Model Distillation zu nutzen Wurde mit mehr als 15 Billionen Token trainiert und unter Einsatz von über 16.000 H100-GPUs Das verbesserte 70B-Modell übertrifft GPT-3.5 Turbo in den meisten Benchmarks deutlich

(ai.meta.com)

10 Punkte von xguru 2024-07-24 | 3 Kommentare | Auf WhatsApp teilen

Unterstützt eine Kontextlänge von 128K und 8 Sprachen, außerdem kommt ein 405B-Modell hinzu (8B, 70B, 405B)
- Open-Source-Instruction-Tuned-AI-Modelle, die jeder feinabstimmen, verfeinern und überall bereitstellen kann
Das neu vorgestellte 405B-Modell erreicht in Benchmarks wie MMLU (allgemein), Human Eval (Coding) und GSM8K (Mathematik) ein Niveau, das GPT-4o nahezu entspricht oder es übertrifft
- Ein KI-Modell auf Spitzenniveau bei Flexibilität und Steuerbarkeit
- Ermöglicht der Community, neue Workflows wie die Erzeugung synthetischer Daten und Model Distillation zu nutzen
- Wurde mit mehr als 15 Billionen Token trainiert und unter Einsatz von über 16.000 H100-GPUs
Das verbesserte 70B-Modell übertrifft GPT-3.5 Turbo in den meisten Benchmarks deutlich

3 Kommentare

wedding 2024-07-24

Wow, ich frage mich, wie man die GPUs konfigurieren müsste, um 405B hochzuladen.

gcback 2024-07-24

405B scheint nicht direkt für Fine-Tuning oder Serving gedacht zu sein. Da der CEO mehrfach Distillation erwähnt hat, könnte es eher für Fine-Tuning als Teacher-Modell gedacht sein, um die Qualität leichterer Modelle zu verbessern.

xguru 2024-07-24

Hacker-News-Meinungen

Die Modelle von Llama 3.1 haben sich leistungsmäßig verbessert
- Die Modelle 8B und 70B sind leistungsfähiger als Llama 3
- Das 405B-Modell ist auf einem Niveau, das mit GPT-4o, GPT-4 turbo, Claude 3.5 Sonnet und Claude 3 Opus konkurrieren kann
Vergleich zwischen GPT-4o und dem Modell Llama 3.1 405B
- MMLU: GPT-4o 88.7, Llama 3.1 405B 88.6
- GPQA: GPT-4o 53.6, Llama 3.1 405B 51.1
- MATH: GPT-4o 76.6, Llama 3.1 405B 73.8
- HumanEval: GPT-4o 90.2, Llama 3.1 405B 89.0
- MGSM: GPT-4o 90.5, Llama 3.1 405B 91.6
Auf Groq.com kann man mit extrem niedriger Latenz mit den neuen Modellen chatten
- API-Zugang für 8B und 70B verfügbar
- Die 405B-API ist nur für ausgewählte Kunden zugänglich
Mit geeigneter Hardware kann man auch zu Hause ein LLM ausführen, das mit GPT-4o konkurrieren kann
Modelle lassen sich lokal über Ollama, Huggingface, Groq usw. ausführen
- Mit LLMStack kann man Modelle lokal testen oder schnell Anwendungen entwickeln
Das Ausführen der 70B-Version in Ollama lieferte sehr gute Ergebnisse
- Es war möglich, einen Befehl auszuführen, der Richtlinien und Disclaimer deaktiviert
- Es wurde eine Liste von Befehlen bereitgestellt, die potenzielle Verzerrungen der Entwickler reduzieren
Claude 3.5 Sonnet ist sehr gut für Coding-Aufgaben
- Zusammen mit der Artifacts-Funktion ist es bei Coding-Benchmarks weiterhin führend
Nachfrage nach Preisinformationen für Open-Source-Modelle
- Für Self-Hosting sehr interessant, aber die Hosting-Inferenzkosten pro Token sind im Vergleich zu OpenAI und Anthropic nicht wettbewerbsfähig
- Beispiel: Llama 3 70B kostet auf verschiedenen Plattformen zwischen 1 und 10 US-Dollar pro Million Token, Claude Sonnet 3.5 kostet 3 US-Dollar pro Million Token

Meta stellt Llama 3.1 vor

Verwandte Beiträge

3 Kommentare

Hacker-News-Meinungen