- Unterstützt eine Kontextlänge von 128K und 8 Sprachen, außerdem kommt ein 405B-Modell hinzu (8B, 70B, 405B)
- Open-Source-Instruction-Tuned-AI-Modelle, die jeder feinabstimmen, verfeinern und überall bereitstellen kann
- Das neu vorgestellte 405B-Modell erreicht in Benchmarks wie MMLU (allgemein), Human Eval (Coding) und GSM8K (Mathematik) ein Niveau, das GPT-4o nahezu entspricht oder es übertrifft
- Ein KI-Modell auf Spitzenniveau bei Flexibilität und Steuerbarkeit
- Ermöglicht der Community, neue Workflows wie die Erzeugung synthetischer Daten und Model Distillation zu nutzen
- Wurde mit mehr als 15 Billionen Token trainiert und unter Einsatz von über 16.000 H100-GPUs
- Das verbesserte 70B-Modell übertrifft GPT-3.5 Turbo in den meisten Benchmarks deutlich
3 Kommentare
Wow, ich frage mich, wie man die GPUs konfigurieren müsste, um 405B hochzuladen.
405B scheint nicht direkt für Fine-Tuning oder Serving gedacht zu sein. Da der CEO mehrfach Distillation erwähnt hat, könnte es eher für Fine-Tuning als Teacher-Modell gedacht sein, um die Qualität leichterer Modelle zu verbessern.
Hacker-News-Meinungen
Die Modelle von Llama 3.1 haben sich leistungsmäßig verbessert
Vergleich zwischen GPT-4o und dem Modell Llama 3.1 405B
Auf Groq.com kann man mit extrem niedriger Latenz mit den neuen Modellen chatten
Mit geeigneter Hardware kann man auch zu Hause ein LLM ausführen, das mit GPT-4o konkurrieren kann
Modelle lassen sich lokal über Ollama, Huggingface, Groq usw. ausführen
Das Ausführen der 70B-Version in Ollama lieferte sehr gute Ergebnisse
Claude 3.5 Sonnet ist sehr gut für Coding-Aufgaben
Nachfrage nach Preisinformationen für Open-Source-Modelle