10 Punkte von xguru 2024-07-24 | 3 Kommentare | Auf WhatsApp teilen
  • Unterstützt eine Kontextlänge von 128K und 8 Sprachen, außerdem kommt ein 405B-Modell hinzu (8B, 70B, 405B)
    • Open-Source-Instruction-Tuned-AI-Modelle, die jeder feinabstimmen, verfeinern und überall bereitstellen kann
  • Das neu vorgestellte 405B-Modell erreicht in Benchmarks wie MMLU (allgemein), Human Eval (Coding) und GSM8K (Mathematik) ein Niveau, das GPT-4o nahezu entspricht oder es übertrifft
    • Ein KI-Modell auf Spitzenniveau bei Flexibilität und Steuerbarkeit
    • Ermöglicht der Community, neue Workflows wie die Erzeugung synthetischer Daten und Model Distillation zu nutzen
    • Wurde mit mehr als 15 Billionen Token trainiert und unter Einsatz von über 16.000 H100-GPUs
  • Das verbesserte 70B-Modell übertrifft GPT-3.5 Turbo in den meisten Benchmarks deutlich

3 Kommentare

 
wedding 2024-07-24

Wow, ich frage mich, wie man die GPUs konfigurieren müsste, um 405B hochzuladen.

 
gcback 2024-07-24

405B scheint nicht direkt für Fine-Tuning oder Serving gedacht zu sein. Da der CEO mehrfach Distillation erwähnt hat, könnte es eher für Fine-Tuning als Teacher-Modell gedacht sein, um die Qualität leichterer Modelle zu verbessern.

 
xguru 2024-07-24

Hacker-News-Meinungen

  • Die Modelle von Llama 3.1 haben sich leistungsmäßig verbessert

    • Die Modelle 8B und 70B sind leistungsfähiger als Llama 3
    • Das 405B-Modell ist auf einem Niveau, das mit GPT-4o, GPT-4 turbo, Claude 3.5 Sonnet und Claude 3 Opus konkurrieren kann
  • Vergleich zwischen GPT-4o und dem Modell Llama 3.1 405B

    • MMLU: GPT-4o 88.7, Llama 3.1 405B 88.6
    • GPQA: GPT-4o 53.6, Llama 3.1 405B 51.1
    • MATH: GPT-4o 76.6, Llama 3.1 405B 73.8
    • HumanEval: GPT-4o 90.2, Llama 3.1 405B 89.0
    • MGSM: GPT-4o 90.5, Llama 3.1 405B 91.6
  • Auf Groq.com kann man mit extrem niedriger Latenz mit den neuen Modellen chatten

    • API-Zugang für 8B und 70B verfügbar
    • Die 405B-API ist nur für ausgewählte Kunden zugänglich
  • Mit geeigneter Hardware kann man auch zu Hause ein LLM ausführen, das mit GPT-4o konkurrieren kann

  • Modelle lassen sich lokal über Ollama, Huggingface, Groq usw. ausführen

    • Mit LLMStack kann man Modelle lokal testen oder schnell Anwendungen entwickeln
  • Das Ausführen der 70B-Version in Ollama lieferte sehr gute Ergebnisse

    • Es war möglich, einen Befehl auszuführen, der Richtlinien und Disclaimer deaktiviert
    • Es wurde eine Liste von Befehlen bereitgestellt, die potenzielle Verzerrungen der Entwickler reduzieren
  • Claude 3.5 Sonnet ist sehr gut für Coding-Aufgaben

    • Zusammen mit der Artifacts-Funktion ist es bei Coding-Benchmarks weiterhin führend
  • Nachfrage nach Preisinformationen für Open-Source-Modelle

    • Für Self-Hosting sehr interessant, aber die Hosting-Inferenzkosten pro Token sind im Vergleich zu OpenAI und Anthropic nicht wettbewerbsfähig
    • Beispiel: Llama 3 70B kostet auf verschiedenen Plattformen zwischen 1 und 10 US-Dollar pro Million Token, Claude Sonnet 3.5 kostet 3 US-Dollar pro Million Token