2 Punkte von GN⁺ 2023-12-09 | 1 Kommentare | Auf WhatsApp teilen

1 Kommentare

 
GN⁺ 2023-12-09
Hacker-News-Kommentare
  • Meinung von Andrej Karpathy:

    • Vorstellung des neuen Open-Source-LLM (Large Language Model) von MistralAI
    • Auffällige Einstellungen in der Datei params.json:
      • hidden_dim / dim = 14336/4096 => 3,5-fache MLP-Erweiterung
      • n_heads / n_kv_heads = 32/8 => 4-faches Multi-Query
      • "moe" => 8-fach, Top-2 aus Mixture of Experts
    • Der zugehörige Code ist auf GitHub verfügbar
    • Kein übertriebenes Promo-Video zur AI-Revolution
    • Da NeurIPS, eine große Deep-Learning-Konferenz, näher rückt, gibt es viel AI-Aktivität
  • Weitere LLM-Neuigkeiten:

    • Mistral/Yi dominieren mit Modellen, die per einer neuen Technik namens „neural alignment“ feinabgestimmt wurden, andere Modelle auf dem Hugging-Face-Leaderboard
    • Das 7B-Modell „schlägt“ die meisten 70B-Modelle
    • Das getestete 34B-Modell sieht sehr gut aus
    • Wenn diese Technik auf Mistral Moe angewendet wird, könnte daraus ein hervorragendes Modell werden
    • Das könnte ein wichtiger Wendepunkt sein, an dem auf dem Desktop lauffähige OSS GPT-4 herausfordern
  • Mistrals Ansatz:

    • Mistral legt offenbar keinen großen Wert auf Erklärungen, aber dieser Stil wirkt vertrauenswürdiger als die glattpolierten Unternehmensankündigungen von Google
  • Einfache Art der Ankündigung:

    • Bevorzugt werden einfache Ankündigungen im Stil der 90er
  • Mistrals Modellspezifikation:

    • Veröffentlichung der Datei params.json mit einer Mixture-of-Experts-Struktur
  • Vergleich der Ankündigungsweise von Mistral und Google:

    • Mistrals Art, das Modell anzukündigen, steht im Kontrast zu Googles Gemini-Ankündigung
    • Mistral scheint auf Basis von Stanfords Megablocks trainiert worden zu sein
  • Mistrals Marketingstrategie:

    • Während andere Unternehmen auf Landingpages und Promo-Videos setzen, veröffentlicht Mistral das Modell einfach direkt
  • Von Mistral veröffentlichte Informationen:

    • Verwendet eine Mixture-of-Experts-Architektur
    • 8 Experten mit jeweils 7B Parametern
    • Insgesamt 96 GB an Gewichten, daher auf üblichen Home-GPUs nicht ausführbar