1 Punkte von GN⁺ 2024-01-10 | 1 Kommentare | Auf WhatsApp teilen

Einführung in Mixtral of Experts

  • Mixtral 8x7B ist ein Sprachmodell mit Sparse Mixture of Experts (SMoE).
  • Mixtral hat dieselbe Architektur wie Mistral 7B, jedoch besteht jede Schicht aus 8 Feedforward-Blöcken (Experten).
  • Für jedes Token wählt ein Router-Netzwerk zwei Experten aus, die den aktuellen Zustand verarbeiten, und kombiniert deren Ausgaben.

Leistung und Benchmarks

  • Jedes Token kann auf 47B Parameter zugreifen, aber während der Inferenz werden nur 13B aktive Parameter verwendet.
  • Mixtral wurde mit einer Kontextgröße von 32k Token trainiert und erreicht oder übertrifft in allen evaluierten Benchmarks Llama 2 70B und GPT-3.5.
  • Besonders bei Mathematik, Code-Generierung und mehrsprachigen Benchmarks übertrifft es Llama 2 70B deutlich.

Fine-Tuning und Lizenz des Modells

  • Das für das Befolgen von Anweisungen feinabgestimmte Modell Mixtral 8x7B - Instruct übertrifft in menschlichen Benchmarks GPT-3.5 Turbo, Claude-2.1, Gemini Pro und das Chat-Modell Llama 2 70B.
  • Sowohl das Basismodell als auch das Instruct-Modell werden unter der Apache-2.0-Lizenz veröffentlicht.

Meinung von GN⁺

  • Mixtral 8x7B wird im Vergleich zu bestehenden Sprachmodellen als besonders leistungsstark bewertet. Das ist ein wichtiger Indikator für den Fortschritt im Bereich der KI-Sprachverarbeitung.
  • Insbesondere die Leistungssteigerung bei verschiedenen Sprachen und bei der Code-Generierung kann sich positiv auf zahlreiche Anwendungsfelder wie maschinelle Übersetzung und automatisches Programmieren auswirken.
  • Die Veröffentlichung unter der Apache-2.0-Lizenz bietet Forschenden und Entwickelnden die Möglichkeit, dieses Modell frei zu nutzen und zu verbessern, und dürfte so zum Wachstum der Open-Source-KI-Community beitragen.

1 Kommentare

 
GN⁺ 2024-01-10
Hacker-News-Kommentare
  • Diskussion über das Mixtral-8x7B-Modell

    • Das Mixtral-8x7B-Modell wird seit etwa einem Monat genutzt und zeigt bei einer Größe von 13B eine sehr starke Leistung.
    • Es belegt im Vergleich zu konkurrierenden Modellen hohe Plätze und ist im alltäglichen Einsatz auf dem Mac für Chats, Code-Eingaben und Ähnliches sehr nützlich.
    • Es wird vermutet, dass sich die acht Experten, die von Mistral 7B ausgingen, jeweils in unterschiedliche Richtungen entwickelt haben.
    • Im Fall von Mistral scheint das Training des 8x7B-Netzwerks nicht so viel Aufwand erfordert zu haben wie das Training von acht einzelnen 7B-Netzwerken.
    • Im LLM-Bereich findet weiterhin schnelle Innovation statt; neue Forschung wie Calm und experimentelle Modelle wie Goliath-120b erscheinen.
    • Es wird erwartet, dass in der ersten Hälfte des Jahres 2024 leistungsstarke Modelle für Consumer-Hardware erscheinen.
  • Leistung und Nutzbarkeit des Modells

    • Das Modell läuft mit 13b Parametern auf einer 3090 flüssig in hoher Qualität, übertrifft GPT-3.5 bei humaneval und unterstützt einen 32k-Kontext.
    • Die 3090 ist Consumer-Hardware, die unter Gamern weit verbreitet ist.
    • Es wird erwartet, dass Game-Entwickler Mixtral bald in Spielen einsetzen werden.
  • Verwendung des Modells

    • Das Mixtral-Modell wurde von Mozilla/jart als Llamafile veröffentlicht, und Nutzer können die Datei herunterladen und ausführen.
  • Nutzung auf Mac Silicon

    • Nutzer von Mac Silicon können Mixtral über ollama.ai herunterladen und mit ollama-webui eine Web-UI aufbauen.
  • Verwandte Nachrichten und Diskussionen

    • Es werden aktuelle News- und Diskussionslinks zum Mixtral-Modell bereitgestellt.
  • Benchmark-Leistung des Modells

    • Mixtral liegt in Benchmarks für Mathematik, Code-Generierung und Mehrsprachigkeit deutlich vor dem Llama-2-70B-Modell.
    • Es gibt Interesse an seiner Leistung im Bereich Mathematik, der bislang offenbar noch nicht effektiv gelöst ist.
  • Kritische Anmerkungen zum Paper

    • Es gibt Kritik, dass Paper zu LLMs zu wenig Details enthalten.
    • Es wird darauf hingewiesen, dass Erklärungen dazu fehlen, wie die Experten trainiert wurden und welche Datensätze verwendet wurden.
  • Inhalte aus einem Interview mit dem Mistral-Gründer

    • Ein Mistral-Gründer erwähnte im A16Z-Podcast-Interview, dass intern mehrere Modelle zwischen dem Niveau von chatGPT und GPT4 existieren.
    • Angesichts der bisher hochwertigen Releases wird Zuversicht gegenüber Open-Source-LLMs geäußert.
  • Erläuterung der einzelnen Expertenmodelle

    • Im Paper wird nicht erklärt, ob eines der acht Modelle auf mehrsprachige Übersetzung spezialisiert ist und ein anderes auf Coding.
  • Erwartungen an die Veröffentlichung multimodaler Modelle

    • Die Fortschritte reiner Textmodelle waren überraschend, zugleich gibt es die Frage, ob das „emergente“ Verhalten von GPT-4 auf multimodales Training zurückzuführen ist.
    • Es besteht Interesse daran, ob kleinere Modelle mit Multimodalität einen ähnlichen Sprung zeigen werden.