16 Punkte von GN⁺ 2024-03-28 | 1 Kommentare | Auf WhatsApp teilen
  • Databricks hat mit DBRX ein neues offenes, universell einsetzbares LLM vorgestellt
  • Es erreicht auf Standard-Benchmarks ein neues Spitzenniveau und übertrifft bestehende offene LLMs. Damit bringt es Fähigkeiten in die Open-Source-Community und in Unternehmen, die zuvor auf geschlossene Modell-APIs beschränkt waren
    • Es übertrifft GPT-3.5 und kann mit Gemini 1.0 Pro konkurrieren
    • Auch bei Code übertrifft es spezialisierte Modelle wie CodeLLaMA-70B
  • DBRX zeigt deutliche Verbesserungen bei Trainings- und Inferenzleistung
    • Es nutzt eine feingranulare Mixture-of-Experts-(MoE)-Architektur zur Effizienzsteigerung
    • Die Inferenz ist bis zu 2-mal schneller als bei LLaMA2-70B, bei einer rund 40 % kleineren Größe als Grok-1

Architektur von DBRX

  • DBRX ist ein transformerbasiertes, reines Decoder-LLM, das mit Next-Token-Prediction trainiert wurde
  • Von insgesamt 132B Parametern sind 36B aktiv, vortrainiert auf 12T Tokens aus Text- und Code-Daten
  • DBRX ist feingranularer als andere offene MoE-Modelle, was sich als vorteilhaft für die Modellqualität erwiesen hat

Qualität in Benchmarks

  • DBRX Instruct ist ein führendes Modell bei zusammengesetzten Benchmarks sowie bei Benchmarks für Programmierung, Mathematik und MMLU
  • DBRX Instruct übertrifft auf Standard-Benchmarks alle Chat- oder instruktionstuned Modelle

Vergleich mit geschlossenen Modellen

  • DBRX Instruct übertrifft GPT-3.5 und ist gegenüber Gemini 1.0 Pro und Mistral Medium konkurrenzfähig
  • DBRX Instruct schlägt GPT-3.5 bei Allgemeinwissen, Common-Sense-Reasoning, Programmierung und mathematischem Schlussfolgern

Qualität bei Long-Context-Aufgaben und RAG

  • DBRX Instruct wurde mit einem Kontextfenster von bis zu 32K Tokens trainiert.
  • DBRX Instruct wurde bei Long-Context-Benchmarks mit den neuesten Versionen der GPT-3.5 Turbo- und GPT-4 Turbo-APIs verglichen.
  • DBRX Instruct zeigt bei allen Kontextlängen und in allen Teilen der Sequenz eine bessere Leistung als GPT-3.5 Turbo.

Trainingseffizienz

  • Die DBRX-MoE-Architektur und die gesamte Trainingspipeline belegen die Trainingseffizienz.
  • Die DBRX-MoE-Architektur erreicht hohe Qualität bei geringerem FLOP-Bedarf im Training.

Inferenz-Effizienz

  • DBRX zeigt auf optimierter Inferenz-Infrastruktur mit NVIDIA TensorRT-LLM einen hohen Inferenzdurchsatz.
  • MoE-Modelle sind im Verhältnis zur Gesamtzahl ihrer Parameter in der Regel schneller in der Inferenz.

So wurde DBRX gebaut

  • DBRX wurde mit NVIDIA H100 trainiert und mit den Tools von Databricks aufgebaut.
  • DBRX wurde in der Linie der MPT- und Dolly-Projekte von Databricks entwickelt und basiert auf der Erfahrung aus dem Training Tausender LLMs mit Kunden.

Einstieg in DBRX bei Databricks

  • Über die Databricks Mosaic AI Foundation Model API lässt sich DBRX einfach nutzen.
  • DBRX kann über den Databricks Marketplace heruntergeladen und für Model Serving bereitgestellt werden.

Fazit

  • Databricks ist überzeugt, dass jedes Unternehmen in der GenAI-Welt die Kontrolle über seine eigenen Daten und sein eigenes Schicksal haben sollte.
  • DBRX ist ein zentrales Element der nächsten GenAI-Produktgeneration von Databricks.

Beitragende

  • Die Entwicklung von DBRX wurde vom Mosaic-Team geleitet und in Zusammenarbeit mit verschiedenen Bereichen von Databricks abgeschlossen.

Meinung von GN⁺

  • DBRX ist ein neues Open-Source-Sprachmodell, das mit bestehenden GPT-Modellen konkurrieren kann und insbesondere bei Codegenerierung und Programmieraufgaben starke Leistung erwarten lässt.
  • Durch den Einsatz der MoE-Architektur scheint DBRX seine Effizienz bei Inferenzgeschwindigkeit und Modellgröße deutlich verbessert zu haben. Das könnte den Einsatz leistungsstarker Modelle auch in ressourcenbeschränkten Umgebungen ermöglichen.
  • Der Open-Source-Ansatz von DBRX gibt Forschenden und Entwicklerinnen und Entwicklern die Möglichkeit, das Modell frei zu erproben und weiterzuentwickeln. Das kann ein großer Beitrag für die AI-Community sein.
  • Die von DBRX bereitgestellte API und die Integrationswerkzeuge unterstützen Unternehmen dabei, eigene Sprachmodelle einfacher zu entwickeln und bereitzustellen. Das dürfte helfen, die Wettbewerbsfähigkeit durch den Einsatz von AI-Technologie zu stärken.
  • Die Veröffentlichung von DBRX könnte ein wichtiger Meilenstein für die Weiterentwicklung offener Sprachmodelle sein, und es wird spannend sein zu beobachten, wie sich das Modell künftig entwickelt und in verschiedenen Bereichen eingesetzt wird.

1 Kommentare

 
GN⁺ 2024-03-28
Hacker-News-Kommentare
  • Aktuell beachtenswerte Modelle:

    • Miqu 70B: für allgemeine Konversation
    • Deepseed 33B: zum Coden
    • Yi 34B: für Konversationen mit mehr als 32K Kontext
    • Es gibt auch Fine-Tuning-Versionen dieser Modelle
    • Es gibt weitere Modelle im Bereich 34B-70B, aber die Qwen-Modelle sind nicht besonders beeindruckend
    • Llama 70B, Mixtral und Grok sind zwar in den Charts sichtbar, gelten aber nur schwer als State of the Art (SOTA), wobei Mixtral bei der Geschwindigkeit mit Batch-Größe 1 herausragt
  • Modellkarte und Ressourcenanforderungen:

    • Das Modell benötigt etwa 264GB RAM
    • Neugier auf den Wendepunkt, an dem man statt der Parameterzahl die Gesamtsumme aus (GPU-RAM + CPU-RAM) und die Bewertungsmetriken verfolgt
    • Zum Beispiel ist ein Modell mit 7B Parametern in float32 wahrscheinlich leistungsfähiger als dasselbe Parametermodell in float4
    • Es gibt Fälle, in denen kürzlich veröffentlichte gute Modelle quantisiert werden, damit sie auf eine einzelne GPU passen, aber quantisierte Modelle unterscheiden sich vom Original und daher müssen die Metriken erneut ausgeführt werden
  • Konvergenz großer Sprachmodelle (LLM):

    • Es gibt Hinweise darauf, dass alle LLMs, wenn sie mit denselben Daten trainiert werden, zu einem bestimmten Punkt konvergieren
    • Behauptungen zur Aufgabenleistung sind letztlich nur Behauptungen; die nächste Llama- oder Mixtral-Iteration wird konvergieren
    • LLMs scheinen sich ähnlich wie Linux/Windows oder iOS/Android weiterzuentwickeln, ohne große Unterschiede im Basismodell
  • Erwartungen an gemischte Quantisierung und MoE-Offloading:

    • Mit Mixed Quantization with MQQ und MoE Offloading ließ sich Mistral 8x7B auf einer rtx3080 mit 10GB VRAM ausführen
    • Diese Methode dürfte auch auf DBRX anwendbar sein und den VRAM-Bedarf stark senken
  • Geschäftlicher Nutzen für Databricks:

    • Neugier darauf, welchen geschäftlichen Vorteil Databricks daraus zieht, Millionen Dollar in offene LLMs zu investieren
  • Chart-Vergleich und Bewertung:

    • Den Human-Eval-Score von LLaMa2 in die Charts aufzunehmen und ihn nicht mit Code Llama Instruct 70b zu vergleichen, ist ein Chart-Verbrechen
    • DBRX liegt nicht weit vor den 67.8 von Code Llama Instruct, ist aber trotzdem stark
  • Geplanter Kauf einer neuen GPU und VRAM-Anforderungen:

    • Frage, ob eine GPU mit 16GB VRAM ein 70GB-Modell gut ausführen kann oder merklich besser als eine GPU mit 12GB VRAM
    • Ollama läuft lokal gut, und mixtral (7B, 3.4GB) funktioniert auf einer 1080ti gut, aber die 24.6GB-Version ist etwas langsam und hat eine spürbare Startzeit
  • Unzufriedenheit mit der Freigabe des Basismodells:

    • Die Freigabe für das Basismodell wirkt nicht besonders offen
    • Während viele auf eine Download-Möglichkeit warten, wird das Instruct-Modell sofort freigegeben
    • Das Basismodell ist für Fine-Tuning interessanter
  • Verbesserte Trainingseffizienz:

    • Die Vortrainings-Pipeline für LLMs ist in den letzten 10 Monaten fast viermal recheneffizienter geworden
    • Da die Trainingskosten sehr hoch sind, sind solche Verbesserungen willkommen und dürften dem Mooreschen Gesetz folgen
  • Möglichkeit einer Kontamination von Coding-Evaluierungen:

    • Coding-Evaluierungen könnten durch die Trainingsdaten kontaminiert sein
    • Frage nach einer Standardmethode, um eine solche Score-Inflation zu vermeiden