DBRX – das neue Open-LLM auf SOTA-Niveau

(databricks.com)

16 Punkte von GN⁺ 2024-03-28 | 1 Kommentare | Auf WhatsApp teilen

Databricks hat mit DBRX ein neues offenes, universell einsetzbares LLM vorgestellt
Es erreicht auf Standard-Benchmarks ein neues Spitzenniveau und übertrifft bestehende offene LLMs. Damit bringt es Fähigkeiten in die Open-Source-Community und in Unternehmen, die zuvor auf geschlossene Modell-APIs beschränkt waren
- Es übertrifft GPT-3.5 und kann mit Gemini 1.0 Pro konkurrieren
- Auch bei Code übertrifft es spezialisierte Modelle wie CodeLLaMA-70B
DBRX zeigt deutliche Verbesserungen bei Trainings- und Inferenzleistung
- Es nutzt eine feingranulare Mixture-of-Experts-(MoE)-Architektur zur Effizienzsteigerung
- Die Inferenz ist bis zu 2-mal schneller als bei LLaMA2-70B, bei einer rund 40 % kleineren Größe als Grok-1

Architektur von DBRX

DBRX ist ein transformerbasiertes, reines Decoder-LLM, das mit Next-Token-Prediction trainiert wurde
Von insgesamt 132B Parametern sind 36B aktiv, vortrainiert auf 12T Tokens aus Text- und Code-Daten
DBRX ist feingranularer als andere offene MoE-Modelle, was sich als vorteilhaft für die Modellqualität erwiesen hat

Qualität in Benchmarks

DBRX Instruct ist ein führendes Modell bei zusammengesetzten Benchmarks sowie bei Benchmarks für Programmierung, Mathematik und MMLU
DBRX Instruct übertrifft auf Standard-Benchmarks alle Chat- oder instruktionstuned Modelle

Vergleich mit geschlossenen Modellen

DBRX Instruct übertrifft GPT-3.5 und ist gegenüber Gemini 1.0 Pro und Mistral Medium konkurrenzfähig
DBRX Instruct schlägt GPT-3.5 bei Allgemeinwissen, Common-Sense-Reasoning, Programmierung und mathematischem Schlussfolgern

Qualität bei Long-Context-Aufgaben und RAG

DBRX Instruct wurde mit einem Kontextfenster von bis zu 32K Tokens trainiert.
DBRX Instruct wurde bei Long-Context-Benchmarks mit den neuesten Versionen der GPT-3.5 Turbo- und GPT-4 Turbo-APIs verglichen.
DBRX Instruct zeigt bei allen Kontextlängen und in allen Teilen der Sequenz eine bessere Leistung als GPT-3.5 Turbo.

Trainingseffizienz

Die DBRX-MoE-Architektur und die gesamte Trainingspipeline belegen die Trainingseffizienz.
Die DBRX-MoE-Architektur erreicht hohe Qualität bei geringerem FLOP-Bedarf im Training.

Inferenz-Effizienz

DBRX zeigt auf optimierter Inferenz-Infrastruktur mit NVIDIA TensorRT-LLM einen hohen Inferenzdurchsatz.
MoE-Modelle sind im Verhältnis zur Gesamtzahl ihrer Parameter in der Regel schneller in der Inferenz.

So wurde DBRX gebaut

DBRX wurde mit NVIDIA H100 trainiert und mit den Tools von Databricks aufgebaut.
DBRX wurde in der Linie der MPT- und Dolly-Projekte von Databricks entwickelt und basiert auf der Erfahrung aus dem Training Tausender LLMs mit Kunden.

Einstieg in DBRX bei Databricks

Über die Databricks Mosaic AI Foundation Model API lässt sich DBRX einfach nutzen.
DBRX kann über den Databricks Marketplace heruntergeladen und für Model Serving bereitgestellt werden.

Fazit

Databricks ist überzeugt, dass jedes Unternehmen in der GenAI-Welt die Kontrolle über seine eigenen Daten und sein eigenes Schicksal haben sollte.
DBRX ist ein zentrales Element der nächsten GenAI-Produktgeneration von Databricks.

Beitragende

Die Entwicklung von DBRX wurde vom Mosaic-Team geleitet und in Zusammenarbeit mit verschiedenen Bereichen von Databricks abgeschlossen.

Meinung von GN⁺

DBRX ist ein neues Open-Source-Sprachmodell, das mit bestehenden GPT-Modellen konkurrieren kann und insbesondere bei Codegenerierung und Programmieraufgaben starke Leistung erwarten lässt.
Durch den Einsatz der MoE-Architektur scheint DBRX seine Effizienz bei Inferenzgeschwindigkeit und Modellgröße deutlich verbessert zu haben. Das könnte den Einsatz leistungsstarker Modelle auch in ressourcenbeschränkten Umgebungen ermöglichen.
Der Open-Source-Ansatz von DBRX gibt Forschenden und Entwicklerinnen und Entwicklern die Möglichkeit, das Modell frei zu erproben und weiterzuentwickeln. Das kann ein großer Beitrag für die AI-Community sein.
Die von DBRX bereitgestellte API und die Integrationswerkzeuge unterstützen Unternehmen dabei, eigene Sprachmodelle einfacher zu entwickeln und bereitzustellen. Das dürfte helfen, die Wettbewerbsfähigkeit durch den Einsatz von AI-Technologie zu stärken.
Die Veröffentlichung von DBRX könnte ein wichtiger Meilenstein für die Weiterentwicklung offener Sprachmodelle sein, und es wird spannend sein zu beobachten, wie sich das Modell künftig entwickelt und in verschiedenen Bereichen eingesetzt wird.

1 Kommentare

GN⁺ 2024-03-28

Hacker-News-Kommentare

Aktuell beachtenswerte Modelle:
- Miqu 70B: für allgemeine Konversation
- Deepseed 33B: zum Coden
- Yi 34B: für Konversationen mit mehr als 32K Kontext
- Es gibt auch Fine-Tuning-Versionen dieser Modelle
- Es gibt weitere Modelle im Bereich 34B-70B, aber die Qwen-Modelle sind nicht besonders beeindruckend
- Llama 70B, Mixtral und Grok sind zwar in den Charts sichtbar, gelten aber nur schwer als State of the Art (SOTA), wobei Mixtral bei der Geschwindigkeit mit Batch-Größe 1 herausragt
Modellkarte und Ressourcenanforderungen:
- Das Modell benötigt etwa 264GB RAM
- Neugier auf den Wendepunkt, an dem man statt der Parameterzahl die Gesamtsumme aus (GPU-RAM + CPU-RAM) und die Bewertungsmetriken verfolgt
- Zum Beispiel ist ein Modell mit 7B Parametern in float32 wahrscheinlich leistungsfähiger als dasselbe Parametermodell in float4
- Es gibt Fälle, in denen kürzlich veröffentlichte gute Modelle quantisiert werden, damit sie auf eine einzelne GPU passen, aber quantisierte Modelle unterscheiden sich vom Original und daher müssen die Metriken erneut ausgeführt werden
Konvergenz großer Sprachmodelle (LLM):
- Es gibt Hinweise darauf, dass alle LLMs, wenn sie mit denselben Daten trainiert werden, zu einem bestimmten Punkt konvergieren
- Behauptungen zur Aufgabenleistung sind letztlich nur Behauptungen; die nächste Llama- oder Mixtral-Iteration wird konvergieren
- LLMs scheinen sich ähnlich wie Linux/Windows oder iOS/Android weiterzuentwickeln, ohne große Unterschiede im Basismodell
Erwartungen an gemischte Quantisierung und MoE-Offloading:
- Mit Mixed Quantization with MQQ und MoE Offloading ließ sich Mistral 8x7B auf einer rtx3080 mit 10GB VRAM ausführen
- Diese Methode dürfte auch auf DBRX anwendbar sein und den VRAM-Bedarf stark senken
Geschäftlicher Nutzen für Databricks:
- Neugier darauf, welchen geschäftlichen Vorteil Databricks daraus zieht, Millionen Dollar in offene LLMs zu investieren
Chart-Vergleich und Bewertung:
- Den Human-Eval-Score von LLaMa2 in die Charts aufzunehmen und ihn nicht mit Code Llama Instruct 70b zu vergleichen, ist ein Chart-Verbrechen
- DBRX liegt nicht weit vor den 67.8 von Code Llama Instruct, ist aber trotzdem stark
Geplanter Kauf einer neuen GPU und VRAM-Anforderungen:
- Frage, ob eine GPU mit 16GB VRAM ein 70GB-Modell gut ausführen kann oder merklich besser als eine GPU mit 12GB VRAM
- Ollama läuft lokal gut, und mixtral (7B, 3.4GB) funktioniert auf einer 1080ti gut, aber die 24.6GB-Version ist etwas langsam und hat eine spürbare Startzeit
Unzufriedenheit mit der Freigabe des Basismodells:
- Die Freigabe für das Basismodell wirkt nicht besonders offen
- Während viele auf eine Download-Möglichkeit warten, wird das Instruct-Modell sofort freigegeben
- Das Basismodell ist für Fine-Tuning interessanter
Verbesserte Trainingseffizienz:
- Die Vortrainings-Pipeline für LLMs ist in den letzten 10 Monaten fast viermal recheneffizienter geworden
- Da die Trainingskosten sehr hoch sind, sind solche Verbesserungen willkommen und dürften dem Mooreschen Gesetz folgen
Möglichkeit einer Kontamination von Coding-Evaluierungen:
- Coding-Evaluierungen könnten durch die Trainingsdaten kontaminiert sein
- Frage nach einer Standardmethode, um eine solche Score-Inflation zu vermeiden

DBRX – das neue Open-LLM auf SOTA-Niveau

Architektur von DBRX

Qualität in Benchmarks

Vergleich mit geschlossenen Modellen

Qualität bei Long-Context-Aufgaben und RAG

Trainingseffizienz

Inferenz-Effizienz

So wurde DBRX gebaut

Einstieg in DBRX bei Databricks

Fazit

Beitragende

Meinung von GN⁺

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare