- Databricks hat mit DBRX ein neues offenes, universell einsetzbares LLM vorgestellt
- Es erreicht auf Standard-Benchmarks ein neues Spitzenniveau und übertrifft bestehende offene LLMs. Damit bringt es Fähigkeiten in die Open-Source-Community und in Unternehmen, die zuvor auf geschlossene Modell-APIs beschränkt waren
- Es übertrifft GPT-3.5 und kann mit Gemini 1.0 Pro konkurrieren
- Auch bei Code übertrifft es spezialisierte Modelle wie CodeLLaMA-70B
- DBRX zeigt deutliche Verbesserungen bei Trainings- und Inferenzleistung
- Es nutzt eine feingranulare Mixture-of-Experts-(MoE)-Architektur zur Effizienzsteigerung
- Die Inferenz ist bis zu 2-mal schneller als bei LLaMA2-70B, bei einer rund 40 % kleineren Größe als Grok-1
Architektur von DBRX
- DBRX ist ein transformerbasiertes, reines Decoder-LLM, das mit Next-Token-Prediction trainiert wurde
- Von insgesamt 132B Parametern sind 36B aktiv, vortrainiert auf 12T Tokens aus Text- und Code-Daten
- DBRX ist feingranularer als andere offene MoE-Modelle, was sich als vorteilhaft für die Modellqualität erwiesen hat
Qualität in Benchmarks
- DBRX Instruct ist ein führendes Modell bei zusammengesetzten Benchmarks sowie bei Benchmarks für Programmierung, Mathematik und MMLU
- DBRX Instruct übertrifft auf Standard-Benchmarks alle Chat- oder instruktionstuned Modelle
Vergleich mit geschlossenen Modellen
- DBRX Instruct übertrifft GPT-3.5 und ist gegenüber Gemini 1.0 Pro und Mistral Medium konkurrenzfähig
- DBRX Instruct schlägt GPT-3.5 bei Allgemeinwissen, Common-Sense-Reasoning, Programmierung und mathematischem Schlussfolgern
Qualität bei Long-Context-Aufgaben und RAG
- DBRX Instruct wurde mit einem Kontextfenster von bis zu 32K Tokens trainiert.
- DBRX Instruct wurde bei Long-Context-Benchmarks mit den neuesten Versionen der GPT-3.5 Turbo- und GPT-4 Turbo-APIs verglichen.
- DBRX Instruct zeigt bei allen Kontextlängen und in allen Teilen der Sequenz eine bessere Leistung als GPT-3.5 Turbo.
Trainingseffizienz
- Die DBRX-MoE-Architektur und die gesamte Trainingspipeline belegen die Trainingseffizienz.
- Die DBRX-MoE-Architektur erreicht hohe Qualität bei geringerem FLOP-Bedarf im Training.
Inferenz-Effizienz
- DBRX zeigt auf optimierter Inferenz-Infrastruktur mit NVIDIA TensorRT-LLM einen hohen Inferenzdurchsatz.
- MoE-Modelle sind im Verhältnis zur Gesamtzahl ihrer Parameter in der Regel schneller in der Inferenz.
So wurde DBRX gebaut
- DBRX wurde mit NVIDIA H100 trainiert und mit den Tools von Databricks aufgebaut.
- DBRX wurde in der Linie der MPT- und Dolly-Projekte von Databricks entwickelt und basiert auf der Erfahrung aus dem Training Tausender LLMs mit Kunden.
Einstieg in DBRX bei Databricks
- Über die Databricks Mosaic AI Foundation Model API lässt sich DBRX einfach nutzen.
- DBRX kann über den Databricks Marketplace heruntergeladen und für Model Serving bereitgestellt werden.
Fazit
- Databricks ist überzeugt, dass jedes Unternehmen in der GenAI-Welt die Kontrolle über seine eigenen Daten und sein eigenes Schicksal haben sollte.
- DBRX ist ein zentrales Element der nächsten GenAI-Produktgeneration von Databricks.
Beitragende
- Die Entwicklung von DBRX wurde vom Mosaic-Team geleitet und in Zusammenarbeit mit verschiedenen Bereichen von Databricks abgeschlossen.
Meinung von GN⁺
- DBRX ist ein neues Open-Source-Sprachmodell, das mit bestehenden GPT-Modellen konkurrieren kann und insbesondere bei Codegenerierung und Programmieraufgaben starke Leistung erwarten lässt.
- Durch den Einsatz der MoE-Architektur scheint DBRX seine Effizienz bei Inferenzgeschwindigkeit und Modellgröße deutlich verbessert zu haben. Das könnte den Einsatz leistungsstarker Modelle auch in ressourcenbeschränkten Umgebungen ermöglichen.
- Der Open-Source-Ansatz von DBRX gibt Forschenden und Entwicklerinnen und Entwicklern die Möglichkeit, das Modell frei zu erproben und weiterzuentwickeln. Das kann ein großer Beitrag für die AI-Community sein.
- Die von DBRX bereitgestellte API und die Integrationswerkzeuge unterstützen Unternehmen dabei, eigene Sprachmodelle einfacher zu entwickeln und bereitzustellen. Das dürfte helfen, die Wettbewerbsfähigkeit durch den Einsatz von AI-Technologie zu stärken.
- Die Veröffentlichung von DBRX könnte ein wichtiger Meilenstein für die Weiterentwicklung offener Sprachmodelle sein, und es wird spannend sein zu beobachten, wie sich das Modell künftig entwickelt und in verschiedenen Bereichen eingesetzt wird.
1 Kommentare
Hacker-News-Kommentare
Aktuell beachtenswerte Modelle:
Modellkarte und Ressourcenanforderungen:
Konvergenz großer Sprachmodelle (LLM):
Erwartungen an gemischte Quantisierung und MoE-Offloading:
Geschäftlicher Nutzen für Databricks:
Chart-Vergleich und Bewertung:
Geplanter Kauf einer neuen GPU und VRAM-Anforderungen:
Unzufriedenheit mit der Freigabe des Basismodells:
Verbesserte Trainingseffizienz:
Möglichkeit einer Kontamination von Coding-Evaluierungen: