Qwen1.5-110B: Das erste 100B+-Modell der Open-Source-LLM-Serie Qwen1.5 von Alibaba
(qwenlm.github.io)- In der Open-Source-Community erscheinen derzeit in rascher Folge große Modelle mit mehr als 100 Milliarden Parametern, die bei Benchmark-Evaluierungen und im Chatbot-Bereich bemerkenswerte Leistungen zeigen
- Auch Alibaba hat mit Qwen1.5-110B das erste 100B+-Modell der Qwen1.5-Serie vorgestellt
- In Bewertungen des Basismodells erreicht es eine Leistung auf dem Niveau von Meta-Llama3-70B und zeigt hervorragende Ergebnisse in Chat-Evaluierungen einschließlich MT-Bench und AlpacaEval 2.0
Merkmale des Modells Qwen1.5-110B
- Qwen1.5-110B ähnelt den anderen Qwen1.5-Modellen und basiert auf derselben Transformer-Decoder-Architektur
- Es ist mit Grouped Query Attention (GQA) aufgebaut und dadurch effizient für das Model Serving
- Es unterstützt eine Kontextlänge von 32K Token und ist ein mehrsprachiges Modell mit Unterstützung für zahlreiche Sprachen wie Englisch, Chinesisch, Französisch, Spanisch, Deutsch, Russisch, Koreanisch, Japanisch, Vietnamesisch und Arabisch
Ergebnisse der Bewertung des Basissprachmodells
- Eine Reihe von Evaluierungen des Basissprachmodells wurde im Vergleich mit den jüngsten SOTA-Sprachmodellen Meta-Llama3-70B und Mixtral-8x22B durchgeführt
- Den Ergebnissen zufolge ist das neue 110B-Modell in seinen grundlegenden Fähigkeiten mindestens konkurrenzfähig zum Modell Llama-3-70B
- Da bei diesem Modell die Rezepte für Pre-Training und Post-Training nicht drastisch verändert wurden, scheint der Leistungsgewinn gegenüber 72B auf die Vergrößerung des Modells zurückzugehen
Ergebnisse der Bewertung des Chatmodells
- Das Chatmodell wurde mit MT-Bench und AlpacaEval 2.0 getestet
- Gegenüber dem zuvor veröffentlichten 72B-Modell zeigt 110B in beiden Benchmark-Bewertungen deutlich bessere Leistungen
- Die durchgängigen Verbesserungen in den Evaluierungen deuten darauf hin, dass ein stärkeres und größeres Basissprachmodell auch ohne größere Änderungen am Post-Training-Rezept zu einem besseren Chatmodell führen kann
Entwicklung mit Qwen1.5-110B
- Um die Nutzung mit Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl und LLaMA-Factory zu verstehen, wird empfohlen, den Qwen1.5-Blog zu lesen
Fazit
- Qwen1.5-110B ist das größte Modell der Qwen1.5-Serie und das erste Modell der Reihe mit mehr als 100 Milliarden Parametern
- Es zeigt konkurrenzfähige Leistung gegenüber dem kürzlich veröffentlichten SOTA-Modell Llama-3-70B und ist dem 72B-Modell deutlich überlegen
- Das deutet darauf hin, dass in der Skalierung der Modellgröße weiterhin viel Potenzial für bessere Leistung steckt
- Die Veröffentlichung von Llama-3 zeigt zwar, wie wichtig eine extreme Skalierung von Daten ist, doch es wird angenommen, dass sich in künftigen Veröffentlichungen durch die gleichzeitige Skalierung von Daten und Modellgröße die Vorteile beider Ansätze vereinen lassen
1 Kommentare
Alibaba stellt das Open-Source-AI-Modell QWEN vor