Qwen1.5-110B: Das erste 100B+-Modell der Open-Source-LLM-Serie Qwen1.5 von Alibaba

xguru · 2024-04-28T09:30:03+09:00

In der Open-Source-Community erscheinen derzeit in rascher Folge große Modelle mit mehr als 100 Milliarden Parametern, die bei Benchmark-Evaluierungen und im Chatbot-Bereich bemerkenswerte Leistungen zeigen Auch Alibaba hat mit Qwen1.5-110B das erste 100B+-Modell der Qwen1.5-Serie vorgestellt In Bewertungen des Basismodells erreicht es eine Leistung auf dem Niveau von Meta-Llama3-70B und zeigt hervorragende Ergebnisse in Chat-Evaluierungen einschließlich MT-Bench und AlpacaEval 2.0 Merkmale des Modells Qwen1.5-110B Qwen1.5-110B ähnelt den anderen Qwen1.5-Modellen und basiert auf derselben Transformer-Decoder-Architektur Es ist mit Grouped Query Attention (GQA) aufgebaut und dadurch effizient für das Model Serving Es unterstützt eine Kontextlänge von 32K Token und ist ein mehrsprachiges Modell mit Unterstützung für zahlreiche Sprachen wie Englisch, Chinesisch, Französisch, Spanisch, Deutsch, Russisch, Koreanisch, Japanisch, Vietnamesisch und Arabisch Ergebnisse der Bewertung des Basissprachmodells Eine Reihe von Evaluierungen des Basissprachmodells wurde im Vergleich mit den jüngsten SOTA-Sprachmodellen Meta-Llama3-70B und Mixtral-8x22B durchgeführt Den Ergebnissen zufolge ist das neue 110B-Modell in seinen grundlegenden Fähigkeiten mindestens konkurrenzfähig zum Modell Llama-3-70B Da bei diesem Modell die Rezepte für Pre-Training und Post-Training nicht drastisch verändert wurden, scheint der Leistungsgewinn gegenüber 72B auf die Vergrößerung des Modells zurückzugehen Ergebnisse der Bewertung des Chatmodells Das Chatmodell wurde mit MT-Bench und AlpacaEval 2.0 getestet Gegenüber dem zuvor veröffentlichten 72B-Modell zeigt 110B in beiden Benchmark-Bewertungen deutlich bessere Leistungen Die durchgängigen Verbesserungen in den Evaluierungen deuten darauf hin, dass ein stärkeres und größeres Basissprachmodell auch ohne größere Änderungen am Post-Training-Rezept zu einem besseren Chatmodell führen kann Entwicklung mit Qwen1.5-110B Um die Nutzung mit Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl und LLaMA-Factory zu verstehen, wird empfohlen, den Qwen1.5-Blog zu lesen Fazit Qwen1.5-110B ist das größte Modell der Qwen1.5-Serie und das erste Modell der Reihe mit mehr als 100 Milliarden Parametern Es zeigt konkurrenzfähige Leistung gegenüber dem kürzlich veröffentlichten SOTA-Modell Llama-3-70B und ist dem 72B-Modell deutlich überlegen Das deutet darauf hin, dass in der Skalierung der Modellgröße weiterhin viel Potenzial für bessere Leistung steckt Die Veröffentlichung von Llama-3 zeigt zwar, wie wichtig eine extreme Skalierung von Daten ist, doch es wird angenommen, dass sich in künftigen Veröffentlichungen durch die gleichzeitige Skalierung von Daten und Modellgröße die Vorteile beider Ansätze vereinen lassen

(qwenlm.github.io)

5 Punkte von xguru 2024-04-28 | 1 Kommentare | Auf WhatsApp teilen

In der Open-Source-Community erscheinen derzeit in rascher Folge große Modelle mit mehr als 100 Milliarden Parametern, die bei Benchmark-Evaluierungen und im Chatbot-Bereich bemerkenswerte Leistungen zeigen
Auch Alibaba hat mit Qwen1.5-110B das erste 100B+-Modell der Qwen1.5-Serie vorgestellt
In Bewertungen des Basismodells erreicht es eine Leistung auf dem Niveau von Meta-Llama3-70B und zeigt hervorragende Ergebnisse in Chat-Evaluierungen einschließlich MT-Bench und AlpacaEval 2.0

Merkmale des Modells Qwen1.5-110B

Qwen1.5-110B ähnelt den anderen Qwen1.5-Modellen und basiert auf derselben Transformer-Decoder-Architektur
Es ist mit Grouped Query Attention (GQA) aufgebaut und dadurch effizient für das Model Serving
Es unterstützt eine Kontextlänge von 32K Token und ist ein mehrsprachiges Modell mit Unterstützung für zahlreiche Sprachen wie Englisch, Chinesisch, Französisch, Spanisch, Deutsch, Russisch, Koreanisch, Japanisch, Vietnamesisch und Arabisch

Ergebnisse der Bewertung des Basissprachmodells

Eine Reihe von Evaluierungen des Basissprachmodells wurde im Vergleich mit den jüngsten SOTA-Sprachmodellen Meta-Llama3-70B und Mixtral-8x22B durchgeführt
Den Ergebnissen zufolge ist das neue 110B-Modell in seinen grundlegenden Fähigkeiten mindestens konkurrenzfähig zum Modell Llama-3-70B
Da bei diesem Modell die Rezepte für Pre-Training und Post-Training nicht drastisch verändert wurden, scheint der Leistungsgewinn gegenüber 72B auf die Vergrößerung des Modells zurückzugehen

Ergebnisse der Bewertung des Chatmodells

Das Chatmodell wurde mit MT-Bench und AlpacaEval 2.0 getestet
Gegenüber dem zuvor veröffentlichten 72B-Modell zeigt 110B in beiden Benchmark-Bewertungen deutlich bessere Leistungen
Die durchgängigen Verbesserungen in den Evaluierungen deuten darauf hin, dass ein stärkeres und größeres Basissprachmodell auch ohne größere Änderungen am Post-Training-Rezept zu einem besseren Chatmodell führen kann

Entwicklung mit Qwen1.5-110B

Um die Nutzung mit Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl und LLaMA-Factory zu verstehen, wird empfohlen, den Qwen1.5-Blog zu lesen

Fazit

Qwen1.5-110B ist das größte Modell der Qwen1.5-Serie und das erste Modell der Reihe mit mehr als 100 Milliarden Parametern
Es zeigt konkurrenzfähige Leistung gegenüber dem kürzlich veröffentlichten SOTA-Modell Llama-3-70B und ist dem 72B-Modell deutlich überlegen
Das deutet darauf hin, dass in der Skalierung der Modellgröße weiterhin viel Potenzial für bessere Leistung steckt
Die Veröffentlichung von Llama-3 zeigt zwar, wie wichtig eine extreme Skalierung von Daten ist, doch es wird angenommen, dass sich in künftigen Veröffentlichungen durch die gleichzeitige Skalierung von Daten und Modellgröße die Vorteile beider Ansätze vereinen lassen

1 Kommentare

xguru 2024-04-28

Alibaba stellt das Open-Source-AI-Modell QWEN vor