Qwen2.5 – mehrere Foundation-Modelle veröffentlicht
(qwenlm.github.io)- Qwen2.5 umfasst spezialisierte Modelle wie das LLM Qwen2.5, das Coding-Modell Qwen2.5-Coder und das Mathematik-Modell Qwen2.5-Math
- Alle Open-Weight-Modelle sind dense decoder-only Sprachmodelle und werden in verschiedenen Größen von 0.5B bis 72B angeboten
- Alle Open-Source-Modelle außer den 3B- und 72B-Modellen werden unter der Apache-2.0-Lizenz bereitgestellt
- Die Flaggschiff-Sprachmodelle Qwen-Plus und Qwen-Turbo werden über Model Studio per API angeboten
- Auch Qwen2-VL-72B wurde als Open Source veröffentlicht und bietet eine verbesserte Leistung gegenüber der Version vom letzten Monat
Merkmale von Qwen2.5
- Mit einem groß angelegten Datensatz von bis zu 18 Billionen Tokens vortrainiert, wodurch das Wissen im Vergleich zu Qwen2 deutlich gewachsen ist (MMLU: 85+)
- Auch die Fähigkeiten in Coding (HumanEval 85+) und Mathematik (MATH 80+) wurden deutlich verbessert
- Die Fähigkeit zum Befolgen von Anweisungen, zur Erzeugung langer Texte (mehr als 8K Tokens), zum Verstehen strukturierter Daten (z. B. Tabellen) sowie zur Erzeugung strukturierter Ausgaben wie JSON wurde stark verbessert
- Widerstandsfähiger gegenüber unterschiedlichen System-Prompts, wodurch Rollenverhalten und Bedingungssetzung bei Chatbots einfacher werden
- Wie bei Qwen2 unterstützen die Qwen2.5-Sprachmodelle bis zu 128K Tokens und können bis zu 8K Tokens erzeugen
- Unterstützt mehr als 29 Sprachen, darunter Chinesisch, Englisch, Französisch, Spanisch, Portugiesisch, Deutsch, Italienisch, Russisch, Japanisch, Koreanisch, Vietnamesisch, Thai und Arabisch
Leistung
Qwen2.5
- Verglichen wird die Leistung des größten Open-Source-Modells Qwen2.5-72B (dense decoder-only Sprachmodell mit 72B Parametern) mit wichtigen Open-Source-Modellen wie Llama-3.1-70B und Mistral-Large-V2
- Auf verschiedenen Benchmarks werden umfassende Ergebnisse der instruction-tuned Versionen präsentiert, wobei sowohl Modellfähigkeiten als auch menschliche Präferenzen bewertet werden
- Neben den instruction-tuned Sprachmodellen zeigt auch das Base-Sprachmodell von Qwen2.5-72B Spitzenleistung, selbst im Vergleich mit größeren Modellen wie Llama-3-405B
- Die neueste Version des API-basierten Modells Qwen-Plus wird mit bekannten proprietären und Open-Source-Modellen wie GPT4-o, Claude-3.5-Sonnet, Llama-3.1-405B und DeepSeek-V2.5 verglichen
- Qwen-Plus übertrifft DeepSeek-V2.5 deutlich und liefert eine mit Llama-3.1-405B vergleichbare Leistung, erreicht in manchen Aspekten jedoch nicht GPT4-o und Claude-3.5-Sonnet
- Qwen2.5-14B und Qwen2.5-32B werden erneut eingeführt. Diese Modelle übertreffen Referenzmodelle ähnlicher oder größerer Größe wie Phi-3.5-MoE-Instruct und Gemma2-27B-IT
- Das API-basierte Modell Qwen-Turbo bietet schnellen Service zu einem vernünftigen Preis und zeigt im Vergleich zu den beiden Open-Source-Modellen eine sehr wettbewerbsfähige Leistung
- Qwen2.5-3B liefert mit rund 3 Milliarden Parametern eine sehr beeindruckende Leistung und übertrifft die vorherige Version bei Effizienz und Fähigkeiten
- Neben Verbesserungen bei Benchmark-Auswertungen wurde auch die Methodik des Post-Trainings verbessert. Die vier wichtigsten Updates sind Unterstützung für die Erzeugung langer Texte bis zu 8K Tokens, deutlich besseres Verständnis strukturierter Daten, zuverlässigere Erzeugung strukturierter Ausgaben wie JSON sowie verbesserte Leistung mit verschiedenen System-Prompts, was bei der Rollenübernahme hilft
Qwen2.5-Coder
- Seit der Einführung von CodeQwen1.5 verlassen sich viele Nutzer bei verschiedenen Coding-Aufgaben wie Debugging, der Beantwortung codingbezogener Fragen und Code-Vorschlägen auf dieses Modell
- Die neueste Version, Qwen2.5-Coder, wurde speziell für Coding-Anwendungen entwickelt
- Trotz seiner geringen Größe zeigt es herausragende Coding-Fähigkeiten und übertrifft bei verschiedenen Programmiersprachen und Aufgaben größere Sprachmodelle
Qwen2.5-Math
- Im vergangenen Monat wurde mit Qwen2-Math erstmals ein spezialisiertes Sprachmodell für Mathematik veröffentlicht. Im Vergleich dazu wurde Qwen2.5-Math mit einem deutlich größeren mathematikbezogenen Datensatz vortrainiert, einschließlich synthetischer Daten, die von Qwen2-Math erzeugt wurden
- Diesmal wurde die Unterstützung für Chinesisch erweitert und die Fähigkeiten für CoT, PoT und TIR hinzugefügt, wodurch auch das Schlussfolgern verbessert wurde
- Die allgemeine Leistung von Qwen2.5-Math-72B-Instruct übertrifft Qwen2-Math-72B-Instruct und GPT4-o, und selbst sehr kleine Expertenmodelle wie Qwen2.5-Math-1.5B-Instruct können im Vergleich zu großen Sprachmodellen eine sehr wettbewerbsfähige Leistung erzielen
Entwicklung mit Qwen2.5
- Um Qwen2.5 mit vLLM zu verwenden, kann mit folgendem Befehl ein OpenAI-API-kompatibler Dienst bereitgestellt werden:
- Qwen2.5 unterstützt das integrierte tool calling von vllm. Diese Funktion erfordert
vllm>=0.6 - Qwen2.5 unterstützt außerdem tool calling von Ollama
- Auch die Unterstützung für tool calling in transformers von Hugging Face ist verfügbar
- Zuvor unterstützte Qwen-Agent tool calling mit der eigenen tool-calling-Vorlage von Qwen2, und Qwen2.5 bleibt sowohl mit der Qwen2-Vorlage als auch mit Qwen-Agent kompatibel
Was ist als Nächstes geplant?
- Das Team freut sich, gleichzeitig viele hochwertige Modelle veröffentlicht zu haben, ist sich aber bewusst, dass weiterhin große Herausforderungen bestehen
- Die jüngsten Veröffentlichungen zeigen die Bemühungen, starke Foundation-Modelle in den Bereichen Sprache, Vision-Language und Audio-Language zu entwickeln
- Es ist jedoch wichtig, diese verschiedenen Modalitäten in einem einzigen Modell zu vereinen, damit Informationen in allen Bereichen nahtlos verarbeitet werden können
- Durch Data Scaling wurde die Fähigkeit zum Schlussfolgern verbessert, und inspiriert von jüngsten Fortschritten im Reinforcement Learning arbeitet das Team nun daran, auch inference compute zu skalieren, um die Schlussfolgerungsfähigkeit der Modelle weiter zu steigern
1 Kommentare
Alibaba veröffentlicht das Open-Source-AI-Modell QWEN
Alibaba veröffentlicht das Modell Qwen 2