- Das Qwen-Forschungsteam von Alibaba hat Qwen2.5-Coder vorgestellt, eine Serie von Open-Source-LLMs (Apache-2.0-Lizenz)
- Das Modell Qwen2.5-Coder-32B-Instruct soll laut eigener Aussage über Coding-Fähigkeiten auf GPT-4o-Niveau verfügen
- Das 32B-Modell ist relativ kompakt und kann sogar auf einem MacBook Pro M2 mit 64 GB betrieben werden
- In Benchmark-Tests erzielte es Werte, die GPT-4o und Claude 3.5 Sonnet ähneln oder diese übertreffen
Vergleich der Benchmark-Leistung
- Das Modell Qwen2.5-Coder-32B-Instruct fiel in den folgenden Benchmarks besonders auf:
- Bei LiveCodeBench, Spider und BIRD-SQL schnitt es besser ab als GPT-4o und Claude 3.5 Sonnet
- Bei MBPP, Aider und CodeArena lag die Leistung leicht zurück
- Bei HumanEval und McEval zeigte es eine ähnliche Leistung
Leistung im Aider-Benchmark
- Auch im Aider-Benchmark von Paul Gauthier zeigte das Modell gute Ergebnisse
- Im Benchmark „Whole edit“ erzielte Qwen2.5-Coder-32B-Instruct eine Leistung zwischen GPT-4o und 3.5 Haiku
- Punktvergleich:
- 3.5 Sonnet: 84%
- 3.5 Haiku: 75%
- Qwen2.5-Coder 32B: 74%
- GPT-4o: 71%
- Qwen2.5-Coder 14B: 69%
- Qwen2.5-Coder 7B: 58%
- Im Benchmark „Diff“ lag es gleichauf mit GPT-4o, aber leicht hinter Claude 3.5 Haiku
Test von Qwen2.5-Coder auf dem Mac
- Der Nutzer versuchte, das Q8-Modell Qwen2.5-Coder-32B-Instruct-GGUF mit llm-gguf auszuführen, doch ohne GPU war es langsam
- Die Versionen für Ollama und MLX funktionieren auf dem MacBook gut
- Installation mit Ollama:
- Mit dem Befehl
ollama pull qwen2.5-coder:32b wird eine 20 GB große quantisierte Datei heruntergeladen
- Bei der Bitte, eine Python-Funktion zu erzeugen, funktionierte es abgesehen von einem SSL-Problem erfolgreich
- Verwendung von MLX:
- Mit dem MLX-Framework für Apple Silicon verbesserte sich die Leistung
- Code zur Erzeugung eines Mandelbrot-Fraktals wurde im Terminal ausgeführt und erfolgreich als ASCII-Art dargestellt
- Leistungskennzahlen:
- Token-Erzeugungsgeschwindigkeit: 10.016 tokens/sec
- Speichernutzung: maximal 32.685 GB
Zusätzlicher Test: Benchmark „Pelican on a bicycle“
- Ausgeführt wurde die Anfrage
llm -m qwen2.5-coder:32b 'Generate an SVG of a pelican riding a bicycle'
- Das Ergebnis war ein SVG-Bild eines Pelikans und Fahrrads mit unklarer Form, aus Sicht der Nutzererfahrung aber interessant
Fazit und Nutzererfahrung
- Eine Speichernutzung von 32 GB liegt auf dem Mac in einem praktikablen Bereich und ist auch ohne das Schließen anderer Anwendungen nutzbar
- Bei Geschwindigkeit und Ergebnisqualität ist das Modell auf einem Niveau, das mit heutigen gehosteten Modellen konkurrieren kann
- Da 80 % der LLM-Nutzung des Autors mit dem Schreiben von Code zusammenhängen, dürfte Qwen2.5-Coder eine sinnvolle Verbesserung sein
1 Kommentare
Das unterscheidet sich zwar etwas von typischen Coding-User-Szenarien, aber ich finde es faszinierend, wie Claude den JSON-Modus implementiert hat. Einige gehostete Modelle erzeugen, selbst wenn man sie zu JSON-Ausgabe anleitet, kommentiertes JavaScript oder Markdown-Text. Nach meiner Erfahrung mit einigen gehosteten Modellen war ich mit den Ergebnissen bei Managed Services zufriedener. Es scheint noch etwas zu geben, das sich mit gehosteten Modellen nicht umsetzen lässt.