Qwen2.5-Coder-32B: leistungsstarkes Coding-LLM, das gut auf dem Mac läuft

(simonwillison.net)

7 Punkte von GN⁺ 2024-11-15 | 1 Kommentare | Auf WhatsApp teilen

Das Qwen-Forschungsteam von Alibaba hat Qwen2.5-Coder vorgestellt, eine Serie von Open-Source-LLMs (Apache-2.0-Lizenz)
Das Modell Qwen2.5-Coder-32B-Instruct soll laut eigener Aussage über Coding-Fähigkeiten auf GPT-4o-Niveau verfügen
Das 32B-Modell ist relativ kompakt und kann sogar auf einem MacBook Pro M2 mit 64 GB betrieben werden
In Benchmark-Tests erzielte es Werte, die GPT-4o und Claude 3.5 Sonnet ähneln oder diese übertreffen

Vergleich der Benchmark-Leistung

Das Modell Qwen2.5-Coder-32B-Instruct fiel in den folgenden Benchmarks besonders auf:
- Bei LiveCodeBench, Spider und BIRD-SQL schnitt es besser ab als GPT-4o und Claude 3.5 Sonnet
- Bei MBPP, Aider und CodeArena lag die Leistung leicht zurück
- Bei HumanEval und McEval zeigte es eine ähnliche Leistung

Leistung im Aider-Benchmark

Auch im Aider-Benchmark von Paul Gauthier zeigte das Modell gute Ergebnisse
- Im Benchmark „Whole edit“ erzielte Qwen2.5-Coder-32B-Instruct eine Leistung zwischen GPT-4o und 3.5 Haiku
- Punktvergleich:
  - 3.5 Sonnet: 84%
  - 3.5 Haiku: 75%
  - Qwen2.5-Coder 32B: 74%
  - GPT-4o: 71%
  - Qwen2.5-Coder 14B: 69%
  - Qwen2.5-Coder 7B: 58%
- Im Benchmark „Diff“ lag es gleichauf mit GPT-4o, aber leicht hinter Claude 3.5 Haiku

Test von Qwen2.5-Coder auf dem Mac

Der Nutzer versuchte, das Q8-Modell Qwen2.5-Coder-32B-Instruct-GGUF mit llm-gguf auszuführen, doch ohne GPU war es langsam
Die Versionen für Ollama und MLX funktionieren auf dem MacBook gut
Installation mit Ollama:
- Mit dem Befehl ollama pull qwen2.5-coder:32b wird eine 20 GB große quantisierte Datei heruntergeladen
- Bei der Bitte, eine Python-Funktion zu erzeugen, funktionierte es abgesehen von einem SSL-Problem erfolgreich
Verwendung von MLX:
- Mit dem MLX-Framework für Apple Silicon verbesserte sich die Leistung
- Code zur Erzeugung eines Mandelbrot-Fraktals wurde im Terminal ausgeführt und erfolgreich als ASCII-Art dargestellt
- Leistungskennzahlen:
  - Token-Erzeugungsgeschwindigkeit: 10.016 tokens/sec
  - Speichernutzung: maximal 32.685 GB

Zusätzlicher Test: Benchmark „Pelican on a bicycle“

Ausgeführt wurde die Anfrage llm -m qwen2.5-coder:32b 'Generate an SVG of a pelican riding a bicycle'
Das Ergebnis war ein SVG-Bild eines Pelikans und Fahrrads mit unklarer Form, aus Sicht der Nutzererfahrung aber interessant

Fazit und Nutzererfahrung

Eine Speichernutzung von 32 GB liegt auf dem Mac in einem praktikablen Bereich und ist auch ohne das Schließen anderer Anwendungen nutzbar
Bei Geschwindigkeit und Ergebnisqualität ist das Modell auf einem Niveau, das mit heutigen gehosteten Modellen konkurrieren kann
Da 80 % der LLM-Nutzung des Autors mit dem Schreiben von Code zusammenhängen, dürfte Qwen2.5-Coder eine sinnvolle Verbesserung sein

1 Kommentare

savvykang 2024-11-15

Das unterscheidet sich zwar etwas von typischen Coding-User-Szenarien, aber ich finde es faszinierend, wie Claude den JSON-Modus implementiert hat. Einige gehostete Modelle erzeugen, selbst wenn man sie zu JSON-Ausgabe anleitet, kommentiertes JavaScript oder Markdown-Text. Nach meiner Erfahrung mit einigen gehosteten Modellen war ich mit den Ergebnissen bei Managed Services zufriedener. Es scheint noch etwas zu geben, das sich mit gehosteten Modellen nicht umsetzen lässt.