7 Punkte von GN⁺ 2024-11-15 | 1 Kommentare | Auf WhatsApp teilen
  • Das Qwen-Forschungsteam von Alibaba hat Qwen2.5-Coder vorgestellt, eine Serie von Open-Source-LLMs (Apache-2.0-Lizenz)
  • Das Modell Qwen2.5-Coder-32B-Instruct soll laut eigener Aussage über Coding-Fähigkeiten auf GPT-4o-Niveau verfügen
  • Das 32B-Modell ist relativ kompakt und kann sogar auf einem MacBook Pro M2 mit 64 GB betrieben werden
  • In Benchmark-Tests erzielte es Werte, die GPT-4o und Claude 3.5 Sonnet ähneln oder diese übertreffen

Vergleich der Benchmark-Leistung

  • Das Modell Qwen2.5-Coder-32B-Instruct fiel in den folgenden Benchmarks besonders auf:
    • Bei LiveCodeBench, Spider und BIRD-SQL schnitt es besser ab als GPT-4o und Claude 3.5 Sonnet
    • Bei MBPP, Aider und CodeArena lag die Leistung leicht zurück
    • Bei HumanEval und McEval zeigte es eine ähnliche Leistung

Leistung im Aider-Benchmark

  • Auch im Aider-Benchmark von Paul Gauthier zeigte das Modell gute Ergebnisse
    • Im Benchmark „Whole edit“ erzielte Qwen2.5-Coder-32B-Instruct eine Leistung zwischen GPT-4o und 3.5 Haiku
    • Punktvergleich:
      • 3.5 Sonnet: 84%
      • 3.5 Haiku: 75%
      • Qwen2.5-Coder 32B: 74%
      • GPT-4o: 71%
      • Qwen2.5-Coder 14B: 69%
      • Qwen2.5-Coder 7B: 58%
    • Im Benchmark „Diff“ lag es gleichauf mit GPT-4o, aber leicht hinter Claude 3.5 Haiku

Test von Qwen2.5-Coder auf dem Mac

  • Der Nutzer versuchte, das Q8-Modell Qwen2.5-Coder-32B-Instruct-GGUF mit llm-gguf auszuführen, doch ohne GPU war es langsam
  • Die Versionen für Ollama und MLX funktionieren auf dem MacBook gut
  • Installation mit Ollama:
    • Mit dem Befehl ollama pull qwen2.5-coder:32b wird eine 20 GB große quantisierte Datei heruntergeladen
    • Bei der Bitte, eine Python-Funktion zu erzeugen, funktionierte es abgesehen von einem SSL-Problem erfolgreich
  • Verwendung von MLX:
    • Mit dem MLX-Framework für Apple Silicon verbesserte sich die Leistung
    • Code zur Erzeugung eines Mandelbrot-Fraktals wurde im Terminal ausgeführt und erfolgreich als ASCII-Art dargestellt
    • Leistungskennzahlen:
      • Token-Erzeugungsgeschwindigkeit: 10.016 tokens/sec
      • Speichernutzung: maximal 32.685 GB

Zusätzlicher Test: Benchmark „Pelican on a bicycle“

  • Ausgeführt wurde die Anfrage llm -m qwen2.5-coder:32b 'Generate an SVG of a pelican riding a bicycle'
  • Das Ergebnis war ein SVG-Bild eines Pelikans und Fahrrads mit unklarer Form, aus Sicht der Nutzererfahrung aber interessant

Fazit und Nutzererfahrung

  • Eine Speichernutzung von 32 GB liegt auf dem Mac in einem praktikablen Bereich und ist auch ohne das Schließen anderer Anwendungen nutzbar
  • Bei Geschwindigkeit und Ergebnisqualität ist das Modell auf einem Niveau, das mit heutigen gehosteten Modellen konkurrieren kann
  • Da 80 % der LLM-Nutzung des Autors mit dem Schreiben von Code zusammenhängen, dürfte Qwen2.5-Coder eine sinnvolle Verbesserung sein

1 Kommentare

 
savvykang 2024-11-15

Das unterscheidet sich zwar etwas von typischen Coding-User-Szenarien, aber ich finde es faszinierend, wie Claude den JSON-Modus implementiert hat. Einige gehostete Modelle erzeugen, selbst wenn man sie zu JSON-Ausgabe anleitet, kommentiertes JavaScript oder Markdown-Text. Nach meiner Erfahrung mit einigen gehosteten Modellen war ich mit den Ergebnissen bei Managed Services zufriedener. Es scheint noch etwas zu geben, das sich mit gehosteten Modellen nicht umsetzen lässt.