17 Punkte von darjeeling 2025-10-05 | 2 Kommentare | Auf WhatsApp teilen

ZAI GLM 4.6-Modell: Leistung, Kosten und Erfahrungen aus der Praxis im Überblick

In einigen Communities wie Reddit werden Bedenken zum Datenschutz geäußert. Die tatsächlichen Testergebnisse deuten jedoch darauf hin, dass die Coding-Leistung selbst sehr stark ist. Im Vergleich zu Claude scheint die Leistung nicht schlechter zu sein, und über die aktuelle 50-%-Rabattaktion kann das GLM Coding Lite Plan für 36 US-Dollar pro Jahr abonniert werden. (Mit Referral etwa 33 US-Dollar)

Kernzusammenfassung: Das GLM-4.6-Modell von ZAI zeigt eine ähnliche Leistung wie Claude Sonnet 4, während die Token-Kosten nur etwa bei einem Achtel liegen. Es unterstützt ein langes Kontextfenster und fällt insbesondere in codebezogenen Benchmarks durch starke Ergebnisse auf, wodurch es als kosteneffiziente Alternative Aufmerksamkeit erhält.


1. Introduction and the Current AI Landscape

In einer Phase, in der neue Open-Weight-Modelle zuletzt eher fehlten, bringt das von ZAI entwickelte GLM-4.6-Modell frischen Schwung in den Markt. Der bisherige AI-Modellmarkt wurde von Frontier Labs mit enormem Kapital dominiert, allerdings bei hohen Kosten. Forschungsorientierte Labs wie Deepseek hatten dagegen Schwächen bei den Softwareentwicklungsfähigkeiten und boten dadurch oft weniger benutzerfreundliche Interfaces. ZAI adressiert diese Probleme mit einem nutzerfreundlichen Ansatz über API- und Abo-Services. Besonders GLM 4.6 zeigt das Potenzial, eine mit Claude Sonnet 4 vergleichbare Leistung zu deutlich geringeren Kosten bereitzustellen, dadurch den Zugang zu AI-Modellen zu verbessern und den Technologieeinsatz in verschiedenen Bereichen zu fördern.


2. ZAI's GLM 4.6 and its Advantages

ZAI entwickelt nicht nur Modelle mit hohen Werten in verschiedenen Benchmarks, sondern bietet auf Basis eines tiefen Verständnisses für reale Produkte auch nutzerorientierte Services. Anders als andere Forschungslabore stellt ZAI APIs und Abo-Dienste bereit, die leicht zugänglich und praktisch nutzbar sind, und trägt so zur Senkung von Cloud-Code-Kosten bei. Das GLM-4.6-Modell erzielte im Kilo code Benchmark eine Gewinnrate von 48,6 % gegen Claude Sonnet 4 und liefert ähnliche Leistung zu weniger als einem Fünftel des Preises. Insbesondere die Kosten für Output-Token sind mit etwa einem Achtel sehr niedrig, weshalb es als vernünftige Alternative zu Cloud-Modellen bewertet wird.


4. GLM 4.6: Advanced Features and Improvements

GLM 4.6 enthält im Vergleich zur vorherigen Version mehrere wichtige Verbesserungen.

  • Langes Kontextfenster: Unterstützung von bis zu 200k Token, wodurch mehr Informationen gleichzeitig verarbeitet und komplexe Aufgaben besser bewältigt werden können.
  • Leistungssteigerung: Höhere Werte in Code-Benchmarks und bessere Performance auch in realen Anwendungen.
  • Kompatibilität: Bietet Claude-Code-ähnliche Endpunkte, damit Nutzer es leicht in bestehende Workflows integrieren können.
  • Verbesserte Reasoning-Fähigkeiten: Die Reasoning-Leistung wurde erhöht, die Nutzung von Tools während des Reasoning wird unterstützt, wodurch das Modell in Agent-Frameworks effektiver arbeitet; außerdem wurde die Schreibfähigkeit verbessert.

5. Performance Benchmarks and Comparisons

GLM 4.6 zeigt in verschiedenen Benchmarks beeindruckende Ergebnisse. Im AIME-Benchmark übertraf es Sonic 4.5, bei GPQA lag es vor Sonic 4. In Live code bench und im HL-Benchmark zeigte es starke Leistungen, und im Vergleich mit Anthropic-Modellen erzielte es in den meisten Benchmarks außer SWE bench gleichwertige oder bessere Ergebnisse. Besonders in codebezogenen Benchmarks zeigt es Stärken und stellt im Vergleich zur vorherigen Version eine deutliche Verbesserung dar.


6. Practical Performance and Token Usage

Noch wichtiger als Benchmark-Werte ist die Leistung in realen Nutzungsszenarien. GLM 4.6 bleibt auch bei komplexen Aufgaben mit mehreren Dateien konsistent, ohne den Kontext zu verlieren oder Halluzinationen zu zeigen. ZAI sorgt für Transparenz, indem alle Testfragen und Agent-Trajektorien auf Hugging Face veröffentlicht werden.

Mit dem günstigen Coding-Plan für 3 US-Dollar pro Monat können komplexe Aufgaben wie Architekturdesign mit GPT-4 bearbeitet und die eigentliche Implementierung mit GLM 4.6 umgesetzt werden, wodurch sich die Kosten alltäglicher Coding-Arbeiten um das 50- bis 100-Fache senken lassen. Selbst wenn nur 80 % des gesamten Arbeitsvolumens damit abgedeckt werden, ist der Return on Investment sehr hoch.


7. Testing GLM 4.6 with Kilo Code and Open Code

In Praxistests mit Kilo code und Open Code zeigte GLM 4.6 beeindruckende Leistung.

  • Kilo code: Bei der Erstellung einer neuen Activity-API-Demo bewies es, dass es über Websuche die nötigen Informationen finden und präzisen Code erzeugen kann.
  • Open Code: Beim Ausführen einer Bildstudio-Demo ging es einen Schritt weiter als andere Modelle und implementierte zusätzliche Funktionen wie Zoom eigenständig. Außerdem zeigte es starke Problemlösungsfähigkeiten, indem es clientseitige Ausnahmen behandelte und Fehler in Konfigurationsdateien korrigierte.

Die Arbeitsgeschwindigkeit ist etwas langsam, lieferte in manchen Fällen hinsichtlich der UI-Qualität jedoch sogar bessere Ergebnisse als Cloud-Modelle.

2 Kommentare

 
shakespeares 2025-10-08

Die technologische Stärke Chinas macht täglich Fortschritte …

 
newcusx 2025-10-07

Cloud-Modell, meine Güte.