GLM-5 vorgestellt: Ein Modell für komplexes Systems Engineering und langfristige Agentenaufgaben
(z.ai)- Ein großes Sprachmodell mit verbesserter Effizienz und Fähigkeit zur Ausführung langfristiger Aufgaben
- Gegenüber dem Vorgänger auf 744 Milliarden Parameter (40 Milliarden aktiv) erweitert, mit 28,5 Billionen Tokens an Pretraining-Daten
- Integration von DeepSeek Sparse Attention (DSA), um die Verarbeitung langer Kontexte beizubehalten und zugleich Bereitstellungskosten zu senken
- Neue asynchrone Reinforcement-Learning-Infrastruktur „slime“ steigert die Trainingseffizienz und erzielt in verschiedenen Benchmarks Spitzenwerte
- Als Open Source veröffentlicht und über Hugging Face, ModelScope, die Z.ai-Plattform u. a. zugänglich, außerdem kompatibel mit Claude Code und OpenClaw
Überblick über GLM-5
- GLM-5 ist ein Modell, das für komplexes Systems Engineering und langfristige Agentenaufgaben entwickelt wurde
- Im Vergleich zu GLM-4.5 stieg die Zahl der Parameter von 355 Milliarden (32 Milliarden aktiv) auf 744 Milliarden (40 Milliarden aktiv)
- Die Pretraining-Daten wurden von 23 auf 28,5 Billionen Tokens erweitert
- Durch die Integration von DeepSeek Sparse Attention (DSA) bleiben die Fähigkeiten zur Verarbeitung langer Kontexte erhalten, während die Bereitstellungskosten deutlich sinken
- Mit der Einführung der asynchronen Reinforcement-Learning-Infrastruktur slime werden Trainingsdurchsatz und Effizienz verbessert und feinere Iterationen im Post-Training ermöglicht
Leistungssteigerungen und Benchmark-Ergebnisse
- GLM-5 zeigt insgesamt bessere Leistung als GLM-4.7 und nähert sich dem Niveau von Claude Opus 4.5 an
- Im internen Evaluierungssatz CC-Bench-V2 erzielt es hervorragende Ergebnisse in Frontend, Backend und langfristigen Aufgaben
- In Vending Bench 2 erreicht es Platz 1 unter Open-Source-Modellen und erzielt in einer einjährigen Simulation eines Automaten-Geschäfts einen Endsaldo von 4.432 US-Dollar
- Bei Schlussfolgern, Coding und Agentenaufgaben gehört es insgesamt zur Weltspitze unter den Open-Source-Modellen
- Beispiele: SWE-bench Verified 77,8 Punkte, BrowseComp 62,0 Punkte, τ²-Bench 89,7 Punkte
- Den Abstand zu Spitzenmodellen wie GPT-5.2 und Gemini 3.0 Pro verringert es weiter
Open-Source-Veröffentlichung und Zugangswege
- GLM-5 wird unter der MIT-Lizenz veröffentlicht; Model Weights können über Hugging Face und ModelScope heruntergeladen werden
- Über Z.ai, BigModel.cn und api.z.ai ist es auch als API nutzbar
- Es ist mit Claude Code und OpenClaw kompatibel und kann dadurch in verschiedene Entwicklungsumgebungen integriert werden
- Auf der Z.ai-Plattform wird ein kostenloser Test angeboten
Office- und Dokumentenerstellung
- GLM-5 zielt auf den Übergang „vom Chatten zur Arbeit“ und dient als Office-Tool für Wissensarbeiter und Ingenieure
- Texte oder Quellmaterialien können direkt in die Formate .docx, .pdf, .xlsx umgewandelt werden, um fertige Dokumente wie PRDs, Prüfungen, Finanzberichte oder Speisekarten zu erstellen
- Die Z.ai-Anwendung bietet einen Agent-Modus mit Unterstützung für die Erstellung von PDF-, Word- und Excel-Dateien sowie Zusammenarbeit über mehrere Durchläufe
Unterstützung für Entwickler und Deployment
- Abonnenten des GLM Coding Plan erhalten schrittweise Zugriff auf GLM-5
- Nutzer des Max-Tarifs können es sofort unter dem Modellnamen
"GLM-5"aktivieren - GLM-5-Anfragen verbrauchen mehr Kontingent als GLM-4.7
- Nutzer des Max-Tarifs können es sofort unter dem Modellnamen
- Für Nutzer, die eine GUI-Umgebung bevorzugen, wird die Agenten-Entwicklungsumgebung Z Code bereitgestellt
- Über das Framework OpenClaw kann GLM-5 als persönlicher Assistenten-Agent für Apps und Geräte eingesetzt werden
Lokales Deployment und Hardware-Kompatibilität
- GLM-5 unterstützt Inferenz-Frameworks wie vLLM und SGLang; Bereitstellungsanleitungen stehen auf dem offiziellen GitHub bereit
- Es kann auch auf anderen Chipsätzen als NVIDIA ausgeführt werden, darunter Huawei Ascend, Moore Threads, Cambricon, Kunlun, MetaX, Enflame und Hygon
- Durch Kernel-Optimierung und Modellquantisierung wird ein angemessener Durchsatz erreicht
4 Kommentare
Hacker-News-Kommentare
Ich habe ein von Pelican über OpenRouter erzeugtes Ergebnis gesehen
Der Vogel selbst wirkt wie ein solider Vogel, aber als Fahrradrahmen taugt er nicht viel
Relevanter Link
Den Kontext des Pelican-Fahrrad-Tests gibt es hier
SVG ist mittlerweile überall, also braucht es ein neues, realistischeres Szenario
Ich mache mir Sorgen, dass solche Ergebnisse die Trainingsdaten verunreinigen
Interessant ist, dass die AI selbst sagt, es brauche Schwimmhäute, diese im Bild aber tatsächlich fehlen
Es beunruhigt mich, dass man wie bei MMLU oder AIME schon 90 % Genauigkeit als „gelöstes Problem“ betrachtet
Echte AGI müsste 100 % Genauigkeit erreichen, aber wir geben uns zu leicht zufrieden
Ich halte eine graue, auf Distillation basierende schnelle Nachahmung in Zukunft für unvermeidlich
Früher dachte ich, N-1- oder N-2-Modelle würden unattraktiv sein, aber inzwischen scheinen sogar die Nutzerpräferenzen gesättigt, sodass selbst das ausreichen dürfte
Opus 4.5 war eindeutig ein Sprung, aber 4.6 hat meinen Workflow nicht verändert
Nach dem „größten Diebstahl der Menschheit“ scheint am Ende die „größte ausgleichende Vergeltung“ zu kommen
Den Nutzern wird es völlig egal sein, dass chinesische AI angeblich bei US-Big-Tech gestohlen hat
Man könnte argumentieren: „Es hat doch nur wie ein Mensch daraus gelernt, warum sollte das illegal sein?“
Man müsste nur Tausende Websites mit AI-generierten Inhalten erstellen und in jedem Beitrag Prompt- und Modellinformationen offenlegen
Andere könnten das dann „zufällig“ crawlen und fürs Training nutzen
Es fühlt sich an, als käme es doppelt so weit wie früher, und ich möchte nicht mehr zurück
Die jüngsten Benchmarks sind beeindruckend, aber die Vergleichsmodelle sind Modelle der alten Generation (Opus 4.5, GPT-5.2)
Heutige offene Modelle erzielen hohe Benchmark-Werte, aber im praktischen Einsatz bleiben sie oft hinter den Erwartungen zurück
Benchmaxxing existiert eindeutig
Selbst 20 Benchmarks durchlaufen zu lassen, ist nicht einfach, und die neue Modellgeneration ist erst seit fünf Tagen draußen
Viele Entwickler verfallen in Closed-Model-Worship und wissen nicht, dass bei anderen Modellfamilien derselbe Prompt nicht funktioniert
Ich nutze GLM-4.7 oft; es liegt auf Sonnet-4.5-Niveau, und GLM-5 dürfte wahrscheinlich Opus-4.5-Niveau erreichen
In Blindtests könnte man sie kaum auseinanderhalten
Selbst wenn man Antworten von Claude und ChatGPT vergleicht, sind sie fast identisch
Für die meisten Einsatzzwecke reicht am Ende ein Toyota-Klasse-Modell
Algorithmische Innovationen sind möglich, aber die Kosten für die Erzeugung menschlicher Daten sind zu hoch, um das zu skalieren
Open-Source-Modelle haben weiterhin viele Syntaxfehler, während Frontier-Modelle solche Probleme weitgehend gelöst haben
während chinesische Labore benchmarkzentriert arbeiten, wodurch diese Unterschiede entstehen
Self-Hosting und kontinuierliche Verbesserung lassen sich nur schwer vereinbaren
Dank chinesischem Open Source scheint es möglich zu werden, selbst gehostete Intelligenz zu haben
Kostenseitig ist das ineffizient, aber mir gefällt, dass es unabhängig und ohne Internetverbindung betrieben werden kann
Letztlich ist macOS die einzige Verbraucheroption, auf der sich große Modelle lokal ausführen lassen
Auch in Sachen Privatsphäre und Verfügbarkeit hat Self-Hosting seinen Wert
Vor allem mit Blick auf strengere digitale Regulierung in den USA braucht man Alternativen
Trotzdem ist es ein Vorteil, dass man Verzerrungen per Fine-Tuning korrigieren kann
Empfohlen werden GPT-OSS 120GB, Qwen Coder Next 80B und Step 3.5 Flash
Ich erwarte, dass sich in 1 bis 2 Jahren sogar Modelle der 512-GB-Klasse auf Consumer-Hardware ausführen lassen
Die Rückkehr des Heimnetzwerks
Entscheidend ist die Freiheit, den Anbieter jederzeit wechseln zu können
Ich habe GLM-4.7 ein paar Wochen genutzt, und es liegt auf ähnlichem Niveau wie Sonnet
Es braucht allerdings klarere Anweisungen
Für große Aufgaben nutze ich weiterhin eher die Anthropic-Reihe, aber für kleine, klar definierte Aufgaben ist GLM beim Preis-Leistungs-Verhältnis top
Wenn man GLM-4.7 sich selbst überlässt, hat es die Tendenz, unnötig eine ganze Welt aufzubauen
Für kleine Aufgaben ist es Sonnet aber ähnlich, und wegen des sehr niedrigen Preises als Hilfsmodell nützlich
Wenn offene Modelle noch etwa sechs Monate weiter Fortschritte machen, wäre ich bereit zu wechseln
MiniMax M2.5 ist ab heute ebenfalls in der Chat UI verfügbar
GLM ist fürs Coden besser, aber MiniMax nutze ich wegen seiner Geschwindigkeit und Tool-Calling-Fähigkeiten oft für Alltagsaufgaben
Das neue Modell wurde auf OpenRouter veröffentlicht
In meinem persönlichen Benchmark war die Fähigkeit, Anweisungen zu befolgen, sehr schwach
Es ist ein Test, der dem Format von chat.md + mcps folgt, und das wurde nicht richtig ausgeführt
Mich würde interessieren, welche Ergebnisse es bei anderen Frontier-Modellen gab
Ich habe selbst an einem textbasierten Editor mit Vim-Keybindings gearbeitet, und dieser Ansatz könnte UI-Inspiration liefern
Ich denke darüber nach, eine Funktion zum Einklappen unnötigen Texts hinzuzufügen
Manchmal ist die Leistung dort schwach
Wenn möglich, ist es besser, direkt den ursprünglichen Anbieter zu nutzen
GLM-4.7-Flash fühlt sich zum ersten Mal wie ein intelligentes Modell an, das sich für lokales Coding eignet
Es liegt auf ähnlichem Niveau wie Claude 4.5 Haiku, und weil der Reasoning-Prozess transparent ist, kann man nachvollziehen, warum es bestimmte Entscheidungen trifft
Es ist deutlich besser als Devstral 2 Small oder Qwen-Coder-Next
Ich verwende GLM 4.7 in opencode
Es ist nicht das Beste, aber dank großzügiger Nutzungslimits kann ich es den ganzen Tag verwenden
Auf das neue Modell habe ich noch nur eingeschränkten Zugriff, aber ich freue mich darauf
Ich habe das neue Modell in opencode kurz ausprobiert, und es war ziemlich beeindruckend
Es ist keine große Revolution, aber gegenüber 4.7 klar verbessert
Gedächtnisleistung und Stabilität bei langen Aufgaben haben sich merklich verbessert
Der Abopreis ist gestiegen.
Der 50%-Rabatt, den es bei der ersten Anmeldung gab, wurde abgeschafft..
Beim Max-Basispreis lag das superfrühe Rabattangebot bei 360 US-Dollar pro Jahr, jetzt sind es 672 US-Dollar ...