- Das Agentic-Engineering-Modell der nächsten Generation GLM-5.1 ist eine Flaggschiff-Version mit deutlich verbesserter Coding- und Problemlösungskompetenz, die mit Fokus auf langfristige Optimierung und kontinuierliche Verbesserung entwickelt wurde
- Auf wichtigen Benchmarks wie SWE-Bench Pro, NL2Repo und Terminal-Bench 2.0 erzielt es Spitzenleistung und bewahrt auch bei lang andauernden iterativen Ausführungen produktive Ausdauer
- In VectorDBBench, KernelBench und Web-App-Building-Szenarien verbessert es seine Leistung über Hunderte bis Tausende Iterationen hinweg kontinuierlich und beseitigt Engpässe durch eigene Log-Analyse und Strategieanpassungen
- Durch Selbstbewertung und strukturelle Wechsel arbeitet das Modell auch bei komplexen Software-Engineering-Aufgaben effizient, und die Ergebnisqualität verbessert sich bei langen Ausführungen stetig
- Es wird als Open Source unter der MIT-Lizenz veröffentlicht, ist auf verschiedenen Plattformen und in unterschiedlichen Frameworks nutzbar und wird als neuer Maßstab für langfristig optimierende KI-Modelle vorgestellt
Überblick über GLM-5.1
- GLM-5.1 ist ein Agentic-Engineering-Modell der nächsten Generation und das Flaggschiffmodell mit deutlich verbesserter Coding-Leistung gegenüber der vorherigen Version
- Es erreicht Bestwerte auf SWE-Bench Pro und liegt auch bei NL2Repo (Repository-Erstellung) sowie Terminal-Bench 2.0 (reale Terminal-Aufgaben) mit großem Abstand vor GLM-5
- Es wurde nicht nur für starke Einzeldurchläufe entwickelt, sondern mit Fokus auf langfristige Optimierungsfähigkeit und nachhaltige Problemlösungskompetenz
- Es beurteilt mehrdeutige Probleme besser, bleibt auch in langen Sessions produktiv und verbessert durch wiederholte Experimente und Strategieanpassungen seine Leistung selbst über Hunderte von Iterationen hinweg weiter
- Seine Architektur ist darauf ausgelegt, dass sich Ergebnisse mit längerer Laufzeit verbessern; die long-horizon capability ist eines seiner Kernmerkmale
Komplexe Software-Engineering-Aufgaben
- GLM-5.1 erreicht bei komplexen Software-Engineering-Aufgaben Leistung auf Spitzenniveau
- Frühere Modelle stagnieren nach anfänglichen Verbesserungen schnell, doch GLM-5.1 bleibt auch bei langfristigen agentischen Aufgaben effizient
- Das Modell zerlegt Probleme in Teilaufgaben, führt Experimente durch, analysiert Ergebnisse zur Identifikation von Engpässen und passt seine Strategie durch iteratives Schlussfolgern an
- Dies wird an drei Aufgaben mit schrittweise abnehmender Strukturierung belegt
- Optimierungsproblem für Vektorsuche (auf Basis eines einzelnen numerischen Messwerts)
- GPU-Kernel-Benchmark (Messung der Geschwindigkeitssteigerung pro Problem)
- Erstellung einer Webanwendung (Verbesserung auf Basis eigener Beurteilung ohne explizite Messwerte)
Szenario 1: Optimierung einer Vektordatenbank über 600 Iterationen
- VectorDBBench ist eine Open-Source-Challenge, die die Coding-Fähigkeit eines Modells zur Erstellung einer hochperformanten Datenbank für Approximate Nearest Neighbor Search bewertet
- Das Modell erhält Rust-basierten Skelettcode und HTTP-API-Endpunkte und führt innerhalb von 50 Tool-Calls Dateilese-/Schreibvorgänge, Kompilierung, Tests und Profiling durch
- Die bisherige Bestleistung lag bei 3.547 QPS von Claude Opus 4.6 (Recall ≥ 95%)
- GLM-5.1 fügt eine externe Optimierungsschleife hinzu, führt mehr als 600 Iterationen (über 6.000 Tool-Calls) aus und erreicht schließlich 21.5k QPS
- Das entspricht einer Verbesserung um etwa das Sechsfache gegenüber einer einzelnen 50-Call-Session
- Der Verlauf der Leistungssteigerung zeigt ein Treppenmuster (staircase pattern), bei dem sich schrittweises Tuning und strukturelle Wechsel abwechseln
- Etwa bei Iteration 90: Einführung von IVF-Cluster-Probing + f16-Vektorkompression → 6.4k QPS
- Etwa bei Iteration 240: Einführung einer zweistufigen Pipeline aus u8-Prescoring + f16-Reranking → 13.4k QPS
- Insgesamt gab es 6 strukturelle Wechsel, die jeweils daraus resultierten, dass das Modell seine eigenen Logs analysierte und Engpässe identifizierte
- Punkte, an denen der Recall unter 95% fiel, traten vor allem in Phasen der Erkundung neuer Strategien auf
Szenario 2: Optimierung von Machine-Learning-Workloads über mehr als 1.000 Iterationen
- KernelBench bewertet die Fähigkeit eines Modells, eine PyTorch-Referenzimplementierung in einen schnelleren GPU-Kernel mit identischer Ausgabe zu transformieren
- Es besteht aus drei Stufen (Level 1 bis 3), wobei Level 3 Optimierungen auf Ebene ganzer Modelle wie MobileNet, VGG, MiniGPT, Mamba umfasst
- Die Standardeinstellung von
torch.compileerreicht eine Beschleunigung von 1.15×,max-autotunekommt auf 1.49× - GLM-5.1 erzielt auf Level 3 eine 3.6× Beschleunigung und hält wirksame Optimierungen deutlich länger aufrecht als GLM-5
- GLM-5 stagniert nach einem frühen steilen Anstieg, Claude Opus 4.5 hält länger durch, verlangsamt sich aber in der Spätphase
- Claude Opus 4.6 hält mit 4.2× letztlich die höchste Leistung und bietet weiterhin Spielraum für zusätzliche Verbesserungen
Szenario 3: Aufbau einer Linux-Desktop-Web-App über 8 Stunden
- Die Erstellung einer Website ist eine subjektive Aufgabe ohne explizite numerische Kennzahlen; bewertet werden Vollständigkeit, visuelle Qualität und Interaktionsqualität
- Test-Prompt: „Baue eine Linux-ähnliche Desktop-Umgebung als Webanwendung“
- Start ohne initialen Code, Design oder Zwischenfeedback
- Die meisten Modelle erzeugen nur eine Basis-UI und beenden dann den Vorgang, während GLM-5.1 sich durch eigene Ergebnisprüfung und Verbesserungsschleifen kontinuierlich weiterentwickelt
- Über 8 Stunden iterativer Ausführung wächst das System von einem einfachen Anfangslayout schrittweise zu einer vollständigen Desktop-Umgebung
- Hinzu kommen Dateibrowser, Terminal, Texteditor, Systemmonitor, Taschenrechner, Spiele usw.
- Jede Funktion wird in eine konsistente UI integriert, während Stil und Interaktionsqualität schrittweise verbessert werden
- Das Endergebnis ist eine vollständige und visuell konsistente Desktop-Umgebung, die im Browser läuft
Bedeutung und Herausforderungen langfristiger Optimierung
- In allen drei Szenarien ist die zentrale Variable nicht die Laufzeit selbst, sondern ob zusätzliche Zeit tatsächlich wirksam genutzt wird
- GLM-5.1 erweitert den productive horizon gegenüber GLM-5 erheblich
- Allerdings besteht bei einigen Aufgaben wie KernelBench weiterhin Verbesserungspotenzial
- Verbleibende Herausforderungen
- Lokale Optima überwinden, wenn schrittweises Tuning an seine Grenzen stößt
- Konsistenz über Tausende von Tool-Calls hinweg aufrechterhalten
- Zuverlässige Selbstbewertung (self-evaluation) bei Aufgaben ohne explizite numerische Kennzahlen
- GLM-5.1 wird als erster Schritt in Richtung solcher langfristigen Optimierung vorgestellt
Zusammenfassung des Benchmark-Vergleichs
- GLM-5.1 übertrifft GLM-5 in wichtigen Coding-Benchmarks wie SWE-Bench Pro 58.4, NL2Repo 42.7 und Terminal-Bench 2.0 63.5
- Bei Reasoning, Coding und Agentic gehört es im Vergleich zu Konkurrenzmodellen zur Spitzengruppe
- Auch im Vergleich mit aktuellen Modellen wie Claude Opus 4.6, Gemini 3.1 Pro und GPT-5.4 liegt es in vielen Punkten gleichauf oder vorn
Veröffentlichung und Nutzung
- Als Open Source unter MIT-Lizenz veröffentlicht
- Nutzbar über api.z.ai und BigModel.cn sowie kompatibel mit Claude Code und OpenClaw
- Abonnenten des GLM Coding Plan können das Modell sofort nutzen, indem sie den Modellnamen auf
"GLM-5.1"ändern- Zu Spitzenzeiten (UTC+8 14:00–18:00) wird das 3×-Kontingent verbraucht, außerhalb der Spitzenzeiten 2×
- Bis Ende April gilt außerhalb der Spitzenzeiten eine 1×-Promotion
- Als GUI-Umgebung wird Z Code angeboten; unterstützt werden Remote-Entwicklung per SSH und mobiles Arbeiten
- Modellgewichte werden auf HuggingFace und ModelScope veröffentlicht
- Unterstützt wichtige Inferenz-Frameworks wie vLLM und SGLang; ein Deployment-Guide ist auf GitHub verfügbar
- Bald soll es auch auf der Z.ai-Chatplattform nutzbar sein
Evaluations-Setup und Anmerkungen
- HLE und andere Reasoning-Aufgaben: maximal 163.840 generierte Tokens, GPT-5.2 als Bewertungsmodell
- SWE-Bench Pro: 200K-Kontextfenster, Ausführung auf OpenHands-Basis
- NL2Repo: inklusive Erkennung und Blockierung bösartiger Befehle
- Terminal-Bench 2.0: Begrenzung auf 16 CPU, 32GB RAM, 3 Stunden Timeout
- KernelBench Level 3: H100-GPU-Umgebung, Limit von 1.200 Tool-Calls, unabhängige Prüfung durchgeführt
- Unabhängige Evaluierungen auf verschiedenen externen Benchmarks wie CyberGym, MCP-Atlas, τ³-bench und Vending Bench 2
1 Kommentare
Hacker-News-Kommentare
Jeden Tag werden drei Dinge immer deutlicher
(1) OpenAI und Anthropic sind meiner Meinung nach inzwischen kaum noch konkurrenzfähig
(2) Lokale/private Inferenz ist ganz klar die Zukunft der KI
(3) Es gibt noch kein wirkliches „Killer-Produkt“, also ist jetzt der Zeitpunkt gekommen, eines tatsächlich zu bauen
Ich habe gerade einen Beitrag zu Claude Mythos gesehen, und diesmal wirkt es nicht wie eine bloße Verbesserung, sondern wie ein echter Sprung. Ich freue mich auch auf das nächste GLM-Release, dessen Spezifikationen absurd stark aussehen, auch wenn noch unklar ist, wann es veröffentlicht wird
Es wurde auch eine Unsloth-Quantisierung veröffentlicht. Beim Modell GLM-5.1-GGUF hat IQ4_XS bei 754B Parametern eine Größe von 361 GB, also ist das für den typischen lokalen LLM-Fan kaum praktikabel
Dieses Modell hat mir nicht nur ein großartiges Pelikan-Bild gezeichnet, sondern es auch animiert
Passender Link
Ehrlich gesagt bin ich etwas enttäuscht. GLM 5.1 erzeugt zwar deutlich besseres TypeScript als Opus oder Codex, verfällt aber bei langen Kontexten gelegentlich in einen seltsamen Modus. Trotzdem hatte ich auch Sitzungen, die mit mehr als 200k Tokens stabil liefen
/compactverwendenGLM-5.0 ist unter den Open-Source-Modellen ein echtes Schwergewicht. In internen Benchmarks liegt es immer weit oben und ist ungefähr auf dem Niveau von GPT-5.2. Ich nutze es eher für unstrukturierte Aufgaben als fürs Coden
In meinen Tests schneidet GLM 5.1 schlechter ab als GLM 5
Vergleichslink
Das Modell scheint jetzt stärker auf agentisches Arbeiten/Coding getrimmt zu sein
Ich finde den Ansatz interessant, die Modellqualität über die Ausführungsgeschwindigkeit des vom Agenten erzeugten Codes zu bewerten. Ich teste, indem ich einen Benchmark erstelle, eine Basis festlege und dann um mindestens das 1,4-Fache verbessere. Opus 4.6 hat in Rust-Code Low-Level-Optimierungen gefunden, die ihn sechsmal schneller gemacht haben, während alle Tests weiterhin bestanden wurden. Auf diese Weise lässt sich die tatsächliche Leistung praktischer vergleichen
Wenn man die Kommentare liest, klingt es, als hätten alle dieses Modell schon lange genutzt, und ich frage mich, ob das wirklich so ist
Ich nutze lokal vor allem die Version GLM 4.7 Flash für agentisches Coding, und sie ist wirklich hervorragend. Ich hatte gehofft, dass diesmal ebenfalls eine Flash-Version kommt, aber in den Release Notes wird sie nicht erwähnt, was etwas schade ist. Ich glaube trotzdem, dass sie bald erscheinen wird