GLM-5.1: Eine Evolution hin zur Bewältigung langfristiger Aufgaben

(z.ai)

8 Punkte von GN⁺ 22 일 전 | 1 Kommentare | Auf WhatsApp teilen

Das Agentic-Engineering-Modell der nächsten Generation GLM-5.1 ist eine Flaggschiff-Version mit deutlich verbesserter Coding- und Problemlösungskompetenz, die mit Fokus auf langfristige Optimierung und kontinuierliche Verbesserung entwickelt wurde
Auf wichtigen Benchmarks wie SWE-Bench Pro, NL2Repo und Terminal-Bench 2.0 erzielt es Spitzenleistung und bewahrt auch bei lang andauernden iterativen Ausführungen produktive Ausdauer
In VectorDBBench, KernelBench und Web-App-Building-Szenarien verbessert es seine Leistung über Hunderte bis Tausende Iterationen hinweg kontinuierlich und beseitigt Engpässe durch eigene Log-Analyse und Strategieanpassungen
Durch Selbstbewertung und strukturelle Wechsel arbeitet das Modell auch bei komplexen Software-Engineering-Aufgaben effizient, und die Ergebnisqualität verbessert sich bei langen Ausführungen stetig
Es wird als Open Source unter der MIT-Lizenz veröffentlicht, ist auf verschiedenen Plattformen und in unterschiedlichen Frameworks nutzbar und wird als neuer Maßstab für langfristig optimierende KI-Modelle vorgestellt

Überblick über GLM-5.1

GLM-5.1 ist ein Agentic-Engineering-Modell der nächsten Generation und das Flaggschiffmodell mit deutlich verbesserter Coding-Leistung gegenüber der vorherigen Version
Es erreicht Bestwerte auf SWE-Bench Pro und liegt auch bei NL2Repo (Repository-Erstellung) sowie Terminal-Bench 2.0 (reale Terminal-Aufgaben) mit großem Abstand vor GLM-5
Es wurde nicht nur für starke Einzeldurchläufe entwickelt, sondern mit Fokus auf langfristige Optimierungsfähigkeit und nachhaltige Problemlösungskompetenz
Es beurteilt mehrdeutige Probleme besser, bleibt auch in langen Sessions produktiv und verbessert durch wiederholte Experimente und Strategieanpassungen seine Leistung selbst über Hunderte von Iterationen hinweg weiter
Seine Architektur ist darauf ausgelegt, dass sich Ergebnisse mit längerer Laufzeit verbessern; die long-horizon capability ist eines seiner Kernmerkmale

Komplexe Software-Engineering-Aufgaben

GLM-5.1 erreicht bei komplexen Software-Engineering-Aufgaben Leistung auf Spitzenniveau
Frühere Modelle stagnieren nach anfänglichen Verbesserungen schnell, doch GLM-5.1 bleibt auch bei langfristigen agentischen Aufgaben effizient
Das Modell zerlegt Probleme in Teilaufgaben, führt Experimente durch, analysiert Ergebnisse zur Identifikation von Engpässen und passt seine Strategie durch iteratives Schlussfolgern an
Dies wird an drei Aufgaben mit schrittweise abnehmender Strukturierung belegt
- Optimierungsproblem für Vektorsuche (auf Basis eines einzelnen numerischen Messwerts)
- GPU-Kernel-Benchmark (Messung der Geschwindigkeitssteigerung pro Problem)
- Erstellung einer Webanwendung (Verbesserung auf Basis eigener Beurteilung ohne explizite Messwerte)

Szenario 1: Optimierung einer Vektordatenbank über 600 Iterationen

VectorDBBench ist eine Open-Source-Challenge, die die Coding-Fähigkeit eines Modells zur Erstellung einer hochperformanten Datenbank für Approximate Nearest Neighbor Search bewertet
Das Modell erhält Rust-basierten Skelettcode und HTTP-API-Endpunkte und führt innerhalb von 50 Tool-Calls Dateilese-/Schreibvorgänge, Kompilierung, Tests und Profiling durch
Die bisherige Bestleistung lag bei 3.547 QPS von Claude Opus 4.6 (Recall ≥ 95%)
GLM-5.1 fügt eine externe Optimierungsschleife hinzu, führt mehr als 600 Iterationen (über 6.000 Tool-Calls) aus und erreicht schließlich 21.5k QPS
- Das entspricht einer Verbesserung um etwa das Sechsfache gegenüber einer einzelnen 50-Call-Session
Der Verlauf der Leistungssteigerung zeigt ein Treppenmuster (staircase pattern), bei dem sich schrittweises Tuning und strukturelle Wechsel abwechseln
- Etwa bei Iteration 90: Einführung von IVF-Cluster-Probing + f16-Vektorkompression → 6.4k QPS
- Etwa bei Iteration 240: Einführung einer zweistufigen Pipeline aus u8-Prescoring + f16-Reranking → 13.4k QPS
Insgesamt gab es 6 strukturelle Wechsel, die jeweils daraus resultierten, dass das Modell seine eigenen Logs analysierte und Engpässe identifizierte
Punkte, an denen der Recall unter 95% fiel, traten vor allem in Phasen der Erkundung neuer Strategien auf

Szenario 2: Optimierung von Machine-Learning-Workloads über mehr als 1.000 Iterationen

KernelBench bewertet die Fähigkeit eines Modells, eine PyTorch-Referenzimplementierung in einen schnelleren GPU-Kernel mit identischer Ausgabe zu transformieren
Es besteht aus drei Stufen (Level 1 bis 3), wobei Level 3 Optimierungen auf Ebene ganzer Modelle wie MobileNet, VGG, MiniGPT, Mamba umfasst
Die Standardeinstellung von torch.compile erreicht eine Beschleunigung von 1.15×, max-autotune kommt auf 1.49×
GLM-5.1 erzielt auf Level 3 eine 3.6× Beschleunigung und hält wirksame Optimierungen deutlich länger aufrecht als GLM-5
GLM-5 stagniert nach einem frühen steilen Anstieg, Claude Opus 4.5 hält länger durch, verlangsamt sich aber in der Spätphase
Claude Opus 4.6 hält mit 4.2× letztlich die höchste Leistung und bietet weiterhin Spielraum für zusätzliche Verbesserungen

Szenario 3: Aufbau einer Linux-Desktop-Web-App über 8 Stunden

Die Erstellung einer Website ist eine subjektive Aufgabe ohne explizite numerische Kennzahlen; bewertet werden Vollständigkeit, visuelle Qualität und Interaktionsqualität
Test-Prompt: „Baue eine Linux-ähnliche Desktop-Umgebung als Webanwendung“
- Start ohne initialen Code, Design oder Zwischenfeedback
Die meisten Modelle erzeugen nur eine Basis-UI und beenden dann den Vorgang, während GLM-5.1 sich durch eigene Ergebnisprüfung und Verbesserungsschleifen kontinuierlich weiterentwickelt
Über 8 Stunden iterativer Ausführung wächst das System von einem einfachen Anfangslayout schrittweise zu einer vollständigen Desktop-Umgebung
- Hinzu kommen Dateibrowser, Terminal, Texteditor, Systemmonitor, Taschenrechner, Spiele usw.
- Jede Funktion wird in eine konsistente UI integriert, während Stil und Interaktionsqualität schrittweise verbessert werden
Das Endergebnis ist eine vollständige und visuell konsistente Desktop-Umgebung, die im Browser läuft

Bedeutung und Herausforderungen langfristiger Optimierung

In allen drei Szenarien ist die zentrale Variable nicht die Laufzeit selbst, sondern ob zusätzliche Zeit tatsächlich wirksam genutzt wird
GLM-5.1 erweitert den productive horizon gegenüber GLM-5 erheblich
Allerdings besteht bei einigen Aufgaben wie KernelBench weiterhin Verbesserungspotenzial
Verbleibende Herausforderungen
- Lokale Optima überwinden, wenn schrittweises Tuning an seine Grenzen stößt
- Konsistenz über Tausende von Tool-Calls hinweg aufrechterhalten
- Zuverlässige Selbstbewertung (self-evaluation) bei Aufgaben ohne explizite numerische Kennzahlen
GLM-5.1 wird als erster Schritt in Richtung solcher langfristigen Optimierung vorgestellt

Zusammenfassung des Benchmark-Vergleichs

GLM-5.1 übertrifft GLM-5 in wichtigen Coding-Benchmarks wie SWE-Bench Pro 58.4, NL2Repo 42.7 und Terminal-Bench 2.0 63.5
Bei Reasoning, Coding und Agentic gehört es im Vergleich zu Konkurrenzmodellen zur Spitzengruppe
Auch im Vergleich mit aktuellen Modellen wie Claude Opus 4.6, Gemini 3.1 Pro und GPT-5.4 liegt es in vielen Punkten gleichauf oder vorn

Veröffentlichung und Nutzung

Als Open Source unter MIT-Lizenz veröffentlicht
Nutzbar über api.z.ai und BigModel.cn sowie kompatibel mit Claude Code und OpenClaw
Abonnenten des GLM Coding Plan können das Modell sofort nutzen, indem sie den Modellnamen auf "GLM-5.1" ändern
- Zu Spitzenzeiten (UTC+8 14:00–18:00) wird das 3×-Kontingent verbraucht, außerhalb der Spitzenzeiten 2×
- Bis Ende April gilt außerhalb der Spitzenzeiten eine 1×-Promotion
Als GUI-Umgebung wird Z Code angeboten; unterstützt werden Remote-Entwicklung per SSH und mobiles Arbeiten
Modellgewichte werden auf HuggingFace und ModelScope veröffentlicht
Unterstützt wichtige Inferenz-Frameworks wie vLLM und SGLang; ein Deployment-Guide ist auf GitHub verfügbar
Bald soll es auch auf der Z.ai-Chatplattform nutzbar sein

Evaluations-Setup und Anmerkungen

HLE und andere Reasoning-Aufgaben: maximal 163.840 generierte Tokens, GPT-5.2 als Bewertungsmodell
SWE-Bench Pro: 200K-Kontextfenster, Ausführung auf OpenHands-Basis
NL2Repo: inklusive Erkennung und Blockierung bösartiger Befehle
Terminal-Bench 2.0: Begrenzung auf 16 CPU, 32GB RAM, 3 Stunden Timeout
KernelBench Level 3: H100-GPU-Umgebung, Limit von 1.200 Tool-Calls, unabhängige Prüfung durchgeführt
Unabhängige Evaluierungen auf verschiedenen externen Benchmarks wie CyberGym, MCP-Atlas, τ³-bench und Vending Bench 2

1 Kommentare

GN⁺ 22 일 전

Hacker-News-Kommentare

Jeden Tag werden drei Dinge immer deutlicher
(1) OpenAI und Anthropic sind meiner Meinung nach inzwischen kaum noch konkurrenzfähig
(2) Lokale/private Inferenz ist ganz klar die Zukunft der KI
(3) Es gibt noch kein wirkliches „Killer-Produkt“, also ist jetzt der Zeitpunkt gekommen, eines tatsächlich zu bauen
- Der Aussage, dass es kein „Killer-Produkt“ gibt, stimme ich nicht zu. Coding-Assistenten und LLMs sind die erstaunlichste technologische Errungenschaft meines Lebens. So wie es eine Zeit vor und nach der industriellen Revolution gab, wird die Menschheitsgeschichte meiner Meinung nach bald in vor und nach KI eingeteilt werden
- KI-Coding-Assistenten gehören zu den nützlichsten Technologien, die je entwickelt wurden. Die Qualität des Modells ist am wichtigsten, daher glaube ich nicht, dass lokale Inferenz zum Mainstream wird, solange sich die Hardware nicht grundlegend verändert
- Ich frage mich, welchen praktischen Vorteil es hat, selbst 50.000 Dollar für GPUs auszugeben und ein Modell lokal zu betreiben, außer als cooles Hobbyprojekt
Ich habe gerade einen Beitrag zu Claude Mythos gesehen, und diesmal wirkt es nicht wie eine bloße Verbesserung, sondern wie ein echter Sprung. Ich freue mich auch auf das nächste GLM-Release, dessen Spezifikationen absurd stark aussehen, auch wenn noch unklar ist, wann es veröffentlicht wird
Es wurde auch eine Unsloth-Quantisierung veröffentlicht. Beim Modell GLM-5.1-GGUF hat IQ4_XS bei 754B Parametern eine Größe von 361 GB, also ist das für den typischen lokalen LLM-Fan kaum praktikabel
- Mit guter Software-Unterstützung ist auch SSD-Offloading möglich. Dann läuft es natürlich eher im Schneckentempo, statt wirklich „zu laufen“, aber man kann immerhin lokal Antworten erhalten. In letzter Zeit gibt es sogar Versuche, die Struktur von n-Grammen und internen Embedding-Parametern gezielt mit Blick auf SSD-Offloading zu entwerfen
Dieses Modell hat mir nicht nur ein großartiges Pelikan-Bild gezeichnet, sondern es auch animiert
Passender Link
- Das ist viel realistischer dargestellt. Für einen Pelikan ist Fliegen natürlicher als Fahrradfahren
- Simon, es ist Zeit, bessere Benchmarks zu bauen
Ehrlich gesagt bin ich etwas enttäuscht. GLM 5.1 erzeugt zwar deutlich besseres TypeScript als Opus oder Codex, verfällt aber bei langen Kontexten gelegentlich in einen seltsamen Modus. Trotzdem hatte ich auch Sitzungen, die mit mehr als 200k Tokens stabil liefen
- Wenn es gut funktioniert und die Geschwindigkeit passt, ist es wirklich beeindruckend. Gestern hat es ein Problem gelöst, an dem Kimi K2.5 gescheitert ist. Manchmal ist es aber immer noch langsam. Es fühlt sich in etwa nach Opus-4.5-Niveau an
- Ich stelle das Kontextfenster auf 100k und komprimiere regelmäßig oder dokumentiere den Zustand, um eine neue Sitzung zu starten. Da Opus 4.6 in letzter Zeit instabil ist, nutze ich meistens GLM 5.1. Es ist erstaunlich, wie gut die Qualität offener Modelle geworden ist
- Wenn Open-Source-Modelle besser sind als geschlossene Modelle, ist das aus Nutzersicht ein klarer Gewinn
- Ab ungefähr 100k Tokens sollte man eine neue Sitzung beginnen oder den Befehl /compact verwenden
- Ich habe mir aus den alten Claude- und Codex-Zeiten angewöhnt, den Kontext weiterhin häufig aufzuräumen. Selbst bei den neuesten Modellen vertraue ich riesigen Kontexten noch nicht wirklich
GLM-5.0 ist unter den Open-Source-Modellen ein echtes Schwergewicht. In internen Benchmarks liegt es immer weit oben und ist ungefähr auf dem Niveau von GPT-5.2. Ich nutze es eher für unstrukturierte Aufgaben als fürs Coden
- 5.1 habe ich noch nicht ausprobiert, aber beim PHP-Coding liefert es Ergebnisse, die zu 99 % denen von Sonnet/Opus/GPT-5 entsprechen. Außerdem kann man es lokal betreiben
- Ich erstelle gerade einen Datensatz für Python-↔-Cython-Konvertierung, und es zeigt nach Gemini Pro 3.1 die zweithöchste Akzeptanzrate (16 %). Mittelklasse-Modelle liegen eher bei 6–7 %, das ist also kein Vergleich
- Mein Anwendungsfall liegt weniger beim Schreiben von Code als beim Verstehen von Codebasen und Analysieren von Dokumentation, und dabei funktioniert dieses Modell besser als US-Modelle zum halben Preis
In meinen Tests schneidet GLM 5.1 schlechter ab als GLM 5
Vergleichslink
Das Modell scheint jetzt stärker auf agentisches Arbeiten/Coding getrimmt zu sein
- Besonders bei der Version (none) ist der Leistungsabfall deutlich
Ich finde den Ansatz interessant, die Modellqualität über die Ausführungsgeschwindigkeit des vom Agenten erzeugten Codes zu bewerten. Ich teste, indem ich einen Benchmark erstelle, eine Basis festlege und dann um mindestens das 1,4-Fache verbessere. Opus 4.6 hat in Rust-Code Low-Level-Optimierungen gefunden, die ihn sechsmal schneller gemacht haben, während alle Tests weiterhin bestanden wurden. Auf diese Weise lässt sich die tatsächliche Leistung praktischer vergleichen
Wenn man die Kommentare liest, klingt es, als hätten alle dieses Modell schon lange genutzt, und ich frage mich, ob das wirklich so ist
- Der Blogbeitrag ist neu, aber das Modell war bereits seit zwei Wochen öffentlich verfügbar
- Die Reservierungswebsite für die Tennisplätze in meiner Gegend war kaputt, also habe ich GLM-5.1 gebeten, die API zu analysieren. Innerhalb von fünf Minuten fand es den Endpunkt /cancel.php und extrahierte per Blind-SQL-Injection die Buchungs-ID. Es war etwas zu eifrig, aber wirklich beeindruckend
- Es war schon seit geraumer Zeit veröffentlicht
Ich nutze lokal vor allem die Version GLM 4.7 Flash für agentisches Coding, und sie ist wirklich hervorragend. Ich hatte gehofft, dass diesmal ebenfalls eine Flash-Version kommt, aber in den Release Notes wird sie nicht erwähnt, was etwas schade ist. Ich glaube trotzdem, dass sie bald erscheinen wird

GLM-5.1: Eine Evolution hin zur Bewältigung langfristiger Aufgaben

Überblick über GLM-5.1

Komplexe Software-Engineering-Aufgaben

Szenario 1: Optimierung einer Vektordatenbank über 600 Iterationen

Szenario 2: Optimierung von Machine-Learning-Workloads über mehr als 1.000 Iterationen

Szenario 3: Aufbau einer Linux-Desktop-Web-App über 8 Stunden

Bedeutung und Herausforderungen langfristiger Optimierung

Zusammenfassung des Benchmark-Vergleichs

Veröffentlichung und Nutzung

Evaluations-Setup und Anmerkungen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare