GLM-4.7: Coding-Fähigkeiten auf ein neues Niveau heben

(z.ai)

7 Punkte von GN⁺ 2025-12-23 | Noch keine Kommentare. | Auf WhatsApp teilen

GLM-4.7 ist ein Large Language Model, das seine Leistung gegenüber dem Vorgänger in Bereichen wie mehrsprachigem Coding, terminalbasierten Aufgaben und komplexem Reasoning deutlich verbessert hat
In wichtigen Benchmarks wie SWE-bench, Terminal Bench 2.0 und HLE verzeichnet es Verbesserungen von jeweils +5,8 %, +16,5 % und +12,4 %
Die Qualität der UI-Generierung wurde verbessert, sodass sauberere, modernere Webseiten und präzisere Slide-Layouts erzeugt werden
Mit den Funktionen Interleaved Thinking, Preserved Thinking und Turn-level Thinking werden Stabilität und Konsistenz bei komplexen Agentenaufgaben gestärkt
Über Z.ai API, OpenRouter und HuggingFace ist das Modell weltweit zugänglich; außerdem werden Coding-Agenten und lokale Deployments unterstützt

Zentrale Leistung und Merkmale

GLM-4.7 erreicht gegenüber GLM-4.6 insgesamt bessere Coding- und Reasoning-Fähigkeiten
- SWE-bench Verified 73,8 % (+5,8 %), SWE-bench Multilingual 66,7 % (+12,9 %), Terminal Bench 2.0 41 % (+16,5 %)
- Im HLE-Benchmark (Humanity’s Last Exam) erzielt es 42,8 % (+12,4 %) und stärkt damit mathematische sowie logische Schlussfolgerungsfähigkeiten
Die Qualität der UI-Generierung (Vibe Coding) wurde verbessert, wodurch stilvollere Webseiten und Slides möglich sind
Die Fähigkeit zur Tool-Nutzung wurde ausgebaut, was sich in hohen Werten bei τ²-Bench und BrowseComp zeigt
Leistungsverbesserungen wurden auch in verschiedenen Szenarien wie Chat, kreativen Aufgaben und Rollenspiel bestätigt

GLM-4.7 wurde zusammen mit GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro und weiteren Modellen in 17 Benchmarks verglichen
- Bereich Reasoning: MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
- Bereich Coding: SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
- Bereich Agent: BrowseComp 52.0, τ²-Bench 87.4
In einigen Kategorien zeigt das Modell Ergebnisse, die nahe an Top-Modellen liegen oder diese übertreffen

Interleaved Thinking: Durch eine Denkphase vor Antwort und Tool-Aufruf werden Instruktionsbefolgung und Generierungsqualität verbessert
Preserved Thinking: In Gesprächen mit mehreren Turns bleiben Thinking-Blöcke erhalten, wodurch Informationsverlust und Inkonsistenzen reduziert werden
Turn-level Thinking: Die Thinking-Funktion wird je nach Komplexität der Anfrage ein- oder ausgeschaltet, um Genauigkeit und Kosten auszubalancieren
Diese Funktionen eignen sich besonders für langfristige und komplexe Aufgaben von Coding-Agenten

Das GLM-4.7-Modell ist über die Z.ai API-Plattform und OpenRouter verfügbar
Wichtige Coding-Agenten wie Claude Code, Kilo Code, Roo Code und Cline unterstützen die Integration
Abonnenten des GLM Coding Plan werden automatisch auf GLM-4.7 aktualisiert; in vorhandenen Konfigurationsdateien muss nur der Modellname geändert werden
Die Modellgewichte werden auf HuggingFace und ModelScope veröffentlicht; lokale Inferenz wird über die Frameworks vLLM und SGLang unterstützt

Es werden verschiedene Generierungsbeispiele gezeigt, darunter Frontend-Websites, 3D-Artworks wie Voxel Pagoda, Poster und Slides
Verbesserungen bei Designqualität wie kontrastreicher Dark Mode, Animationseffekte und ausgefeilte Layouts werden visuell belegt

Allgemeine Aufgaben: temperature 1.0, top-p 0.95, max new tokens 131072
SWE-bench und Terminal Bench: temperature 0.7, top-p 1.0, max new tokens 16384
τ²-Bench: temperature 0, max new tokens 16384, mit teilweise angepassten domänenspezifischen Prompts

GLM-4.7 markiert als Coding-zentrierte Entwicklungsstufe von AGI einen Schritt, der über reine Benchmark-Werte hinaus die Qualität der realen Nutzungserfahrung betont
Das Modell wurde nicht nur auf Testleistung, sondern auch mit Blick auf wahrgenommene Intelligenz und Integrationsfähigkeit entwickelt