- GLM-4.7 ist ein Large Language Model, das seine Leistung gegenüber dem Vorgänger in Bereichen wie mehrsprachigem Coding, terminalbasierten Aufgaben und komplexem Reasoning deutlich verbessert hat
- In wichtigen Benchmarks wie SWE-bench, Terminal Bench 2.0 und HLE verzeichnet es Verbesserungen von jeweils +5,8 %, +16,5 % und +12,4 %
- Die Qualität der UI-Generierung wurde verbessert, sodass sauberere, modernere Webseiten und präzisere Slide-Layouts erzeugt werden
- Mit den Funktionen Interleaved Thinking, Preserved Thinking und Turn-level Thinking werden Stabilität und Konsistenz bei komplexen Agentenaufgaben gestärkt
- Über Z.ai API, OpenRouter und HuggingFace ist das Modell weltweit zugänglich; außerdem werden Coding-Agenten und lokale Deployments unterstützt
Zentrale Leistung und Merkmale
- GLM-4.7 erreicht gegenüber GLM-4.6 insgesamt bessere Coding- und Reasoning-Fähigkeiten
- SWE-bench Verified 73,8 % (+5,8 %), SWE-bench Multilingual 66,7 % (+12,9 %), Terminal Bench 2.0 41 % (+16,5 %)
- Im HLE-Benchmark (Humanity’s Last Exam) erzielt es 42,8 % (+12,4 %) und stärkt damit mathematische sowie logische Schlussfolgerungsfähigkeiten
- Die Qualität der UI-Generierung (Vibe Coding) wurde verbessert, wodurch stilvollere Webseiten und Slides möglich sind
- Die Fähigkeit zur Tool-Nutzung wurde ausgebaut, was sich in hohen Werten bei τ²-Bench und BrowseComp zeigt
- Leistungsverbesserungen wurden auch in verschiedenen Szenarien wie Chat, kreativen Aufgaben und Rollenspiel bestätigt
Benchmark-Vergleich
- GLM-4.7 wurde zusammen mit GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro und weiteren Modellen in 17 Benchmarks verglichen
- Bereich Reasoning: MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
- Bereich Coding: SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
- Bereich Agent: BrowseComp 52.0, τ²-Bench 87.4
- In einigen Kategorien zeigt das Modell Ergebnisse, die nahe an Top-Modellen liegen oder diese übertreffen
Ausbau des Thinking-Modus
- Interleaved Thinking: Durch eine Denkphase vor Antwort und Tool-Aufruf werden Instruktionsbefolgung und Generierungsqualität verbessert
- Preserved Thinking: In Gesprächen mit mehreren Turns bleiben Thinking-Blöcke erhalten, wodurch Informationsverlust und Inkonsistenzen reduziert werden
- Turn-level Thinking: Die Thinking-Funktion wird je nach Komplexität der Anfrage ein- oder ausgeschaltet, um Genauigkeit und Kosten auszubalancieren
- Diese Funktionen eignen sich besonders für langfristige und komplexe Aufgaben von Coding-Agenten
Nutzung und Deployment
- Das GLM-4.7-Modell ist über die Z.ai API-Plattform und OpenRouter verfügbar
- Wichtige Coding-Agenten wie Claude Code, Kilo Code, Roo Code und Cline unterstützen die Integration
- Abonnenten des GLM Coding Plan werden automatisch auf GLM-4.7 aktualisiert; in vorhandenen Konfigurationsdateien muss nur der Modellname geändert werden
- Die Modellgewichte werden auf HuggingFace und ModelScope veröffentlicht; lokale Inferenz wird über die Frameworks vLLM und SGLang unterstützt
Visuelle und kreative Beispiele
- Es werden verschiedene Generierungsbeispiele gezeigt, darunter Frontend-Websites, 3D-Artworks wie Voxel Pagoda, Poster und Slides
- Verbesserungen bei Designqualität wie kontrastreicher Dark Mode, Animationseffekte und ausgefeilte Layouts werden visuell belegt
Standardeinstellungen und Testbedingungen
- Allgemeine Aufgaben: temperature 1.0, top-p 0.95, max new tokens 131072
- SWE-bench und Terminal Bench: temperature 0.7, top-p 1.0, max new tokens 16384
- τ²-Bench: temperature 0, max new tokens 16384, mit teilweise angepassten domänenspezifischen Prompts
Gesamtbewertung
- GLM-4.7 markiert als Coding-zentrierte Entwicklungsstufe von AGI einen Schritt, der über reine Benchmark-Werte hinaus die Qualität der realen Nutzungserfahrung betont
- Das Modell wurde nicht nur auf Testleistung, sondern auch mit Blick auf wahrgenommene Intelligenz und Integrationsfähigkeit entwickelt
Noch keine Kommentare.