7 Punkte von GN⁺ 2025-12-23 | Noch keine Kommentare. | Auf WhatsApp teilen
  • GLM-4.7 ist ein Large Language Model, das seine Leistung gegenüber dem Vorgänger in Bereichen wie mehrsprachigem Coding, terminalbasierten Aufgaben und komplexem Reasoning deutlich verbessert hat
  • In wichtigen Benchmarks wie SWE-bench, Terminal Bench 2.0 und HLE verzeichnet es Verbesserungen von jeweils +5,8 %, +16,5 % und +12,4 %
  • Die Qualität der UI-Generierung wurde verbessert, sodass sauberere, modernere Webseiten und präzisere Slide-Layouts erzeugt werden
  • Mit den Funktionen Interleaved Thinking, Preserved Thinking und Turn-level Thinking werden Stabilität und Konsistenz bei komplexen Agentenaufgaben gestärkt
  • Über Z.ai API, OpenRouter und HuggingFace ist das Modell weltweit zugänglich; außerdem werden Coding-Agenten und lokale Deployments unterstützt

Zentrale Leistung und Merkmale

  • GLM-4.7 erreicht gegenüber GLM-4.6 insgesamt bessere Coding- und Reasoning-Fähigkeiten
    • SWE-bench Verified 73,8 % (+5,8 %), SWE-bench Multilingual 66,7 % (+12,9 %), Terminal Bench 2.0 41 % (+16,5 %)
    • Im HLE-Benchmark (Humanity’s Last Exam) erzielt es 42,8 % (+12,4 %) und stärkt damit mathematische sowie logische Schlussfolgerungsfähigkeiten
  • Die Qualität der UI-Generierung (Vibe Coding) wurde verbessert, wodurch stilvollere Webseiten und Slides möglich sind
  • Die Fähigkeit zur Tool-Nutzung wurde ausgebaut, was sich in hohen Werten bei τ²-Bench und BrowseComp zeigt
  • Leistungsverbesserungen wurden auch in verschiedenen Szenarien wie Chat, kreativen Aufgaben und Rollenspiel bestätigt

Benchmark-Vergleich

  • GLM-4.7 wurde zusammen mit GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro und weiteren Modellen in 17 Benchmarks verglichen
    • Bereich Reasoning: MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
    • Bereich Coding: SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
    • Bereich Agent: BrowseComp 52.0, τ²-Bench 87.4
  • In einigen Kategorien zeigt das Modell Ergebnisse, die nahe an Top-Modellen liegen oder diese übertreffen

Ausbau des Thinking-Modus

  • Interleaved Thinking: Durch eine Denkphase vor Antwort und Tool-Aufruf werden Instruktionsbefolgung und Generierungsqualität verbessert
  • Preserved Thinking: In Gesprächen mit mehreren Turns bleiben Thinking-Blöcke erhalten, wodurch Informationsverlust und Inkonsistenzen reduziert werden
  • Turn-level Thinking: Die Thinking-Funktion wird je nach Komplexität der Anfrage ein- oder ausgeschaltet, um Genauigkeit und Kosten auszubalancieren
  • Diese Funktionen eignen sich besonders für langfristige und komplexe Aufgaben von Coding-Agenten

Nutzung und Deployment

  • Das GLM-4.7-Modell ist über die Z.ai API-Plattform und OpenRouter verfügbar
  • Wichtige Coding-Agenten wie Claude Code, Kilo Code, Roo Code und Cline unterstützen die Integration
  • Abonnenten des GLM Coding Plan werden automatisch auf GLM-4.7 aktualisiert; in vorhandenen Konfigurationsdateien muss nur der Modellname geändert werden
  • Die Modellgewichte werden auf HuggingFace und ModelScope veröffentlicht; lokale Inferenz wird über die Frameworks vLLM und SGLang unterstützt

Visuelle und kreative Beispiele

  • Es werden verschiedene Generierungsbeispiele gezeigt, darunter Frontend-Websites, 3D-Artworks wie Voxel Pagoda, Poster und Slides
  • Verbesserungen bei Designqualität wie kontrastreicher Dark Mode, Animationseffekte und ausgefeilte Layouts werden visuell belegt

Standardeinstellungen und Testbedingungen

  • Allgemeine Aufgaben: temperature 1.0, top-p 0.95, max new tokens 131072
  • SWE-bench und Terminal Bench: temperature 0.7, top-p 1.0, max new tokens 16384
  • τ²-Bench: temperature 0, max new tokens 16384, mit teilweise angepassten domänenspezifischen Prompts

Gesamtbewertung

  • GLM-4.7 markiert als Coding-zentrierte Entwicklungsstufe von AGI einen Schritt, der über reine Benchmark-Werte hinaus die Qualität der realen Nutzungserfahrung betont
  • Das Modell wurde nicht nur auf Testleistung, sondern auch mit Blick auf wahrgenommene Intelligenz und Integrationsfähigkeit entwickelt

Noch keine Kommentare.

Noch keine Kommentare.