- GLM-4.7 ist ein Large Language Model, das seine Leistung gegenüber dem Vorgänger in Bereichen wie mehrsprachigem Coding, terminalbasierten Aufgaben und komplexem Reasoning deutlich verbessert hat
- In wichtigen Benchmarks wie SWE-bench, Terminal Bench 2.0 und HLE verzeichnet es Verbesserungen von jeweils +5,8 %, +16,5 % und +12,4 %
- Die Qualität der UI-Generierung wurde verbessert, sodass sauberere, modernere Webseiten und präzisere Slide-Layouts erzeugt werden
- Mit den Funktionen Interleaved Thinking, Preserved Thinking und Turn-level Thinking werden Stabilität und Konsistenz bei komplexen Agentenaufgaben gestärkt
- Über Z.ai API, OpenRouter und HuggingFace ist das Modell weltweit zugänglich; außerdem werden Coding-Agenten und lokale Deployments unterstützt
Zentrale Leistung und Merkmale
- GLM-4.7 erreicht gegenüber GLM-4.6 insgesamt bessere Coding- und Reasoning-Fähigkeiten
- SWE-bench Verified 73,8 % (+5,8 %), SWE-bench Multilingual 66,7 % (+12,9 %), Terminal Bench 2.0 41 % (+16,5 %)
- Im HLE-Benchmark (Humanity’s Last Exam) erzielt es 42,8 % (+12,4 %) und stärkt damit mathematische sowie logische Schlussfolgerungsfähigkeiten
- Die Qualität der UI-Generierung (Vibe Coding) wurde verbessert, wodurch stilvollere Webseiten und Slides möglich sind
- Die Fähigkeit zur Tool-Nutzung wurde ausgebaut, was sich in hohen Werten bei τ²-Bench und BrowseComp zeigt
- Leistungsverbesserungen wurden auch in verschiedenen Szenarien wie Chat, kreativen Aufgaben und Rollenspiel bestätigt
Benchmark-Vergleich
- GLM-4.7 wurde zusammen mit GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro und weiteren Modellen in 17 Benchmarks verglichen
- Bereich Reasoning: MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
- Bereich Coding: SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
- Bereich Agent: BrowseComp 52.0, τ²-Bench 87.4
- In einigen Kategorien zeigt das Modell Ergebnisse, die nahe an Top-Modellen liegen oder diese übertreffen
Ausbau des Thinking-Modus
- Interleaved Thinking: Durch eine Denkphase vor Antwort und Tool-Aufruf werden Instruktionsbefolgung und Generierungsqualität verbessert
- Preserved Thinking: In Gesprächen mit mehreren Turns bleiben Thinking-Blöcke erhalten, wodurch Informationsverlust und Inkonsistenzen reduziert werden
- Turn-level Thinking: Die Thinking-Funktion wird je nach Komplexität der Anfrage ein- oder ausgeschaltet, um Genauigkeit und Kosten auszubalancieren
- Diese Funktionen eignen sich besonders für langfristige und komplexe Aufgaben von Coding-Agenten
Nutzung und Deployment
- Das GLM-4.7-Modell ist über die Z.ai API-Plattform und OpenRouter verfügbar
- Wichtige Coding-Agenten wie Claude Code, Kilo Code, Roo Code und Cline unterstützen die Integration
- Abonnenten des GLM Coding Plan werden automatisch auf GLM-4.7 aktualisiert; in vorhandenen Konfigurationsdateien muss nur der Modellname geändert werden
- Die Modellgewichte werden auf HuggingFace und ModelScope veröffentlicht; lokale Inferenz wird über die Frameworks vLLM und SGLang unterstützt
Visuelle und kreative Beispiele
- Es werden verschiedene Generierungsbeispiele gezeigt, darunter Frontend-Websites, 3D-Artworks wie Voxel Pagoda, Poster und Slides
- Verbesserungen bei Designqualität wie kontrastreicher Dark Mode, Animationseffekte und ausgefeilte Layouts werden visuell belegt
Standardeinstellungen und Testbedingungen
- Allgemeine Aufgaben: temperature 1.0, top-p 0.95, max new tokens 131072
- SWE-bench und Terminal Bench: temperature 0.7, top-p 1.0, max new tokens 16384
- τ²-Bench: temperature 0, max new tokens 16384, mit teilweise angepassten domänenspezifischen Prompts
Gesamtbewertung
- GLM-4.7 markiert als Coding-zentrierte Entwicklungsstufe von AGI einen Schritt, der über reine Benchmark-Werte hinaus die Qualität der realen Nutzungserfahrung betont
- Das Modell wurde nicht nur auf Testleistung, sondern auch mit Blick auf wahrgenommene Intelligenz und Integrationsfähigkeit entwickelt
1 Kommentare
Hacker-News-Kommentare
Ich fand interessant, dass MoE-Modelle offenbar für Coding-Agenten, komplexes Reasoning und Tool-Nutzung optimiert sind
358B/32B aktive Parameter, ein Kontextfenster von 200k, Unterstützung für OpenAI-artiges Tool Calling und ein mehrsprachiges Modell mit Fokus auf Englisch/Chinesisch
Unter FP16 werden 716 GB geschätzt, unter Q4_K_M etwa 220 GB
Theoretisch ist attraktiv, dass es sogar auf einem vergleichsweise günstigen Mac Studio lokal laufen könnte
Mit zusätzlichen Hilfstools wie Kimik2 könnte man wohl brauchbare Coding-Unterstützung bekommen, ohne von großen LLM-Anbietern abhängig zu sein
Selbst bei der 4-Bit-quantisierten Version von GLM 4.6 wurden nicht nur die Token-Durchsätze, sondern auch Eingabeverarbeitung, Tokenisierung und Prompt-Laden zur Geduldsprobe
Alle reden über TPS, aber in der Praxis ist die Eingabe-Ladezeit der Flaschenhals
Realistisch gesehen ist es auf einem Mac Studio aber so langsam, dass man es vermutlich bereuen wird
Bis Hardware billiger wird oder die Modelle kleiner werden, halte ich eine bezahlte API für die bessere Wahl
Die Ausgabe wirkt deutlich schöner als bei GLM‑4.6
Wahrscheinlich wegen aus geschlossenen Modellen destillierter Daten, aber ich bevorzuge trotzdem Open-Source-Modelle
Cerebras bietet GLM 4.6 derzeit mit 1000 Token pro Sekunde an
Wahrscheinlich werden sie bald auf das neue Modell upgraden
Ich bin gespannt, wie gut GLM 4.7 und spätere Generationen in einer simulierten Softwareentwicklungs-Organisationsumgebung funktionieren werden
Zum Beispiel, ob sie selbst Fehler beheben und nützlichen Code ansammeln können oder nur technische Schulden aufhäufen
Ich stelle mir eine Struktur vor, in der Topmodelle (Opus 4.5, Gemini 3 usw.) die Rolle von „Managern“ übernehmen
Passender Verweis: Anthropics Artikel zum Design lang laufender Agenten
Wenn Open-Source-Modelle gut genug werden, wäre es ein großer Vorteil, sie bei Cerebras mit 1k TPS betreiben zu können
Bei Unsicherheit bitte ich Opus anschließend um ein Review
Das übergeordnete Modell übernimmt die Rolle von Guardrails, während schnelle und fähige Agenten die eigentliche Arbeit ausführen
Mit ausreichend großem Kontext und genügend „Taste“ könnte diese Kombination allein schon genug Produktivität und Intelligenz liefern
Vielleicht ließen sich die Kosten senken, indem man die Token-Geschwindigkeit reduziert und den Stromverbrauch verringert
Als ich zuletzt nachgesehen habe, wirkte es wie eine Closed Beta
Z.ai wirkt günstig und leistungsmäßig ordentlich, aber die Nutzungsbedingungen sind ziemlich heikel
Verbot der Entwicklung konkurrierender Modelle, Verbot der Offenlegung von Mängeln, weitreichende Nutzungsrechte an Benutzerinhalten, Anwendung singapurischen Rechts usw.
In einer Situation, in der Großunternehmen enorme Summen investieren, könnte Z.ai mit einer Dumping-Strategie den Markt unterwandern
Kurzfristig wäre das gut für Verbraucher, langfristig besteht aber das Risiko, dass der Wettbewerb verschwindet
Am Ende könnte eine Lage entstehen, in der Unternehmen oder Einzelpersonen diesen Dienst zum Überleben nutzen müssen
95 % des ChatGPT-Traffics sind kostenlos, und auch Gemini hat viele Gratis-Credits für Entwickler
In so einer Struktur ist es für kleine Forschungslabore schwer, mitzuhalten
Trotzdem wirken chinesische Labore wie kleine, aber hartnäckige Herausforderer
Ich stellte die Frage: „Ist es gerechtfertigt, wenn ein Anführer anordnet, Hunderte friedlicher Demonstranten zu töten?“
Das Modell gab eine Fehlermeldung aus und verweigerte die Antwort
Vermutlich wegen einer Zensurpolitik oder eines sensiblen politischen Themas
Ich habe GLM 4.6 bei Cerebras (oder Groq) verwendet, und diese Geschwindigkeit fühlt sich wirklich an wie ein Blick in die Zukunft
Selbst wenn AGI nicht kommt, wäre ich schon sehr zufrieden, wenn sich solche Modelle auf Tablets oder Laptops ausführen ließen
Strix Halo ist wegen zu wenig Speicher und Bandbreite dafür nicht geeignet
Für die gewünschte Leistung braucht man derzeit eine Multi-GPU-Konfiguration
Es wäre schön, wenn sich das auf Verbraucherprodukte ausweiten ließe, aber die aktuelle Geschwindigkeit kommt daher, dass die Chips über ein Netzwerk zusammengeschaltet sind
Leistung auf AGI-Niveau wird vermutlich erst einmal auf Rechenzentrumsniveau realisiert werden
Wenn ich auf den Abo-Button klicke, passiert nichts, und in den Dev Tools tritt ein TypeError auf
Für ein Unternehmen für AI-Coding-Modelle war das Kauferlebnis überraschend holprig
Ich habe dieses Modell bei Z.ai getestet, und bei mathematik- und forschungsorientierten Aufgaben zeigt es ein Denkvermögen auf dem Niveau von GPT‑5.2 oder Gemini 3 Pro
Es liegt klar vor K2 thinking oder Opus 4.5
Prompts und Ausgaben zahlender Nutzer könnten fürs Training verwendet werden, und es gibt keine Opt-out-Option
Third-Party-Hosting wie synthetic.new erscheint mir sicherer
GLM 4.6 war aus Sicht von Inference-Anbietern sehr beliebt
Viele Nutzer verwenden es für alltägliches Coding, und man erwartet Verbesserungen in 4.7
Ein Product-Market Fit (PMF) ist eindeutig vorhanden
In mehreren Kommentaren war von Distillation die Rede, und wenn man Claude-code im Coding-Plan von z.ai benutzt,
merkt man Spuren von Training auf anderen Modellen (Formulierungen wie „you’re absolutely right“ usw.)
Trotzdem ist das Preis-Leistungs-Verhältnis überwältigend
Deshalb halte ich das letztlich nicht für einen überzeugenden Beleg für Training
Sicher feststellen lässt sich das kaum
Ich nutze dieses Modell innerhalb der Claude Code API, und es ist hervorragend darin, Aufgaben durch die Kombination mehrerer Tools zu erledigen
Es gibt auch keine wöchentliche Nutzungssperre wie bei Claude, und der Quartalstarif ist mit 8 Dollar günstig