7 Punkte von GN⁺ 2025-12-23 | 1 Kommentare | Auf WhatsApp teilen
  • GLM-4.7 ist ein Large Language Model, das seine Leistung gegenüber dem Vorgänger in Bereichen wie mehrsprachigem Coding, terminalbasierten Aufgaben und komplexem Reasoning deutlich verbessert hat
  • In wichtigen Benchmarks wie SWE-bench, Terminal Bench 2.0 und HLE verzeichnet es Verbesserungen von jeweils +5,8 %, +16,5 % und +12,4 %
  • Die Qualität der UI-Generierung wurde verbessert, sodass sauberere, modernere Webseiten und präzisere Slide-Layouts erzeugt werden
  • Mit den Funktionen Interleaved Thinking, Preserved Thinking und Turn-level Thinking werden Stabilität und Konsistenz bei komplexen Agentenaufgaben gestärkt
  • Über Z.ai API, OpenRouter und HuggingFace ist das Modell weltweit zugänglich; außerdem werden Coding-Agenten und lokale Deployments unterstützt

Zentrale Leistung und Merkmale

  • GLM-4.7 erreicht gegenüber GLM-4.6 insgesamt bessere Coding- und Reasoning-Fähigkeiten
    • SWE-bench Verified 73,8 % (+5,8 %), SWE-bench Multilingual 66,7 % (+12,9 %), Terminal Bench 2.0 41 % (+16,5 %)
    • Im HLE-Benchmark (Humanity’s Last Exam) erzielt es 42,8 % (+12,4 %) und stärkt damit mathematische sowie logische Schlussfolgerungsfähigkeiten
  • Die Qualität der UI-Generierung (Vibe Coding) wurde verbessert, wodurch stilvollere Webseiten und Slides möglich sind
  • Die Fähigkeit zur Tool-Nutzung wurde ausgebaut, was sich in hohen Werten bei τ²-Bench und BrowseComp zeigt
  • Leistungsverbesserungen wurden auch in verschiedenen Szenarien wie Chat, kreativen Aufgaben und Rollenspiel bestätigt

Benchmark-Vergleich

  • GLM-4.7 wurde zusammen mit GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro und weiteren Modellen in 17 Benchmarks verglichen
    • Bereich Reasoning: MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
    • Bereich Coding: SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
    • Bereich Agent: BrowseComp 52.0, τ²-Bench 87.4
  • In einigen Kategorien zeigt das Modell Ergebnisse, die nahe an Top-Modellen liegen oder diese übertreffen

Ausbau des Thinking-Modus

  • Interleaved Thinking: Durch eine Denkphase vor Antwort und Tool-Aufruf werden Instruktionsbefolgung und Generierungsqualität verbessert
  • Preserved Thinking: In Gesprächen mit mehreren Turns bleiben Thinking-Blöcke erhalten, wodurch Informationsverlust und Inkonsistenzen reduziert werden
  • Turn-level Thinking: Die Thinking-Funktion wird je nach Komplexität der Anfrage ein- oder ausgeschaltet, um Genauigkeit und Kosten auszubalancieren
  • Diese Funktionen eignen sich besonders für langfristige und komplexe Aufgaben von Coding-Agenten

Nutzung und Deployment

  • Das GLM-4.7-Modell ist über die Z.ai API-Plattform und OpenRouter verfügbar
  • Wichtige Coding-Agenten wie Claude Code, Kilo Code, Roo Code und Cline unterstützen die Integration
  • Abonnenten des GLM Coding Plan werden automatisch auf GLM-4.7 aktualisiert; in vorhandenen Konfigurationsdateien muss nur der Modellname geändert werden
  • Die Modellgewichte werden auf HuggingFace und ModelScope veröffentlicht; lokale Inferenz wird über die Frameworks vLLM und SGLang unterstützt

Visuelle und kreative Beispiele

  • Es werden verschiedene Generierungsbeispiele gezeigt, darunter Frontend-Websites, 3D-Artworks wie Voxel Pagoda, Poster und Slides
  • Verbesserungen bei Designqualität wie kontrastreicher Dark Mode, Animationseffekte und ausgefeilte Layouts werden visuell belegt

Standardeinstellungen und Testbedingungen

  • Allgemeine Aufgaben: temperature 1.0, top-p 0.95, max new tokens 131072
  • SWE-bench und Terminal Bench: temperature 0.7, top-p 1.0, max new tokens 16384
  • τ²-Bench: temperature 0, max new tokens 16384, mit teilweise angepassten domänenspezifischen Prompts

Gesamtbewertung

  • GLM-4.7 markiert als Coding-zentrierte Entwicklungsstufe von AGI einen Schritt, der über reine Benchmark-Werte hinaus die Qualität der realen Nutzungserfahrung betont
  • Das Modell wurde nicht nur auf Testleistung, sondern auch mit Blick auf wahrgenommene Intelligenz und Integrationsfähigkeit entwickelt

1 Kommentare

 
GN⁺ 2025-12-23
Hacker-News-Kommentare
  • Ich fand interessant, dass MoE-Modelle offenbar für Coding-Agenten, komplexes Reasoning und Tool-Nutzung optimiert sind
    358B/32B aktive Parameter, ein Kontextfenster von 200k, Unterstützung für OpenAI-artiges Tool Calling und ein mehrsprachiges Modell mit Fokus auf Englisch/Chinesisch
    Unter FP16 werden 716 GB geschätzt, unter Q4_K_M etwa 220 GB
    Theoretisch ist attraktiv, dass es sogar auf einem vergleichsweise günstigen Mac Studio lokal laufen könnte
    Mit zusätzlichen Hilfstools wie Kimik2 könnte man wohl brauchbare Coding-Unterstützung bekommen, ohne von großen LLM-Anbietern abhängig zu sein

    • Ich habe LLMs auf einem gebrauchten Mac Studio Ultra M1 (RAM 128GB) laufen lassen, aber es war viel zu langsam
      Selbst bei der 4-Bit-quantisierten Version von GLM 4.6 wurden nicht nur die Token-Durchsätze, sondern auch Eingabeverarbeitung, Tokenisierung und Prompt-Laden zur Geduldsprobe
      Alle reden über TPS, aber in der Praxis ist die Eingabe-Ladezeit der Flaschenhals
    • Wenn es OpenAI-artiges Tool Calling ist, dürfte es wahrscheinlich auf Harmony basieren
      Realistisch gesehen ist es auf einem Mac Studio aber so langsam, dass man es vermutlich bereuen wird
      Bis Hardware billiger wird oder die Modelle kleiner werden, halte ich eine bezahlte API für die bessere Wahl
    • Wenn jemand aus der Vergangenheit diesen Kommentar sehen würde, könnte er es wohl kaum glauben
    • Die Sonnet-Version sollte auf 4.5 korrigiert werden
      Die Ausgabe wirkt deutlich schöner als bei GLM‑4.6
      Wahrscheinlich wegen aus geschlossenen Modellen destillierter Daten, aber ich bevorzuge trotzdem Open-Source-Modelle
    • Ich plane, dieses Modell auf zwei Strix-Halo-Systemen (insgesamt 256 GB RAM) laufen zu lassen, verbunden per USB4/TB3
  • Cerebras bietet GLM 4.6 derzeit mit 1000 Token pro Sekunde an
    Wahrscheinlich werden sie bald auf das neue Modell upgraden
    Ich bin gespannt, wie gut GLM 4.7 und spätere Generationen in einer simulierten Softwareentwicklungs-Organisationsumgebung funktionieren werden
    Zum Beispiel, ob sie selbst Fehler beheben und nützlichen Code ansammeln können oder nur technische Schulden aufhäufen
    Ich stelle mir eine Struktur vor, in der Topmodelle (Opus 4.5, Gemini 3 usw.) die Rolle von „Managern“ übernehmen
    Passender Verweis: Anthropics Artikel zum Design lang laufender Agenten
    Wenn Open-Source-Modelle gut genug werden, wäre es ein großer Vorteil, sie bei Cerebras mit 1k TPS betreiben zu können

    • Ich lasse Opus die Detailplanung und Tests schreiben und Cerebras GLM 4.6 die Implementierung übernehmen
      Bei Unsicherheit bitte ich Opus anschließend um ein Review
    • Ich denke auch, dass sich die Entwicklung in diese Richtung bewegen wird
      Das übergeordnete Modell übernimmt die Rolle von Guardrails, während schnelle und fähige Agenten die eigentliche Arbeit ausführen
      Mit ausreichend großem Kontext und genügend „Taste“ könnte diese Kombination allein schon genug Produktivität und Intelligenz liefern
    • Ich frage mich, wie die API-Preise von Cerebras aussehen
      Vielleicht ließen sich die Kosten senken, indem man die Token-Geschwindigkeit reduziert und den Stromverbrauch verringert
    • Ich frage mich, wie einfach es ist, zahlender Cerebras-Kunde zu werden
      Als ich zuletzt nachgesehen habe, wirkte es wie eine Closed Beta
  • Z.ai wirkt günstig und leistungsmäßig ordentlich, aber die Nutzungsbedingungen sind ziemlich heikel
    Verbot der Entwicklung konkurrierender Modelle, Verbot der Offenlegung von Mängeln, weitreichende Nutzungsrechte an Benutzerinhalten, Anwendung singapurischen Rechts usw.
    In einer Situation, in der Großunternehmen enorme Summen investieren, könnte Z.ai mit einer Dumping-Strategie den Markt unterwandern
    Kurzfristig wäre das gut für Verbraucher, langfristig besteht aber das Risiko, dass der Wettbewerb verschwindet
    Am Ende könnte eine Lage entstehen, in der Unternehmen oder Einzelpersonen diesen Dienst zum Überleben nutzen müssen

    • Ich halte riesiges Kapital für die größte Bedrohung für Innovation
      95 % des ChatGPT-Traffics sind kostenlos, und auch Gemini hat viele Gratis-Credits für Entwickler
      In so einer Struktur ist es für kleine Forschungslabore schwer, mitzuhalten
      Trotzdem wirken chinesische Labore wie kleine, aber hartnäckige Herausforderer
  • Ich stellte die Frage: „Ist es gerechtfertigt, wenn ein Anführer anordnet, Hunderte friedlicher Demonstranten zu töten?“
    Das Modell gab eine Fehlermeldung aus und verweigerte die Antwort
    Vermutlich wegen einer Zensurpolitik oder eines sensiblen politischen Themas

  • Ich habe GLM 4.6 bei Cerebras (oder Groq) verwendet, und diese Geschwindigkeit fühlt sich wirklich an wie ein Blick in die Zukunft
    Selbst wenn AGI nicht kommt, wäre ich schon sehr zufrieden, wenn sich solche Modelle auf Tablets oder Laptops ausführen ließen

    • Beim Apple M5 Max dürften Prompt-Verarbeitung und Bandbreite verbessert sein, sodass ein 8-Bit-quantisiertes Modell (ca. 360 GB) wohl problemlos laufen könnte
      Strix Halo ist wegen zu wenig Speicher und Bandbreite dafür nicht geeignet
      Für die gewünschte Leistung braucht man derzeit eine Multi-GPU-Konfiguration
    • Cerebras und Groq sind dank eigenem Chip-Design so schnell
      Es wäre schön, wenn sich das auf Verbraucherprodukte ausweiten ließe, aber die aktuelle Geschwindigkeit kommt daher, dass die Chips über ein Netzwerk zusammengeschaltet sind
      Leistung auf AGI-Niveau wird vermutlich erst einmal auf Rechenzentrumsniveau realisiert werden
  • Wenn ich auf den Abo-Button klicke, passiert nichts, und in den Dev Tools tritt ein TypeError auf
    Für ein Unternehmen für AI-Coding-Modelle war das Kauferlebnis überraschend holprig

    • Man musste zuerst ein Konto anlegen, damit der Subscribe-Button funktionierte
  • Ich habe dieses Modell bei Z.ai getestet, und bei mathematik- und forschungsorientierten Aufgaben zeigt es ein Denkvermögen auf dem Niveau von GPT‑5.2 oder Gemini 3 Pro
    Es liegt klar vor K2 thinking oder Opus 4.5

    • Ein Z.ai-Abo würde ich für geschäftliche Nutzung aber nicht empfehlen
      Prompts und Ausgaben zahlender Nutzer könnten fürs Training verwendet werden, und es gibt keine Opt-out-Option
      Third-Party-Hosting wie synthetic.new erscheint mir sicherer
  • GLM 4.6 war aus Sicht von Inference-Anbietern sehr beliebt
    Viele Nutzer verwenden es für alltägliches Coding, und man erwartet Verbesserungen in 4.7
    Ein Product-Market Fit (PMF) ist eindeutig vorhanden

  • In mehreren Kommentaren war von Distillation die Rede, und wenn man Claude-code im Coding-Plan von z.ai benutzt,
    merkt man Spuren von Training auf anderen Modellen (Formulierungen wie „you’re absolutely right“ usw.)
    Trotzdem ist das Preis-Leistungs-Verhältnis überwältigend

    • Gemini 3 Flash hat heute bei mir dieselbe Formulierung verwendet
      Deshalb halte ich das letztlich nicht für einen überzeugenden Beleg für Training
    • Möglich ist auch, dass sich Internetdaten auf ähnliche Weise angenähert haben
      Sicher feststellen lässt sich das kaum
  • Ich nutze dieses Modell innerhalb der Claude Code API, und es ist hervorragend darin, Aufgaben durch die Kombination mehrerer Tools zu erledigen
    Es gibt auch keine wöchentliche Nutzungssperre wie bei Claude, und der Quartalstarif ist mit 8 Dollar günstig

    • Ich frage mich, ob man in Claude Code standardmäßig Claude-Modelle verwenden und nach Erreichen des Limits auf ein GLM-Modell umschalten kann