Vorstellung des Modells GLM-4.7-Flash
(huggingface.co)- GLM-4.7-Flash ist ein großes Sprachmodell mit einer 30B-A3B-MoE-Architektur und bietet als leichtgewichtiges Modell für Deployments eine ausgewogene Balance aus Leistung und Effizienz
- In verschiedenen Benchmark-Tests wie AIME 25, GPQA und SWE-bench erzielte es hohe Werte und lieferte im Vergleich zu Modellen derselben Klasse (Qwen3-30B/GPT-OSS-20B) wettbewerbsfähige Ergebnisse
- Es zielt auf Spitzenleistung unter den 30B-Klasse-Modellen ab und stellt einen wichtigen Fortschritt für Open-Source-basierte KI-Forschung und effizientere Deployments dar
Einführung (Introduction)
- GLM-4.7-Flash ist ein 30B-A3B-Mixture-of-Experts-(MoE)-Modell und zielt auf die stärkste Leistung unter den 30B-Klasse-Modellen ab
- Es bietet eine leichtgewichtige Deployment-Option, bei der die Balance zwischen Leistung und Effizienz im Mittelpunkt steht
- Das Design ermöglicht einen effizienteren Einsatz großer Modelle
Benchmark-Leistung (Performances on Benchmarks)
- Es werden Leistungswerte von GLM-4.7-Flash in verschiedenen standardisierten Benchmark-Tests vorgestellt
- AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507: 85.0, GPT-OSS-20B: 91.7)
- GPQA: 75.2 (höher als die Vergleichsmodelle)
- LCB v6: 64.0
- HLE: 14.4
- SWE-bench Verified: 59.2 (deutlicher Abstand zu anderen Modellen)
- τ²-Bench: 79.5
- BrowseComp: 42.8
- In mehreren Kategorien zeigt es bessere Ergebnisse als Qwen3-30B-A3B-Thinking-2507 und GPT-OSS-20B
Lokales Deployment (Serve GLM-4.7-Flash Locally)
- GLM-4.7-Flash unterstützt die Inferenz-Frameworks vLLM und SGLang
- Beide Frameworks werden nur im Main-Branch unterstützt
- Hinweise zum Deployment finden sich im offiziellen GitHub-Repository (zai-org/GLM-4.5)
4 Kommentare
Bei 30B … wie viel VRAM braucht man dafür? schnief
Da es 30B A3B ist, ist es nicht ganz so schwergewichtig.
Es muss zwar Platz für 30B vorhanden sein, aber sobald dieser Platz gesichert ist, sind die aktiven Parameter nur 3B, daher ist es schnell.
Deshalb meine ich, auch schon Optimierungsmethoden gesehen zu haben, bei denen nur die häufig genutzten Layer im VRAM geladen werden.
24 GB VRAM..? Oder auf einem Mac scheinen 32 GB RAM wohl das Minimum zu sein.
Hacker-News-Kommentare
Es gibt genug VRAM, um sogar 128k Kontext problemlos zu nutzen
Bisher hat Qwen3-coder die besten Ergebnisse geliefert. Nemotron 3 Nano soll laut Benchmarks besser sein, aber bei meiner Hauptaufgabe, dem „Schreiben von Testcode“, habe ich keinen großen Unterschied bemerkt
Wenn jemand es als 4bit-GGUF quantisiert, werde ich es ausprobieren. Codex hat eine hohe Qualität, ist aber zu langsam. Ich hoffe, dass kleinere Modelle nicht nur bei simplen Benchmarks, sondern auch bei der tatsächlichen Qualität immer besser werden
Ich verwende sowohl claude-code als auch opencode, greife in letzter Zeit aber häufiger zu opencode. claude-code ist eben auf Anthropic-Modelle optimiert
Diese Veröffentlichung ist die „-Flash“-Version und springt direkt von 4.5-Flash auf 4.7-Flash, also ohne 4.6-Flash dazwischen. Laut Dokumentation ist das Modell auf dem Niveau von Haiku und als
ANTHROPIC_DEFAULT_HAIKU_MODELgesetztOpen Models liegen bei Benchmarks zwar weiterhin ungefähr ein Jahr zurück, langfristig ist das aber interessant
Bei GLM sind von 355B Parametern nur 31B aktiv, daher ist self-hosting schwierig, aber als Kandidat für einen Cerebras-Endpunkt finde ich es ganz brauchbar
Für gecachte Token fallen ebenfalls Gebühren an, deshalb habe ich für eine einzige einfache Aufgabe $4 ausgegeben. Mit GPT-5.2-Codex hätte es nicht einmal $0,5 gekostet
Bei beiden Code-Prompts wurden falscher Code und Endlosschleifen erzeugt. Vielleicht liegt es an der Quantisierung in LMStudio, aber der erste Eindruck ist nicht gut
Relevante Links: llama.cpp releases, GLM-4.7-Flash-GGUF, supported backends Danach kann man unter http://127.0.0.1:8080 chatten oder über eine OpenAI-kompatible API zugreifen
Direkt nach dem Release eines neuen Modells kann es allerdings noch Bugs geben, daher empfiehlt sich ein Update nach ein paar Tagen
ollama run hf.co/ngxson/GLM-4.7-Flash-GGUF:Q4_K_Mstarten. Es ist schnell, aber das Template ist noch nicht fertig, daher ist die Ausgabe chaotisch. Ich warte darauf, dass auf ollama.com ein offizielles Template erscheint„GLM-4.7-Flash ist ein leichtgewichtiges, hocheffizientes Modell, die kostenlose Version von GLM-4.7, und bietet geringe Latenz sowie hohen Durchsatz bei Coding-, Reasoning- und Generierungsaufgaben.
Auch bei Übersetzung, Rollenspiel und ästhetischer Generierung zeigt es starke Leistung.“
Mehr dazu in den offiziellen Release Notes
Man kann jetzt KI auf dem Niveau von GPT-5-mini lokal auf einem MacBook mit 32 GB RAM laufen lassen
Außerdem werden die Kosten für LLM-as-a-service viel günstiger — etwa ein Zehntel des Preises von Haiku 4.5
GLM 4.7 reicht für den Alltag aus, aber manchmal fehlt es an Instruktionsverständnis, was frustrierend sein kann