Vorstellung des Modells GLM-4.7-Flash

(huggingface.co)

11 Punkte von GN⁺ 2026-01-20 | Noch keine Kommentare. | Auf WhatsApp teilen

GLM-4.7-Flash ist ein großes Sprachmodell mit einer 30B-A3B-MoE-Architektur und bietet als leichtgewichtiges Modell für Deployments eine ausgewogene Balance aus Leistung und Effizienz
In verschiedenen Benchmark-Tests wie AIME 25, GPQA und SWE-bench erzielte es hohe Werte und lieferte im Vergleich zu Modellen derselben Klasse (Qwen3-30B/GPT-OSS-20B) wettbewerbsfähige Ergebnisse
Es zielt auf Spitzenleistung unter den 30B-Klasse-Modellen ab und stellt einen wichtigen Fortschritt für Open-Source-basierte KI-Forschung und effizientere Deployments dar

Einführung (Introduction)

GLM-4.7-Flash ist ein 30B-A3B-Mixture-of-Experts-(MoE)-Modell und zielt auf die stärkste Leistung unter den 30B-Klasse-Modellen ab
- Es bietet eine leichtgewichtige Deployment-Option, bei der die Balance zwischen Leistung und Effizienz im Mittelpunkt steht
- Das Design ermöglicht einen effizienteren Einsatz großer Modelle

Es werden Leistungswerte von GLM-4.7-Flash in verschiedenen standardisierten Benchmark-Tests vorgestellt
- AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507: 85.0, GPT-OSS-20B: 91.7)
- GPQA: 75.2 (höher als die Vergleichsmodelle)
- LCB v6: 64.0
- HLE: 14.4
- SWE-bench Verified: 59.2 (deutlicher Abstand zu anderen Modellen)
- τ²-Bench: 79.5
- BrowseComp: 42.8
In mehreren Kategorien zeigt es bessere Ergebnisse als Qwen3-30B-A3B-Thinking-2507 und GPT-OSS-20B

GLM-4.7-Flash unterstützt die Inferenz-Frameworks vLLM und SGLang
- Beide Frameworks werden nur im Main-Branch unterstützt
- Hinweise zum Deployment finden sich im offiziellen GitHub-Repository (zai-org/GLM-4.5)