- GLM-4.7-Flash ist ein großes Sprachmodell mit einer 30B-A3B-MoE-Architektur und bietet als leichtgewichtiges Modell für Deployments eine ausgewogene Balance aus Leistung und Effizienz
- In verschiedenen Benchmark-Tests wie AIME 25, GPQA und SWE-bench erzielte es hohe Werte und lieferte im Vergleich zu Modellen derselben Klasse (Qwen3-30B/GPT-OSS-20B) wettbewerbsfähige Ergebnisse
- Es zielt auf Spitzenleistung unter den 30B-Klasse-Modellen ab und stellt einen wichtigen Fortschritt für Open-Source-basierte KI-Forschung und effizientere Deployments dar
Einführung (Introduction)
- GLM-4.7-Flash ist ein 30B-A3B-Mixture-of-Experts-(MoE)-Modell und zielt auf die stärkste Leistung unter den 30B-Klasse-Modellen ab
- Es bietet eine leichtgewichtige Deployment-Option, bei der die Balance zwischen Leistung und Effizienz im Mittelpunkt steht
- Das Design ermöglicht einen effizienteren Einsatz großer Modelle
Benchmark-Leistung (Performances on Benchmarks)
- Es werden Leistungswerte von GLM-4.7-Flash in verschiedenen standardisierten Benchmark-Tests vorgestellt
- AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507: 85.0, GPT-OSS-20B: 91.7)
- GPQA: 75.2 (höher als die Vergleichsmodelle)
- LCB v6: 64.0
- HLE: 14.4
- SWE-bench Verified: 59.2 (deutlicher Abstand zu anderen Modellen)
- τ²-Bench: 79.5
- BrowseComp: 42.8
- In mehreren Kategorien zeigt es bessere Ergebnisse als Qwen3-30B-A3B-Thinking-2507 und GPT-OSS-20B
Lokales Deployment (Serve GLM-4.7-Flash Locally)
- GLM-4.7-Flash unterstützt die Inferenz-Frameworks vLLM und SGLang
Noch keine Kommentare.