11 Punkte von GN⁺ 2026-01-20 | Noch keine Kommentare. | Auf WhatsApp teilen
  • GLM-4.7-Flash ist ein großes Sprachmodell mit einer 30B-A3B-MoE-Architektur und bietet als leichtgewichtiges Modell für Deployments eine ausgewogene Balance aus Leistung und Effizienz
  • In verschiedenen Benchmark-Tests wie AIME 25, GPQA und SWE-bench erzielte es hohe Werte und lieferte im Vergleich zu Modellen derselben Klasse (Qwen3-30B/GPT-OSS-20B) wettbewerbsfähige Ergebnisse
  • Es zielt auf Spitzenleistung unter den 30B-Klasse-Modellen ab und stellt einen wichtigen Fortschritt für Open-Source-basierte KI-Forschung und effizientere Deployments dar

Einführung (Introduction)

  • GLM-4.7-Flash ist ein 30B-A3B-Mixture-of-Experts-(MoE)-Modell und zielt auf die stärkste Leistung unter den 30B-Klasse-Modellen ab
    • Es bietet eine leichtgewichtige Deployment-Option, bei der die Balance zwischen Leistung und Effizienz im Mittelpunkt steht
    • Das Design ermöglicht einen effizienteren Einsatz großer Modelle

Benchmark-Leistung (Performances on Benchmarks)

  • Es werden Leistungswerte von GLM-4.7-Flash in verschiedenen standardisierten Benchmark-Tests vorgestellt
    • AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507: 85.0, GPT-OSS-20B: 91.7)
    • GPQA: 75.2 (höher als die Vergleichsmodelle)
    • LCB v6: 64.0
    • HLE: 14.4
    • SWE-bench Verified: 59.2 (deutlicher Abstand zu anderen Modellen)
    • τ²-Bench: 79.5
    • BrowseComp: 42.8
  • In mehreren Kategorien zeigt es bessere Ergebnisse als Qwen3-30B-A3B-Thinking-2507 und GPT-OSS-20B

Lokales Deployment (Serve GLM-4.7-Flash Locally)

  • GLM-4.7-Flash unterstützt die Inferenz-Frameworks vLLM und SGLang

Noch keine Kommentare.

Noch keine Kommentare.