11 Punkte von GN⁺ 2026-01-20 | 4 Kommentare | Auf WhatsApp teilen
  • GLM-4.7-Flash ist ein großes Sprachmodell mit einer 30B-A3B-MoE-Architektur und bietet als leichtgewichtiges Modell für Deployments eine ausgewogene Balance aus Leistung und Effizienz
  • In verschiedenen Benchmark-Tests wie AIME 25, GPQA und SWE-bench erzielte es hohe Werte und lieferte im Vergleich zu Modellen derselben Klasse (Qwen3-30B/GPT-OSS-20B) wettbewerbsfähige Ergebnisse
  • Es zielt auf Spitzenleistung unter den 30B-Klasse-Modellen ab und stellt einen wichtigen Fortschritt für Open-Source-basierte KI-Forschung und effizientere Deployments dar

Einführung (Introduction)

  • GLM-4.7-Flash ist ein 30B-A3B-Mixture-of-Experts-(MoE)-Modell und zielt auf die stärkste Leistung unter den 30B-Klasse-Modellen ab
    • Es bietet eine leichtgewichtige Deployment-Option, bei der die Balance zwischen Leistung und Effizienz im Mittelpunkt steht
    • Das Design ermöglicht einen effizienteren Einsatz großer Modelle

Benchmark-Leistung (Performances on Benchmarks)

  • Es werden Leistungswerte von GLM-4.7-Flash in verschiedenen standardisierten Benchmark-Tests vorgestellt
    • AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507: 85.0, GPT-OSS-20B: 91.7)
    • GPQA: 75.2 (höher als die Vergleichsmodelle)
    • LCB v6: 64.0
    • HLE: 14.4
    • SWE-bench Verified: 59.2 (deutlicher Abstand zu anderen Modellen)
    • τ²-Bench: 79.5
    • BrowseComp: 42.8
  • In mehreren Kategorien zeigt es bessere Ergebnisse als Qwen3-30B-A3B-Thinking-2507 und GPT-OSS-20B

Lokales Deployment (Serve GLM-4.7-Flash Locally)

  • GLM-4.7-Flash unterstützt die Inferenz-Frameworks vLLM und SGLang

4 Kommentare

 
kimjoin2 2026-01-20

Bei 30B … wie viel VRAM braucht man dafür? schnief

 
crawler 2026-01-21

Da es 30B A3B ist, ist es nicht ganz so schwergewichtig.
Es muss zwar Platz für 30B vorhanden sein, aber sobald dieser Platz gesichert ist, sind die aktiven Parameter nur 3B, daher ist es schnell.

Deshalb meine ich, auch schon Optimierungsmethoden gesehen zu haben, bei denen nur die häufig genutzten Layer im VRAM geladen werden.

 
geekygeek 2026-01-20

24 GB VRAM..? Oder auf einem Mac scheinen 32 GB RAM wohl das Minimum zu sein.

 
GN⁺ 2026-01-20
Hacker-News-Kommentare
  • Ich experimentiere in letzter Zeit mit OpenCode und lasse auf einer 32-GB-GPU ein 30B-A3B-Modell mit llama.cpp (4bit) laufen
    Es gibt genug VRAM, um sogar 128k Kontext problemlos zu nutzen
    Bisher hat Qwen3-coder die besten Ergebnisse geliefert. Nemotron 3 Nano soll laut Benchmarks besser sein, aber bei meiner Hauptaufgabe, dem „Schreiben von Testcode“, habe ich keinen großen Unterschied bemerkt
    Wenn jemand es als 4bit-GGUF quantisiert, werde ich es ausprobieren. Codex hat eine hohe Qualität, ist aber zu langsam. Ich hoffe, dass kleinere Modelle nicht nur bei simplen Benchmarks, sondern auch bei der tatsächlichen Qualität immer besser werden
    • Ich empfehle das Modell GLM-4.7-GGUF. Weitere gute Quantisierungen gibt es auch bei 0xSero
    • Codex liefert normalerweise höhere Qualität, produziert aber gelegentlich Ergebnisse auf dem Niveau von AI slop, sodass man lange wartet auf etwas, das mit Opus in ein paar Minuten erledigt wäre
  • Ich nutze GLM-4.7 im Coding-Plan von z.ai und das Preis-Leistungs-Verhältnis ist erstaunlich
    Ich verwende sowohl claude-code als auch opencode, greife in letzter Zeit aber häufiger zu opencode. claude-code ist eben auf Anthropic-Modelle optimiert
    Diese Veröffentlichung ist die „-Flash“-Version und springt direkt von 4.5-Flash auf 4.7-Flash, also ohne 4.6-Flash dazwischen. Laut Dokumentation ist das Modell auf dem Niveau von Haiku und als ANTHROPIC_DEFAULT_HAIKU_MODEL gesetzt
    • Mich würde interessieren, wie die Leistung zuletzt ist. Ich habe gehört, dass manche Nutzer es wegen geänderter Limits kaum noch verwenden können
    • Ich habe denselben Plan. Ich habe ihn in einer Aktion für $28 für 12 Monate gekauft, und er bietet 5-mal mehr Nutzung als Claude Pro. Momentan nutze ich nur claude code
  • GLM-4.7 ist eine schrittweise Verbesserung, wirkt aber ziemlich solide. Die UI-Oneshot-Demo war deutlich besser als 4.6
    Open Models liegen bei Benchmarks zwar weiterhin ungefähr ein Jahr zurück, langfristig ist das aber interessant
    Bei GLM sind von 355B Parametern nur 31B aktiv, daher ist self-hosting schwierig, aber als Kandidat für einen Cerebras-Endpunkt finde ich es ganz brauchbar
    • Ich habe gestern GLM-4.7 bei Cerebras getestet, nicht die Flash-Version, mit $10 Guthaben. Mit 1000 Token pro Sekunde ist es schnell, aber wegen des rate limit im praktischen Einsatz unbequem. Auch gecachte Token zählen zum Limit, sodass man früh in jeder Minute ausgebremst wird und warten muss
      Für gecachte Token fallen ebenfalls Gebühren an, deshalb habe ich für eine einzige einfache Aufgabe $4 ausgegeben. Mit GPT-5.2-Codex hätte es nicht einmal $0,5 gekostet
    • Es wird viel über Benchmarks gesprochen, aber das ist etwas anderes als reale Workloads. Ich habe claude aufgegeben und bin zu minimax m2.1 gewechselt. Mit open code gefällt es mir sogar besser. Der $10-Plan reicht völlig aus
    • Open Models folgen am Ende nur per distillation nach und werden ohne Innovation immer hinterherhinken. Eher ein Anhänger hinter einem Lkw als etwas, das wirklich „aufschließt“
    • Die Modellqualität anhand einer UI-Demo zu beurteilen, ist unangebracht. Wenn die UI außerhalb der Verteilung liegt, scheitert meist alles. Selbst Codex ist nicht perfekt
  • Ich habe es in LMStudio auf einem M4 MacBook Pro ausprobiert, und es war deutlich schlechter als gpt-oss-20b
    Bei beiden Code-Prompts wurden falscher Code und Endlosschleifen erzeugt. Vielleicht liegt es an der Quantisierung in LMStudio, aber der erste Eindruck ist nicht gut
    • Nutzt du vielleicht das vollständige BF16-Modell oder die mlx4-quantisierte Version?
  • Ich möchte die Leute fragen, die es bereits lokal laufen lassen — was ist aktuell das einfachste Setup, also Tooling plus Quantisierungsformat? Wenn jemand ein funktionierendes Befehlsbeispiel hat, bitte teilen
    • Ich nutze llama-server, kompiliert mit dem CUDA-Backend von llama.cpp. Auf Lubuntu + RTX 3090 lasse ich die Version mit Q4_K_M quant laufen
      Relevante Links: llama.cpp releases, GLM-4.7-Flash-GGUF, supported backends
      llama-server -ngl 999 --ctx-size 32768 -m GLM-4.7-Flash-Q4_K_M.gguf
      
      Danach kann man unter http://127.0.0.1:8080 chatten oder über eine OpenAI-kompatible API zugreifen
      Direkt nach dem Release eines neuen Modells kann es allerdings noch Bugs geben, daher empfiehlt sich ein Update nach ein paar Tagen
    • Es lässt sich auch mit dem Befehl ollama run hf.co/ngxson/GLM-4.7-Flash-GGUF:Q4_K_M starten. Es ist schnell, aber das Template ist noch nicht fertig, daher ist die Ausgabe chaotisch. Ich warte darauf, dass auf ollama.com ein offizielles Template erscheint
    • In LM Studio einfach nach „4.7-flash“ suchen und die Community-Version für mlx installieren
    • Persönlich würde ich llama.cpp 4bit quant oder einen Wrapper dafür empfehlen
  • Laut Beschreibung dieses Releases gilt:
    „GLM-4.7-Flash ist ein leichtgewichtiges, hocheffizientes Modell, die kostenlose Version von GLM-4.7, und bietet geringe Latenz sowie hohen Durchsatz bei Coding-, Reasoning- und Generierungsaufgaben.
    Auch bei Übersetzung, Rollenspiel und ästhetischer Generierung zeigt es starke Leistung.“
    Mehr dazu in den offiziellen Release Notes
    • Zwei der in diesem Jahr veröffentlichten Notes sind versehentlich mit 2025 datiert. Es könnte sich um eine manuell gepflegte Seite handeln
  • Für alle, die wissen wollen, warum dieses Release wichtig ist:
    Man kann jetzt KI auf dem Niveau von GPT-5-mini lokal auf einem MacBook mit 32 GB RAM laufen lassen
    Außerdem werden die Kosten für LLM-as-a-service viel günstiger — etwa ein Zehntel des Preises von Haiku 4.5
  • Der SWE-bench-Verified-Wert liegt bei 59,2, was für ein 30B-Modell ziemlich beeindruckend ist. Das ist höher als die 55,4 von Qwen3-Coder 480B
    • Devstral 2 Small (24B) liegt mit 68,0 % höher. Offizieller Link
    • SWE-Bench Verified ist inzwischen aber kaum noch vertrauenswürdig. Repositories und Sprachen sind eingeschränkt, und es gibt auch Probleme mit Datenmemorierung. SWE-Bench Pro wirkt vielversprechender, ist aber ebenfalls nicht perfekt
  • Wenn ich schnelle Arbeit brauche, nutze ich Gemini oder Cerebras. Siehe den Cerebras-Blog
    GLM 4.7 reicht für den Alltag aus, aber manchmal fehlt es an Instruktionsverständnis, was frustrierend sein kann
    • Genau diese Fähigkeit zur Verarbeitung von Instruktionen ist der Grund, warum Opus 4.5 für mich so gut ist. Hoffentlich wird das in der nächsten Version verbessert
  • Dass GLM 4.7 mit GPT-OSS-20B verglichen wird, wirkt auf mich wenig überzeugend. Wenn es auf dem Niveau von Sonnet 4/4.5 wäre, müsste die Flash-Version GPT-OSS-120B klar schlagen. Ich hätte gern auch Aider-Ergebnisse gesehen
    • Zu erwarten, dass 30-A3B besser ist als 117-A5.1B, ist etwas viel verlangt. Bei Agent-Aufrufen scheint es aber besser zu sein als GPT-20B
    • In der Praxis sind die Benchmarks übertrieben. Für einfache Aufgaben ist es okay, aber an Sonnet kommt es bei weitem nicht heran. Das Preis-Leistungs-Verhältnis ist trotzdem gut
    • Bezogen auf die Codequalität liegt es auf dem Niveau von Sonnet 3.5. Von Sonnet 4/4.5 ist es noch ein gutes Stück entfernt