6 Punkte von GN⁺ 2026-02-12 | 4 Kommentare | Auf WhatsApp teilen
  • Ein großes Sprachmodell mit verbesserter Effizienz und Fähigkeit zur Ausführung langfristiger Aufgaben
  • Gegenüber dem Vorgänger auf 744 Milliarden Parameter (40 Milliarden aktiv) erweitert, mit 28,5 Billionen Tokens an Pretraining-Daten
  • Integration von DeepSeek Sparse Attention (DSA), um die Verarbeitung langer Kontexte beizubehalten und zugleich Bereitstellungskosten zu senken
  • Neue asynchrone Reinforcement-Learning-Infrastruktur „slime“ steigert die Trainingseffizienz und erzielt in verschiedenen Benchmarks Spitzenwerte
  • Als Open Source veröffentlicht und über Hugging Face, ModelScope, die Z.ai-Plattform u. a. zugänglich, außerdem kompatibel mit Claude Code und OpenClaw

Überblick über GLM-5

  • GLM-5 ist ein Modell, das für komplexes Systems Engineering und langfristige Agentenaufgaben entwickelt wurde
    • Im Vergleich zu GLM-4.5 stieg die Zahl der Parameter von 355 Milliarden (32 Milliarden aktiv) auf 744 Milliarden (40 Milliarden aktiv)
    • Die Pretraining-Daten wurden von 23 auf 28,5 Billionen Tokens erweitert
  • Durch die Integration von DeepSeek Sparse Attention (DSA) bleiben die Fähigkeiten zur Verarbeitung langer Kontexte erhalten, während die Bereitstellungskosten deutlich sinken
  • Mit der Einführung der asynchronen Reinforcement-Learning-Infrastruktur slime werden Trainingsdurchsatz und Effizienz verbessert und feinere Iterationen im Post-Training ermöglicht

Leistungssteigerungen und Benchmark-Ergebnisse

  • GLM-5 zeigt insgesamt bessere Leistung als GLM-4.7 und nähert sich dem Niveau von Claude Opus 4.5 an
  • Im internen Evaluierungssatz CC-Bench-V2 erzielt es hervorragende Ergebnisse in Frontend, Backend und langfristigen Aufgaben
  • In Vending Bench 2 erreicht es Platz 1 unter Open-Source-Modellen und erzielt in einer einjährigen Simulation eines Automaten-Geschäfts einen Endsaldo von 4.432 US-Dollar
  • Bei Schlussfolgern, Coding und Agentenaufgaben gehört es insgesamt zur Weltspitze unter den Open-Source-Modellen
    • Beispiele: SWE-bench Verified 77,8 Punkte, BrowseComp 62,0 Punkte, τ²-Bench 89,7 Punkte
  • Den Abstand zu Spitzenmodellen wie GPT-5.2 und Gemini 3.0 Pro verringert es weiter

Open-Source-Veröffentlichung und Zugangswege

  • GLM-5 wird unter der MIT-Lizenz veröffentlicht; Model Weights können über Hugging Face und ModelScope heruntergeladen werden
  • Über Z.ai, BigModel.cn und api.z.ai ist es auch als API nutzbar
  • Es ist mit Claude Code und OpenClaw kompatibel und kann dadurch in verschiedene Entwicklungsumgebungen integriert werden
  • Auf der Z.ai-Plattform wird ein kostenloser Test angeboten

Office- und Dokumentenerstellung

  • GLM-5 zielt auf den Übergang „vom Chatten zur Arbeit“ und dient als Office-Tool für Wissensarbeiter und Ingenieure
  • Texte oder Quellmaterialien können direkt in die Formate .docx, .pdf, .xlsx umgewandelt werden, um fertige Dokumente wie PRDs, Prüfungen, Finanzberichte oder Speisekarten zu erstellen
  • Die Z.ai-Anwendung bietet einen Agent-Modus mit Unterstützung für die Erstellung von PDF-, Word- und Excel-Dateien sowie Zusammenarbeit über mehrere Durchläufe

Unterstützung für Entwickler und Deployment

  • Abonnenten des GLM Coding Plan erhalten schrittweise Zugriff auf GLM-5
    • Nutzer des Max-Tarifs können es sofort unter dem Modellnamen "GLM-5" aktivieren
    • GLM-5-Anfragen verbrauchen mehr Kontingent als GLM-4.7
  • Für Nutzer, die eine GUI-Umgebung bevorzugen, wird die Agenten-Entwicklungsumgebung Z Code bereitgestellt
  • Über das Framework OpenClaw kann GLM-5 als persönlicher Assistenten-Agent für Apps und Geräte eingesetzt werden

Lokales Deployment und Hardware-Kompatibilität

  • GLM-5 unterstützt Inferenz-Frameworks wie vLLM und SGLang; Bereitstellungsanleitungen stehen auf dem offiziellen GitHub bereit
  • Es kann auch auf anderen Chipsätzen als NVIDIA ausgeführt werden, darunter Huawei Ascend, Moore Threads, Cambricon, Kunlun, MetaX, Enflame und Hygon
    • Durch Kernel-Optimierung und Modellquantisierung wird ein angemessener Durchsatz erreicht

4 Kommentare

 
GN⁺ 2026-02-12
Hacker-News-Kommentare
  • Ich habe ein von Pelican über OpenRouter erzeugtes Ergebnis gesehen
    Der Vogel selbst wirkt wie ein solider Vogel, aber als Fahrradrahmen taugt er nicht viel
    Relevanter Link

    • Danke an Simon für das einzige wirklich aussagekräftige Benchmark-System, das er pflegt
      Den Kontext des Pelican-Fahrrad-Tests gibt es hier
    • Ich halte das für einen wirklich wichtigen Test, Prost auf Simon
    • Inzwischen fühlt sich der Pelican-Benchmark veraltet an
      SVG ist mittlerweile überall, also braucht es ein neues, realistischeres Szenario
    • Ich frage mich, wie viele Pelican-Fahrrad-SVGs es gab, bevor dieser Test entstand
      Ich mache mir Sorgen, dass solche Ergebnisse die Trainingsdaten verunreinigen
    • Ich denke, einen Vogel ohne Flügel als „soliden Vogel“ zu bezeichnen, ist ein symbolisches Beispiel für die AI-Expectation-Gap
      Interessant ist, dass die AI selbst sagt, es brauche Schwimmhäute, diese im Bild aber tatsächlich fehlen
      Es beunruhigt mich, dass man wie bei MMLU oder AIME schon 90 % Genauigkeit als „gelöstes Problem“ betrachtet
      Echte AGI müsste 100 % Genauigkeit erreichen, aber wir geben uns zu leicht zufrieden
  • Ich halte eine graue, auf Distillation basierende schnelle Nachahmung in Zukunft für unvermeidlich
    Früher dachte ich, N-1- oder N-2-Modelle würden unattraktiv sein, aber inzwischen scheinen sogar die Nutzerpräferenzen gesättigt, sodass selbst das ausreichen dürfte
    Opus 4.5 war eindeutig ein Sprung, aber 4.6 hat meinen Workflow nicht verändert
    Nach dem „größten Diebstahl der Menschheit“ scheint am Ende die „größte ausgleichende Vergeltung“ zu kommen
    Den Nutzern wird es völlig egal sein, dass chinesische AI angeblich bei US-Big-Tech gestohlen hat

    • Wenn LLM-Unternehmen die Nutzung von Trainingsdaten rechtfertigen, dann müsste nach derselben Logik auch für Distiller legal sein, LLM-Ausgaben zum Training zu verwenden
      Man könnte argumentieren: „Es hat doch nur wie ein Mensch daraus gelernt, warum sollte das illegal sein?“
    • Distillation zu verhindern sollte eher illegal sein
      Man müsste nur Tausende Websites mit AI-generierten Inhalten erstellen und in jedem Beitrag Prompt- und Modellinformationen offenlegen
      Andere könnten das dann „zufällig“ crawlen und fürs Training nutzen
    • Bei Opus 4.6 sticht besonders die Ausdauer bei langen Aufgaben hervor
      Es fühlt sich an, als käme es doppelt so weit wie früher, und ich möchte nicht mehr zurück
    • Aber der Tokenverbrauch ist viel zu hoch, daher fühlt es sich in Sachen Effizienz wie ein Rückschritt an
  • Die jüngsten Benchmarks sind beeindruckend, aber die Vergleichsmodelle sind Modelle der alten Generation (Opus 4.5, GPT-5.2)
    Heutige offene Modelle erzielen hohe Benchmark-Werte, aber im praktischen Einsatz bleiben sie oft hinter den Erwartungen zurück
    Benchmaxxing existiert eindeutig

    • Die Kritik an Open-Weight-Modellen wirkt mir zu aggressiv
      Selbst 20 Benchmarks durchlaufen zu lassen, ist nicht einfach, und die neue Modellgeneration ist erst seit fünf Tagen draußen
      Viele Entwickler verfallen in Closed-Model-Worship und wissen nicht, dass bei anderen Modellfamilien derselbe Prompt nicht funktioniert
      Ich nutze GLM-4.7 oft; es liegt auf Sonnet-4.5-Niveau, und GLM-5 dürfte wahrscheinlich Opus-4.5-Niveau erreichen
    • Wenn GLM-4.7 auf dem Niveau von 4.5 oder 5.2 ist, ist das an sich schon ein gewaltiger Sprung
    • Heutige Modelle fühlen sich letztlich nur wie Token-Generatoren an
      In Blindtests könnte man sie kaum auseinanderhalten
      Selbst wenn man Antworten von Claude und ChatGPT vergleicht, sind sie fast identisch
      Für die meisten Einsatzzwecke reicht am Ende ein Toyota-Klasse-Modell
    • Das Problem sind die Grenzen von RLHF (Reinforcement Learning from Human Feedback)
      Algorithmische Innovationen sind möglich, aber die Kosten für die Erzeugung menschlicher Daten sind zu hoch, um das zu skalieren
      Open-Source-Modelle haben weiterhin viele Syntaxfehler, während Frontier-Modelle solche Probleme weitgehend gelöst haben
    • Anthropic, OpenAI und Google verbessern ihre Modelle mit echten Nutzerdaten,
      während chinesische Labore benchmarkzentriert arbeiten, wodurch diese Unterschiede entstehen
      Self-Hosting und kontinuierliche Verbesserung lassen sich nur schwer vereinbaren
  • Dank chinesischem Open Source scheint es möglich zu werden, selbst gehostete Intelligenz zu haben
    Kostenseitig ist das ineffizient, aber mir gefällt, dass es unabhängig und ohne Internetverbindung betrieben werden kann
    Letztlich ist macOS die einzige Verbraucheroption, auf der sich große Modelle lokal ausführen lassen

    • Ich überschreite oft das Abo-Limit von Claude Max und halte mich deshalb mit 2x RTX3090 und quantisierten Qwen3-Modellen über Wasser
      Auch in Sachen Privatsphäre und Verfügbarkeit hat Self-Hosting seinen Wert
      Vor allem mit Blick auf strengere digitale Regulierung in den USA braucht man Alternativen
    • Auch bei Open-Weight-Modellen bleiben Trainingsdaten und Zensurkriterien weiterhin nicht offengelegt
      Trotzdem ist es ein Vorteil, dass man Verzerrungen per Fine-Tuning korrigieren kann
    • Eine Strix-Halo-Maschine mit 128 GB VRAM kostet etwa 3.000 Dollar, und darauf lassen sich ziemlich brauchbare Modelle lokal betreiben
      Empfohlen werden GPT-OSS 120GB, Qwen Coder Next 80B und Step 3.5 Flash
      Ich erwarte, dass sich in 1 bis 2 Jahren sogar Modelle der 512-GB-Klasse auf Consumer-Hardware ausführen lassen
    • Statt macOS ist auch eine headless Linux-Inference-Box zu Hause eine gute Idee
      Die Rückkehr des Heimnetzwerks
    • Ich halte nicht das Hosting selbst, sondern eher die Kommodifizierung von Hosting für entscheidend
      Entscheidend ist die Freiheit, den Anbieter jederzeit wechseln zu können
  • Ich habe GLM-4.7 ein paar Wochen genutzt, und es liegt auf ähnlichem Niveau wie Sonnet
    Es braucht allerdings klarere Anweisungen
    Für große Aufgaben nutze ich weiterhin eher die Anthropic-Reihe, aber für kleine, klar definierte Aufgaben ist GLM beim Preis-Leistungs-Verhältnis top

    • Bei mir ist die Erfahrung ähnlich
      Wenn man GLM-4.7 sich selbst überlässt, hat es die Tendenz, unnötig eine ganze Welt aufzubauen
      Für kleine Aufgaben ist es Sonnet aber ähnlich, und wegen des sehr niedrigen Preises als Hilfsmodell nützlich
    • Ich habe in den letzten 6 bis 8 Monaten nur Sonnet verwendet, aber bei Opus tritt häufig ein Token-Fress-Bug auf
      Wenn offene Modelle noch etwa sechs Monate weiter Fortschritte machen, wäre ich bereit zu wechseln
  • MiniMax M2.5 ist ab heute ebenfalls in der Chat UI verfügbar
    GLM ist fürs Coden besser, aber MiniMax nutze ich wegen seiner Geschwindigkeit und Tool-Calling-Fähigkeiten oft für Alltagsaufgaben

  • Das neue Modell wurde auf OpenRouter veröffentlicht
    In meinem persönlichen Benchmark war die Fähigkeit, Anweisungen zu befolgen, sehr schwach
    Es ist ein Test, der dem Format von chat.md + mcps folgt, und das wurde nicht richtig ausgeführt

    • Ich habe das Gefühl, dass benutzerdefinierte Tool-Calling-Formate je nach Modell unterschiedlich trainiert sind, sodass Konsistenz schwer zu erreichen ist
      Mich würde interessieren, welche Ergebnisse es bei anderen Frontier-Modellen gab
    • Mir gefällt die Idee von chat.md
      Ich habe selbst an einem textbasierten Editor mit Vim-Keybindings gearbeitet, und dieser Ansatz könnte UI-Inspiration liefern
      Ich denke darüber nach, eine Funktion zum Einklappen unnötigen Texts hinzuzufügen
    • Das Problem könnte auch an der Qualität der OpenRouter-Anbieter liegen
      Manchmal ist die Leistung dort schwach
    • OpenRouter hostet oft quantisierte Modelle, wodurch die Qualität sinkt
      Wenn möglich, ist es besser, direkt den ursprünglichen Anbieter zu nutzen
  • GLM-4.7-Flash fühlt sich zum ersten Mal wie ein intelligentes Modell an, das sich für lokales Coding eignet
    Es liegt auf ähnlichem Niveau wie Claude 4.5 Haiku, und weil der Reasoning-Prozess transparent ist, kann man nachvollziehen, warum es bestimmte Entscheidungen trifft
    Es ist deutlich besser als Devstral 2 Small oder Qwen-Coder-Next

    • minimax-m.2 liegt ebenfalls ziemlich nahe dran
  • Ich verwende GLM 4.7 in opencode
    Es ist nicht das Beste, aber dank großzügiger Nutzungslimits kann ich es den ganzen Tag verwenden
    Auf das neue Modell habe ich noch nur eingeschränkten Zugriff, aber ich freue mich darauf

  • Ich habe das neue Modell in opencode kurz ausprobiert, und es war ziemlich beeindruckend
    Es ist keine große Revolution, aber gegenüber 4.7 klar verbessert
    Gedächtnisleistung und Stabilität bei langen Aufgaben haben sich merklich verbessert

 
jinifor 2026-02-12

Der Abopreis ist gestiegen.

 
princox 2026-02-13

Der 50%-Rabatt, den es bei der ersten Anmeldung gab, wurde abgeschafft..

 
fanotify 2026-02-12

Beim Max-Basispreis lag das superfrühe Rabattangebot bei 360 US-Dollar pro Jahr, jetzt sind es 672 US-Dollar ...