15 Punkte von ragingwind 13 일 전 | 4 Kommentare | Auf WhatsApp teilen

DeepSeek-V4 brachte architektonische Innovationen und einen neuen Orientierungspunkt für Frontier-Labs. In der vierten Aprilwoche 2026 folgten große Ankündigungen wie GPT-5.5 und Google Cloud Next aufeinander, doch das bemerkenswerteste Ereignis war die Veröffentlichung von DeepSeek-V4. Rund 1 Jahr und 4 Monate nach R1 ist dieses Modell erschienen, das von der Größenordnung von 600B bei V3 auf 1.6T angewachsen ist; auch die aktivierten Parameter wurden leicht erhöht. Vor allem wurden gleichzeitig drei algorithmische Änderungen eingeführt: Sparse Attention, mHC (Manifold-Constrained Hyper-Connections) und der Muon-Optimizer. Das Ergebnis ist dicht auf etwa 40 Seiten Paper zusammengefasst. Kim Seong-hyeon und Noh Jeong-seok bewerteten diesen Bericht nicht als bloßes Prahlen mit Performance, sondern als Protokoll schmerzhafter Trial-and-Error-Prozesse über ein ganzes Jahr.

Wesentliche Architekturänderungen

  • Ernsthafte Einführung von Sparse Attention: Statt wie bisher auf alle vorherigen Tokens zu referenzieren, wird nun nur noch auf ausgewählte, bedeutungsvolle Tokens verwiesen. Die Struktur kombiniert drei Elemente: Sliding-Window Attention, Full Attention auf auf ein Hundertstel komprimierte Tokens sowie Compressed Sparse Attention, bei der nach Kompression auf ein Viertel per Lightning Indexer top-k ausgewählt wird.
  • Einsatz von mHC: Eine Struktur, die Hyper-Connections, welche die Beschränkungen lockern, indem sie den Durchgang der für Deep Learning zentralen Residual-Verbindungen verbreitern, auf einer Mannigfaltigkeit stabilisiert.
  • Übernahme des Muon-Optimizers: Ein Optimizer, der nach Adam bei chinesischen Modellen faktisch zum Standard geworden ist und sowohl Lerngeschwindigkeit als auch Dateneffizienz steigert.
  • Entfernung von MLA: MLA, beinahe ein Markenzeichen von DeepSeek, wurde aufgegeben und durch einfaches Multi-Query Attention ersetzt.

Vorteile und besondere Merkmale

  • Drastisch gesunkene Kosten für Long Context: Obwohl das Modell im Vergleich zu V3 2,5- bis 3-mal größer ist, sank der Token-Operations-Compute auf etwa 27 %, der KV-Cache-Speicher sogar auf etwa 10 %.
  • Long-Context-Training bereits in der Pretraining-Phase: Die ersten 1T Tokens wurden mit 4K~16K trainiert, danach mehr als 30T Tokens mit 64K oder mehr. Das unterscheidet sich von der bisherigen Praxis, den Kontext erst im Nachgang zu erweitern.
  • Tiefe der Infrastruktur-Optimierung: Enthalten sind dicht verzahnte Optimierungen wie MoE-Kommunikations-/Rechen-Overlap auf Basis eines verbesserten Comet von ByteDance, Megakernels, die bis an die Grenze des Power Throttling gepusht wurden, Beiträge zu TileLang, stark optimierte Batch-Invariance-Kernels sowie MXFP4-(4-Bit)-Kompression für Expertengewichte.
  • Algorithmische Führungsrolle: Da US-Big-Tech-Unternehmen ihre Architekturen nicht offenlegen, lautet die Einschätzung, dass DeepSeek im Bereich Pretraining zumindest gleichauf oder in Teilen sogar voraus sein könnte.

Nachteile und Grenzen

  • Instabilität beim Training: Anders als der aktuelle Trend, bei dem LLM-Entwickler von sehr stabilem Training sprechen, legt DeepSeek-V4 offen dar, dass an vielen Stellen Probleme mit Trainingsinstabilität auftraten. Zum Einsatz kamen sogar schwer zugängliche Maßnahmen wie Anpassungen beim MoE-Gating, Clamping und Anticipatory Routing, bei dem mit Gewichten aus früheren Zeitpunkten geroutet wird.
  • Schwierige Reproduzierbarkeit: Der gemeinsame Schluss anderer Teams in China war, dass es sehr schwierig ist, Sparse Attention praktisch von Grund auf zu trainieren. Selbst wenn DeepSeek erfolgreich war, dürften andere Teams nicht leicht nachziehen können.
  • Schwächen beim Post-Training: Im Vergleich zum Sprung im Pretraining wirkt beim Post-Training noch vergleichsweise viel Potenzial ungenutzt. In den Phasen 4.1 und 4.2 gibt es reichlich Raum für Verstärkung.
  • Schweigen zu den Daten: Es wird nur erwähnt, dass 32T Tokens vorbereitet wurden; zur konkreten Datenzusammensetzung, etwa zur Nutzung synthetischer Daten, wird fast nichts gesagt.

Unterscheidungsmerkmale

  • Transparente Offenlegung: Anders als andere Frontier-Labs, die ihre Architektur verbergen, legt DeepSeek Struktur und Trial-and-Error-Prozesse vergleichsweise offen dar.
  • Integriertes Design der Pretraining-Phase: Auffällig ist, dass Long Context, Sparse Attention und FP4-Quantisierung nicht erst nachträglich, sondern bereits im Pretraining verankert wurden.
  • Diversifizierung der Hardware: Es wird offengelegt, dass neben NVIDIA-Chips auch Huawei-Chips parallel verwendet werden, was darauf hindeutet, dass sich in China Halbleiter-Alternativen etablieren.

Bedeutung aus Sicht der Branche

  • Veränderte Landschaft chinesischer Frontier-Labs: Nahezu fünf Teams – DeepSeek, Kimi, Z.ai (GLM), Tencent Hunyuan 3 und Xiaomi MiMo – sind gleichzeitig an die Front getreten, und es gibt die Ansicht, dass im Pretraining Bereiche entstanden sind, in denen China mit den USA gleichauf oder teilweise voraus ist.
  • Post-Training als nächstes Schlachtfeld: Es dürfte bald der Zeitpunkt kommen, an dem in Post-Training Compute in einem Ausmaß investiert wird, das mit Pretraining vergleichbar ist. Der dortige Abstand könnte zum entscheidenden Faktor der nächsten Generation werden.
  • Normalisierung von Modell-Updates: Da GPT-5.5, Claude Mythos, Spud und DeepSeek-V4 ihre Basismodelle in ähnlicher Zeitspanne austauschen, zeichnet sich ein Trend ab, bei dem Modell-Updates so routinemäßig und emotional neutral werden wie Updates des Chrome-Browsers.

Dieses DeepSeek-V4 ist weniger ein Dokument einzelner Leistungskennzahlen eines Modells als vielmehr ein Protokoll darüber, wie ein Team über ein Jahr hinweg schwierige Probleme frontal angegangen ist. Der Versuch, Sparse Attention bereits in der Pretraining-Phase mitzunehmen, die Infrastrukturarbeit, um bei einer Größenordnung von 1.6T die Long-Context-Kosten auf einen einstelligen Prozentsatz zu drücken, und die unkonventionellen Maßnahmen, die im Ringen mit Trainingsinstabilität eingeführt wurden, könnten künftig eine neue Basis für Frontier-Modelle aus China werden. Gleichzeitig bleiben die offenen Aufgaben bei Post-Training und Daten klar sichtbar, sodass sich im nächsten Quartal vor allem die Frage stellen dürfte, wie weit 4.1 und 4.2 diese Lücke schließen können.

4 Kommentare

 
winkagn 12 일 전

Leute sagen zwar in diesem Ton, dass man chinesischen Produkten nicht trauen könne, aber ich persönlich finde es wirklich dankenswert, dass DeepSeek in Richtung Forschung und Offenlegung arbeitet und dabei sogar seine Versuch-und-Irrtum-Prozesse öffentlich macht.

 
junghwanlee 13 일 전

Herr Noh Seong-hun → Herr Kim Seong-hyeon

 
xguru 13 일 전

Ich habe es korrigiert.

 
ragingwind 13 일 전

Danke. Das muss korrigiert werden.