Zusammenfassung der Lektüre des DeepSeek-V4-Papers – Noh Jeong-seok

(youtube.com)

10 Punkte von ragingwind 1 일 전 | 3 Kommentare | Auf WhatsApp teilen

Die von DeepSeek-V4 gezeigten Architekturinnovationen und die neue Orientierung der Frontier Labs: In der vierten Aprilwoche 2026, in der sich große Ankündigungen wie GPT-5.5 und Google Cloud Next aneinanderreihten, war die Veröffentlichung von DeepSeek-V4 das wohl bemerkenswerteste Ereignis. Rund 1 Jahr und 4 Monate nach R1 ist dieses Modell erschienen; gegenüber V3 mit einer Größenordnung von 600B wurde es auf 1.6T skaliert, auch die aktivierten Parameter wurden leicht erhöht. Vor allem wurden mit Sparse Attention, mHC (Manifold-Constrained Hyper-Connections) und dem Muon-Optimierer gleichzeitig drei algorithmische Änderungen eingeführt, deren Ergebnisse dicht gedrängt in einem etwa 40-seitigen Paper festgehalten sind. Noh Seong-hun und Noh Jeong-seok bewerteten diesen Bericht nicht als bloßes Prahlen mit Leistung, sondern als Aufzeichnung schmerzhafter Trial-and-Error-Prozesse über ein ganzes Jahr.

Wesentliche Architekturänderungen

Umfassende Einführung von Sparse Attention: Statt wie bisher auf alle vorherigen Tokens zu referenzieren, wird nun nur noch auf ausgewählte, bedeutungstragende Tokens verwiesen. Die Struktur kombiniert drei Komponenten: Sliding-Window-Attention, Full Attention auf auf ein Hundertstel komprimierte Tokens sowie Compressed Sparse Attention, bei der zunächst auf ein Viertel komprimiert und anschließend mit dem Lightning Indexer top-k ausgewählt wird.
Einsatz von mHC: Eine Struktur, die Hyper-Connections — also eine Erweiterung und Entlastung der Verbindungswege von Residual Connections, einem Kernelement des Deep Learning — auf einer Mannigfaltigkeit stabilisiert.
Übernahme des Muon-Optimierers: Ein Optimierer, der nach Adam von chinesischen Modellen faktisch als Standard verwendet wird und sowohl Trainingsgeschwindigkeit als auch Dateneffizienz steigert.
Entfernung von MLA: Das für DeepSeek fast symbolhafte MLA wurde aufgegeben und durch einfaches Multi-Query Attention ersetzt.

Vorteile und besondere Stärken

Drastisch gesunkene Kosten für Long Context: Obwohl das Modell 2.5- bis 3-mal größer ist als V3, liegt der Rechenaufwand für Token-Operationen nur bei etwa 27 %, der Speicherbedarf für den KV-Cache sogar nur bei etwa 10 %.
Long-Context-Training bereits in der Pretraining-Phase: Die ersten 1T Tokens wurden mit 4K–16K trainiert, die anschließenden über 30T Tokens mit 64K oder mehr. Das unterscheidet sich deutlich von der gängigen Praxis, den Kontext erst im Nachgang zu erweitern.
Tiefe der Infrastruktur-Optimierung: Enthalten sind unter anderem eine verbesserte Überlappung von MoE-Kommunikation und -Berechnung auf Basis von ByteDances Comet, ein Megakernel, der so weit ausgereizt wird, dass Power Throttling einsetzt, Beiträge zu TileLang, eine starke Optimierung des Batch-Invariance-Kernels sowie die MXFP4-(4-Bit-)Kompression der Expertengewichte.
Algorithmische Führungsrolle: Da US-Big-Tech-Unternehmen ihre Architekturen nicht offenlegen, lautet eine Bewertung, dass DeepSeek im Bereich Pretraining zumindest gleichauf liegt oder in Teilen sogar voraus ist.

Nachteile und Grenzen

Instabilität im Training: Anders als der aktuelle Trend, bei dem viele LLM-Entwickler von sehr stabilem Training sprechen, zeigt DeepSeek-V4 offen, dass es an vielen Stellen mit Instabilitätsproblemen zu kämpfen hatte. Eingesetzt wurden unter anderem Anpassungen des MoE-Gatings, Clamping und sogar schwer zugängliche Verfahren wie Anticipatory Routing, bei dem mit Gewichten aus früheren Zeitpunkten geroutet wird.
Schwierige Reproduzierbarkeit: Das Training von Sparse Attention praktisch von Grund auf gilt nach übereinstimmender Einschätzung anderer Teams in China als äußerst schwierig. Dass DeepSeek erfolgreich war, bedeutet daher vermutlich nicht, dass andere Teams leicht nachziehen können.
Schwächen beim Post-Training: Im Vergleich zum Sprung beim Pretraining scheint beim Post-Training noch vergleichsweise viel Potenzial vorhanden zu sein. In den Phasen 4.1 und 4.2 gibt es offenbar großen Spielraum für Verbesserungen.
Schweigen zu den Daten: Es wird lediglich erwähnt, dass 32T Tokens vorbereitet wurden; zur konkreten Datenzusammensetzung, etwa zur Nutzung synthetischer Daten, sagt das Paper fast nichts.

Unterscheidungsmerkmale

Transparente Offenlegung: Anders als andere Frontier Labs, die ihre Architektur verbergen, beschreibt DeepSeek Struktur und Trial-and-Error-Prozesse vergleichsweise offen.
Integriertes Design der Pretraining-Phase: Besonders auffällig ist, dass Long Context, Sparse Attention und FP4-Quantisierung nicht nachträglich, sondern direkt ins Pretraining integriert wurden.
Diversifizierung der Hardware: DeepSeek erklärt, neben NVIDIA-Chips auch Huawei-Chips parallel einzusetzen, was darauf hindeutet, dass sich in China Halbleiteralternativen etablieren.

Bedeutung aus Sicht der Branche

Verschiebung in der Landschaft chinesischer Frontier Labs: Nahezu fünf Teams — DeepSeek, Kimi, Z.ai (GLM), Tencent Hunyuan 3 und Xiaomi MiMo — treten gleichzeitig in den Vordergrund, und es gibt die Einschätzung, dass im Pretraining Bereiche entstanden sind, in denen China mit den USA gleichzieht oder teilweise vorausliegt.
Post-Training als nächstes Schlachtfeld: Es zeichnet sich ab, dass schon bald Rechenressourcen in das Post-Training fließen werden, die mit dem Niveau des Pretrainings vergleichbar sind. Die dort entstehende Lücke könnte zum entscheidenden Faktor der nächsten Generation werden.
Modell-Updates als Alltag: Da GPT-5.5, Claude Mythos, Spud und DeepSeek-V4 in ähnlicher Zeit ihre Basismodelle austauschen, zeichnet sich ein Trend ab, bei dem Modell-Updates so beiläufig werden wie Browser-Updates bei Chrome.

DeepSeek-V4 ist diesmal weniger ein Dokument über die Leistungskennzahlen eines einzelnen Modells als vielmehr eine Aufzeichnung darüber, wie ein Team über ein Jahr hinweg schwierige Probleme frontal angegangen ist. Der Versuch, Sparse Attention schon ab der Pretraining-Phase mitzunehmen, die Infrastrukturarbeit, mit der bei einer Größenordnung von 1.6T die Kosten für Long Context auf ein Verhältnis im einstelligen Prozentbereich gedrückt wurden, sowie die unkonventionellen Maßnahmen gegen Trainingsinstabilität könnten zur neuen Basis künftiger chinesischer Frontier-Modelle werden. Gleichzeitig bleiben die offenen Aufgaben bei Post-Training und Daten klar sichtbar, sodass die Frage, wie weit 4.1 und 4.2 diese Lücke schließen können, zu einem zentralen Beobachtungspunkt des nächsten Quartals werden dürfte.

3 Kommentare

junghwanlee 23 시간 전

Herr Noh Seong-hun → Herr Kim Seong-hyeon

xguru 22 시간 전

Ich habe es korrigiert.

ragingwind 23 시간 전

Danke. Das muss korrigiert werden.

Zusammenfassung der Lektüre des DeepSeek-V4-Papers – Noh Jeong-seok

Verwandte Beiträge

3 Kommentare