- DeepSeek-V3.2 ist ein Open-Source-LLM, das hohe Recheneffizienz sowie Inferenz- und Agentenleistung kombiniert
- Die neue DeepSeek Sparse Attention (DSA)-Struktur erhält die Leistung auch bei langen Kontexten und reduziert den Rechenaufwand deutlich
- Durch ein skalierbares Reinforcement-Learning-(RL)-Framework wird eine Leistung auf GPT-5-Niveau erreicht, die High-End-Version erreicht eine gleichwertige Inferenzfähigkeit wie Gemini-3.0-Pro
- Eine großskalierte Agenten-Task-Synthese-Pipeline erzeugt 1.800 Umgebungen und 85.000 Prompts, was die Generalisierung und Ausführungsfähigkeit in komplexen Interaktionsumgebungen verbessert
- Open-Modelle schließen den Abstand zu geschlossenen Modellen und positionieren sich als kosteneffiziente Alternative
DeepSeek-V3.2-Überblick
- DeepSeek-V3.2 wurde als Modell entworfen, das die Grenzen der Inference- und Agentenleistung von Open-Source-LLMs überwinden soll
- Es setzt auf drei Kerntechnologien: DeepSeek Sparse Attention (DSA), ein skalierbares Reinforcement-Learning-Framework und eine großskalierte Agenten-Task-Synthese-Pipeline
- Die leistungsstärkere Variante DeepSeek-V3.2-Speciale übertrifft GPT-5 und verfügt über eine auf dem Niveau von Gemini-3.0-Pro liegende Inferenzfähigkeit
- Bei der 2025 International Mathematical Olympiad (IMO) und der International Olympiad in Informatics (IOI) wurden Ergebnisse auf Goldmedaillen-Niveau erzielt
- Durch gleichzeitige Steigerung von Effizienz und Leistung von Open-Modellen wird die Lücke zu Closed-Source-Modellen verringert
Grenzen offener Modelle und Verbesserungsansätze
- Für den Rückstand offener Source-LLMs gegenüber Closed-Source-Modellen werden drei Hauptgrenzen genannt
- Ineffizienz des Basis-Attention-Mechanismus, wodurch lange Sequenzen mit hohem Rechenaufwand verarbeitet werden müssen
- Ressourcenmangel in der Post-Training-Phase, was zu Leistungseinbußen bei schwierigen Aufgaben führt
- fehlende Generalisierung und Ausführungsfähigkeit von Agenten, was den Einsatz in realen Anwendungen begrenzt
- DeepSeek-V3.2 adressiert diese Probleme mit einer effizienten Attention-Struktur, einem skalierbaren RL-Lernansatz und einer integrativen Tool-Use-Reasoning-Pipeline
DeepSeek Sparse Attention (DSA)
- DSA besteht aus einem lightning indexer und einem feingranularen Token-Selektionsmechanismus
- Der lightning indexer arbeitet mit FP8-Genauigkeit und bestimmt für jedes Query-Token die Top-k-Key-Value-Paare, die ausgewählt werden sollen
- Dadurch reduziert sich die Komplexität von O(L²) auf O(Lk), was die effiziente Verarbeitung auch bei langen Kontexten ermöglicht
- Eine MLA-basierte Implementierung sorgt für Kompatibilität mit dem bisherigen DeepSeek-V3.1-Terminus
- Es werden zwei aufeinanderfolgende Lernphasen durchgeführt
- Im Dense-Warm-up-Schritt wird der Indexer initialisiert
- Im Sparse-Training-Schritt wird das Gesamtmodell an das DSA-Muster angepasst und auf 943,7B Tokens weitertrainiert
Leistungsbewertung und Effizienz
- DeepSeek-V3.2-Exp steigert die Effizienz bei der Verarbeitung langer Kontexte deutlich, während ohne Leistungseinbußen Ergebnisse auf dem Niveau von DeepSeek-V3.1-Terminus gehalten werden
- In unabhängigen Benchmarks wie AA-LCR3 und Fiction.liveBench wurden gegenüber der Vorgängerversion verbesserte Inferenzwerte erzielt
- Basierend auf einem H800-GPU-Cluster wurden die Kosten pro Token deutlich gesenkt und die End-to-End-Geschwindigkeit deutlich verbessert
Post-Training und RL-Architektur
- Specialist Distillation und Mixed RL werden kombiniert
- Sechs Fachdomänenmodelle (Mathematik, Programmierung, logisches Schließen, General-Agent, Code-Agent, Search-Agent) werden mit RL trainiert
- Aus den Daten jedes Fachmodells werden Destillationsschritte durchgeführt, um einen finalen Checkpoint zu erzeugen
- Die Group Relative Policy Optimization (GRPO)-Algorithmen werden genutzt, um Inferenz-, Agenten- und Alignment-Training zu integrieren
- Dabei werden Reward Model, Längenstrafe und Sprachkonsistenz-Belohnung kombiniert
- Für DeepSeek-V3.2-Speciale wird zusätzlich DeepSeekMath-V2-Datenmaterial und ein entsprechendes Belohnungsschema zur Stärkung mathematischer Beweistechniken eingesetzt
Stabilisierung der Verstärkung (Scaling GRPO)
- Durch Unbiased KL Estimate wird eine stabile Konvergenz erreicht
- Das Problem instabiler Gradienten des bisherigen K3-Schätzers wird behoben
- Mit Off-Policy Sequence Masking werden negative Beispiele mit hohem Policy-Mismatch maskiert, wodurch die Trainingsstabilität steigt
- Mit Keep Routing bleibt die Konsistenz des Routings in Mixture-of-Experts-Modellen erhalten
- Keep Sampling Mask verhindert bei top-p- und top-k-Sampling das Auseinanderdriften der Aktionsräume zwischen Policies
Tool-Use-Inferenz (Thinking in Tool-Use)
- Mit Thinking Context Management wird vermieden, dass bei Tool-Aufrufen unnötig neu überlegt wird
- Frühere Inferenzinhalte werden nur gelöscht, wenn neue Nutzerbotschaften eintreffen
- Der Verlauf von Tool-Aufrufen bleibt erhalten, wodurch ein effizientes Kontextmanagement möglich ist
- In der Cold-Start-Phase werden Inferenz- und Agentendaten kombiniert
- Inferenzdaten markieren den Lösungsweg mit
<think></think>-Tags
- Ein System-Prompt mit Tool-Aufrufen legt die Basis für integriertes Training
- Über die großskalige Agenten-Aufgabensynthese werden 1.800 Umgebungen und 85.000 Prompts generiert
- Es findet RL-Training mit realen Umgebungen durch, etwa mit Web-Such-API, Code-Ausführungstools und Jupyter Notebook
- Der Search Agent automatisiert per Multi-Agent-Pipeline die Generierung von Fragen, Validierung und Belohnungsbewertung
- Ein hybrides Reward-Modell optimiert sowohl Faktentreue als auch praktische Nützlichkeit
Schlussfolgerung
- DeepSeek-V3.2 überwindet mit seiner Kombination aus effizienter Attention-Struktur und skalierbarem RL-Training die bisherigen Grenzen offener Modelle
- In der integrierten Inferenz- und Agentenleistung reduziert es den Abstand zu Closed-Source-Modellen deutlich und etabliert sich als kosteneffiziente Alternative
- Es gilt als Beispiel für eine nachhaltige Weiterentwicklung leistungsstarker Open-Source-LLMs
1 Kommentare
Hacker-News-Kommentare
Beeindruckend ist, dass sie ihre Kosteneffizienz weiter verbessern und den Entwicklungsprozess öffentlich teilen.
Hoffentlich tragen solche Bemühungen dazu bei, AI-Monopole zu verhindern.
Wenn offene Modelle mit kommerziellen Modellen konkurrieren können, frage ich mich, wie Unternehmen wie Google, Anthropic und OpenAI mit AI überhaupt Geld verdienen sollen.
Der Grund, warum Open Source früher scheiterte, war, dass Qualität und funktionale Tiefe hinter geschlossenen Systemen zurückblieben, aber jetzt scheint die Leistung in eine Plateauphase eingetreten zu sein.
Am Ende wird langfristig wohl die Seite gewinnen, die über die günstigste Energieinfrastruktur verfügt.
So wie Amazon etwa die MongoDB-API als Service anbietet, verdient man am Ende am Infrastrukturverbrauch.
Die meisten Unternehmen haben nicht die Möglichkeiten, selbst ein SOTA-Modell zu hosten. Wenn man bedenkt, dass sie nicht einmal ihre E-Mail-Server selbst betreiben, ist das nachvollziehbar.
Google hat den Transformer entwickelt, und OpenAI hat ChatGPT mit RLHF zum Erfolg gemacht, aber inzwischen steht wieder Googles AI-Übersichtsfunktion ganz oben in der Suche.
Zugehöriges Dokument: Google “We have no moat, and neither does OpenAI”
Dieses Modell soll nicht nur bei Benchmarks, sondern auch bei der Inferenz-Effizienz stark verbessert worden sein.
Relevanter Link: Leistungsvergleich von Thomas Ip
Das Chat-Template von DeepSeek-V3.2 wurde stark verändert.
Zuerst dachte ich, sie hätten ein neues Format entwickelt, aber von der Syntax her sieht es praktisch identisch mit dem Harmony-Format aus.
In dem Fall wäre es verständlicher gewesen, von Anfang an klar anzugeben, dass es mit Harmony kompatibel ist.
Ich frage mich, warum es fast keine Modelle in der Größenordnung von 32–512 GB gibt und warum das Mac Studio M4 maximal 128 GB RAM hat.
Es ist cool, dass solche Modelle als Open Source veröffentlicht werden. Aber ich frage mich, ob sie selbst auf einem 20.000-Dollar-Rig mit vier RTX 5090 schnell genug laufen.
Das stützt eher die Behauptung des ursprünglichen Kommentars, dass es für Consumer-Nutzung zu langsam ist.
In Tabelle 3 des Papers liegt DS-Speciale in fast allen Tests auf Platz 1 oder 2, erzeugt aber über 50 % mehr Tokens.
Durch das parallele Erzeugen mehrerer Antworten und die Auswahl der finalen Antwort lässt sich Inferenzleistung mit Rechenressourcen skalieren.
Nach ein paar Stunden Nutzung wirkt es wie ein sehr solides und wettbewerbsfähiges Modell. Meiner Meinung nach besser als GLM4.6 und auch besser als Kimi K2. Ich freue mich auf v4.
Interessant ist, dass es sich um ein großes Frontier-Modell handelt, das unter der MIT-Lizenz veröffentlicht wurde.
Ich verstehe nicht ganz, nach welchen Maßstäben die amerikanische AI-Industrie bewertet wird. Chinesische Modelle sind deutlich günstiger und liefern fast die gleiche Leistung.
Außerdem sind die Benchmarks weitgehend gesättigt, sodass die Unterschiede klein wirken, aber an der Spitze kann schon 1 % Unterschied in der Praxis viel bedeuten.
Auch auf meiner Metabench-Bestenliste schneiden chinesische Modelle gut ab, aber es gibt immer noch einen Abstand zur Spitzengruppe.
Wegen der niedrigen Inferenzkosten sind chinesische Modelle im Bereich Preis-Leistung allerdings stark.
US-Unternehmen verkaufen also nicht nur Modelle, sondern zugleich eine weltweite Low-Latency-Infrastruktur. Das erklärt ihre hohe Bewertung.
Zur Einordnung: Cerebras bietet derzeit ein sehr schnelles GLM 4.6 an.
Vielleicht steckt auch die Annahme dahinter, dass DeepSeek verboten und Open-Source-Software in den USA blockiert wird.
Künftig könnten sich Frontier-Modelle eher bei detaillierten Edge Cases differenzieren.