DeepSeek v4: Hocheffizientes Large Language Model mit Unterstützung für 1 Million Token Kontext
(huggingface.co)- Ein auf Mixture-of-Experts (MoE) basierendes Large Language Model mit Unterstützung für einen 1M-Token-Kontext, veröffentlicht in zwei Versionen: Pro (1.6T Parameter) und Flash (284B Parameter)
- Mit einer hybriden Attention-Architektur, die Compressed Sparse Attention (CSA) und Heavily Compressed Attention (HCA) kombiniert, werden bei 1 Million Token im Vergleich zu DeepSeek-V3.2 nur 27 % der Inferenz-FLOPs und 10 % des KV-Cache benötigt
- Nach dem Pretraining mit mehr als 32T Token wird eine zweistufige Post-Training-Pipeline angewendet, bei der domänenspezifische Experten zunächst separat trainiert und anschließend per on-policy distillation in ein einzelnes Modell integriert werden
- DeepSeek-V4-Pro-Max erreicht bei Coding-Benchmarks wie LiveCodeBench 93.5, SWE Verified 80.6 und Codeforces 3206 die beste Open-Source-Leistung
- Unterstützt drei Inferenzmodi: Non-Think, Think High und Think Max, sodass je nach Einsatz vom Alltags-Task bis zur anspruchsvollsten Schlussfolgerung gewählt werden kann
Modellüberblick und Architektur
- Die DeepSeek-V4-Serie besteht aus zwei Modellen: DeepSeek-V4-Pro (insgesamt 1.6T Parameter, 49B aktiv) und DeepSeek-V4-Flash (insgesamt 284B Parameter, 13B aktiv)
- Beide Modelle unterstützen eine Kontextlänge von 1 Million Token
- Drei zentrale Architektur- und Optimierungs-Upgrades:
- Hybrid Attention Architecture: Kombiniert CSA und HCA, verbessert damit die Effizienz bei langen Kontexten deutlich und reduziert bei 1 Million Token im Vergleich zu DeepSeek-V3.2 die FLOPs pro Token-Inferenz auf 27 % und den KV-Cache auf 10 %
- Manifold-Constrained Hyper-Connections (mHC): Verstärkt bestehende Residual-Verbindungen, um sowohl stabile Signalübertragung zwischen den Layern als auch höhere Ausdrucksstärke des Modells sicherzustellen
- Muon Optimizer: Sorgt für schnellere Konvergenz und höhere Trainingsstabilität
Training und Post-Training-Pipeline
- Pretraining mit mehr als 32T vielfältigen und hochwertigen Token
- Im Post-Training wird ein zweistufiges Paradigma angewendet:
- Stufe 1: Unabhängiges Training domänenspezifischer Experten durch SFT und RL (unter Verwendung von GRPO)
- Stufe 2: Integration der Fachkompetenz aus verschiedenen Domänen in ein einzelnes Modell per on-policy distillation
Inferenzmodi
- Sowohl DeepSeek-V4-Pro als auch DeepSeek-V4-Flash unterstützen drei Inferenzmodi:
- Non-Think: Schnelle und intuitive Antworten, geeignet für Alltagsaufgaben oder risikoarme Entscheidungen
- Think High: Bewusste logische Analyse, geeignet für komplexe Problemlösung oder Planung
- Think Max: Erweitert die Schlussfolgerungsfähigkeit bis an ihre Grenzen, gedacht zur Erkundung der Inferenzgrenzen des Modells
Benchmark-Leistung — Base-Modelle
- DeepSeek-V4-Pro-Base übertrifft in den meisten Benchmarks V3.2-Base und V4-Flash-Base:
- MMLU: 90.1 (V3.2-Base 87.8, V4-Flash-Base 88.7)
- MMLU-Pro: 73.5 (V3.2-Base 65.5)
- Simple-QA Verified: 55.2 (V3.2-Base 28.3)
- FACTS Parametric: 62.6 (V3.2-Base 27.1)
- HumanEval: 76.8 (V3.2-Base 62.8)
- LongBench-V2: 51.5 (V3.2-Base 40.2)
- V4-Flash-Base zeigt Effizienz, da es mit nur 13B aktiven Parametern nahezu an V3.2-Base (37B aktiv) heranreicht oder diese in einigen Benchmarks übertrifft
Benchmark-Leistung — Instruct-Modelle (V4-Pro-Max vs. Frontier-Modelle)
- Besonders stark bei Coding-Benchmarks:
- LiveCodeBench 93.5 (Gemini-3.1-Pro High 91.7, Opus-4.6 Max 88.8)
- Codeforces 3206 (GPT-5.4 xHigh 3168, Gemini-3.1-Pro High 3052)
- Apex Shortlist 90.2 (Gemini-3.1-Pro High 89.1)
- Im Bereich Wissen und Reasoning:
- SimpleQA-Verified 57.9 und Chinese-SimpleQA 84.4 übertreffen die meisten Modelle, bleiben aber hinter Gemini-3.1-Pro High (75.6, 85.9) zurück
- GPQA Diamond 90.1, MMLU-Pro 87.5
- Agenten-Tasks:
- SWE Verified 80.6, MCPAtlas Public 73.6 und damit in der Spitzengruppe
- Bei Terminal Bench 2.0 (67.9) und HLE w/ tools (48.2) unterlegen gegenüber einigen Closed-Source-Modellen
- V4-Flash-Max erreicht mit größerem Thinking-Budget eine Inferenzleistung nahe der Pro-Version, bleibt bei reinen Wissens-Tasks und komplexen Agent-Workflows wegen des Parameterunterschieds jedoch leicht zurück
Leistungsvergleich nach Modus
- V4-Pro Max erzielt in allen Benchmarks die beste Leistung
- Konsistentes Muster steigender Leistung von Non-Think → Think High → Think Max:
- Beispiel: Bei GPQA Diamond steigt V4-Pro von Non-Think 72.9 → High 89.1 → Max 90.1
- Beispiel: Bei LiveCodeBench steigt V4-Flash von Non-Think 55.2 → Max 91.6
- V4-Flash Max erreicht in mehreren Benchmarks eine ähnliche oder bessere Leistung als V4-Pro High
Modelldownload und Präzision
- Vier Modelle verfügbar: V4-Flash-Base, V4-Flash, V4-Pro-Base, V4-Pro
- Base-Modelle verwenden FP8 Mixed-Präzision, Instruct-Modelle FP4 + FP8 Mixed-Präzision
- MoE-Expertenparameter in FP4, der Großteil des Rests in FP8
- Download über HuggingFace und ModelScope möglich
Chat-Template und lokale Ausführung
- Kein Chat-Template im Jinja-Format enthalten; stattdessen werden im Ordner
encodingPython-Skripte und Testfälle zum Kodieren/Parsen von Nachrichten im OpenAI-kompatiblen Format bereitgestellt - Empfohlene Sampling-Parameter für lokale Deployments: temperature 1.0, top_p 1.0
- Für den Think-Max-Modus wird ein Kontextfenster von mindestens 384K Token empfohlen
Lizenz
- Sowohl Modellgewichte als auch Repository stehen unter der MIT License
1 Kommentare
Hacker-News-Kommentare
Bei einem riesigen Modell wie v4 pro kostet die Ausgabe von 1 Million Token etwa 4 Dollar, aber ich bin mir nicht sicher, ob die Aussage wirklich stimmt, dass „die Frontier-Labs Inferenz auf verrücktem Niveau querfinanzieren“
Abomodelle scheinen bereits ausreichend profitabel zu sein, und von API-Preisen ganz zu schweigen
Input kostet $1.74/M, Output laut OpenRouter $3.48/M
Laut Pressemitteilung soll der Pro-Preis stark sinken, wenn in der zweiten Jahreshälfte die Ascend-950-Compute-Karten erscheinen
Allerdings scheinen auch diese Kostenschätzungen zuletzt höher auszufallen als erwartet
Abo-Dienste sind wahrscheinlich bereits profitabel, und das Gerede von Subventionen wirkt am Ende wie ein Argument, um bei Unternehmens-APIs höhere Margen zu rechtfertigen
In China sind auch die Stromkosten niedriger
Irgendwie angenehm, dass vor den schicken Pressemitteilungen zuerst die Entwicklerdokumentation erschienen ist
Nach einer Korrektur scheint der Ausdruck „open source“ im Top-Kommentar entfernt worden zu sein
Es ist schon auf OpenRouter verfügbar
Pro kostet $1.74/m für Input und $3.48/m für Output, Flash kostet $0.14/m für Input und $0.28/m für Output
Hier kommt ein Api Error
Alle anderen Modelle funktionieren ganz normal
https://openrouter.ai/deepseek/deepseek-v4-pro
https://openrouter.ai/deepseek/deepseek-v4-flash
Es freut mich schon, dass aus China tatsächlich Open Source kommt
Ich weiß, dass dahinter versteckte Motive stecken könnten, aber trotzdem spricht mich das an
Chinas versteckte Motive sind eine Annahme, bei den USA liegt es offen auf dem Tisch
http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
Das 1.6T Pro base model wurde auf Hugging Face hochgeladen
Das ist das erste Mal, dass ich dort die Bezeichnung eines T-Klasse-Modells sehe
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
Das Modell ist veröffentlicht und ziemlich beeindruckend
Frontier-Niveau bei der Leistung, aber deutlich günstiger, und es fühlt sich besser an als Opus 4.6
Opus-Nutzer glauben ohnehin weiter, dass es das Beste bleibt, und Nichtnutzer wollen die Kosten, den Lock-in und die Beschränkungen nicht
Ich als Nichtnutzer verwende weiter einfach das billigste und schnellste Modell, das die Arbeit erledigt, und derzeit ist das MiniMax M2.5
Selbst wenn ich gelegentlich teurere neue Modelle ausprobiere, sind die Ergebnisse ähnlich, sodass man sich fragt, ob nicht die gesamte Übertreibung der AI-Branche dafür sorgt, dass Fortschritt nur noch auf Benchmarks sichtbar wirkt
Ich habe diese Woche beim Anthropic-Opus-4.7-Hackathon intensiv mit 4.7 gearbeitet, und obwohl es viel mehr Tokens als 4.6 verbraucht, war es ziemlich beeindruckend
Ich würde gern wissen, ob jemand auch echtes Coding mit einem Agent-Harness ausprobiert hat
Wenn die Coding-Fähigkeit besser ist als Claude Code + Opus 4.6, würde ich sofort wechseln
Jeden Tag erscheinen Release-Posts mit „besser als Opus 4.6“, aber nicht einmal DeepSeek selbst behauptet, mit Thinking insgesamt besser als Opus zu sein
Dsv3 war kein Modell, das nur Benchmarks aufbläht, sondern auch bei Aufgaben außerhalb der Benchmarks ziemlich stabil und ordentlich, wenn auch nicht SoTA
Dieses Modell wirkt ähnlich
Direkt unter der Spitzengruppe, aber mit kleinem Abstand und viel niedrigerem Preis
Das große Modell wird aktuell direkt von ds für $1.74 in / $3.48 out / $0.14 cache angeboten und ist gemessen am Gegenwert sehr günstig
Das kleine Modell kostet $0.14 in / $0.28 out / $0.028 cache und ist praktisch so billig, dass es kaum ins Gewicht fällt, zudem könnte es ein realistischer Kandidat für lokale Nutzung zu Hause sein
Wenn die Leistung passt, kann es durchaus mit haiku- oder gemini-flash-artigen Modellen konkurrieren
Die durchschnittliche Verbesserung liegt bei ungefähr 2 %, und ehrlich gesagt ist schwer zu sagen, ob das riesig oder eher banal ist
Claude 4.6 war bei Long-Context-QA klar besser, besonders bei den Korpora von CorpusQA und bei mehrstufigen Dialogen in MRCR, fast 10 pp
DSv4 lag dafür bei IMOAnswerBench um ganze 14 pp und bei SimpleQA-Verified um 12 pp vorn
Die Gewichte gibt es hier zum Download
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
Es ist wirklich schön, dass jetzt sogar neue base-Modelle da sind
Ich interessiere mich tief für dieses Feld und habe auch real viel darin hängen, aber ehrlich gesagt bekomme ich inzwischen Burnout, wenn ich versuche, alles zu verfolgen
Es fühlt sich an, als wären wir schon längst an dem Punkt vorbei, an dem AI die AI-Entwicklung für uns zusammenfassen muss, damit man noch mitkommt
Das ist wie bei Nachrichten: Wenn etwas wirklich wichtig wird, wird es einem schon jemand sagen
Man kann das wie Sport verfolgen, und wenn man akzeptiert, dass die Spitze wechselt, ist es gar nicht so anstrengend
Neue Modelle bringen dann ein paar bessere Benchmark-Werte, aber die subjektive Erfahrung in der realen Nutzung bleibt fast gleich
Seitdem gab es nur wenig, das wirklich überrascht hat, und inzwischen wirkt das Feld etwas stagnierend und eher auf Enthusiasten beschränkt
Mehr noch als dass High Flyer dafür Anthropic schamlos kopiert hat, stört mich, dass GAB ihnen offenbar genug Zeit verschafft hat, um darin Dutzende xz-artige Easter Eggs zu verstecken
Ich habe es gerade über OpenRouter im Pi Coding agent getestet, und oft nutzt es die Read- und Write-Tools nicht richtig
Ziemlich enttäuschend, und ich frage mich, ob es dafür bessere Lösungen gibt als Prompts wie „verwende keine direkten Aufrufe, sondern immer die bereitgestellten Tools“
Wahrscheinlich gab es noch nicht genug Vorabtests mit Pi