DeepSeek v4: Hocheffizientes Large Language Model mit Unterstützung für 1 Million Token Kontext

(huggingface.co)

10 Punkte von GN⁺ 5 일 전 | 1 Kommentare | Auf WhatsApp teilen

Ein auf Mixture-of-Experts (MoE) basierendes Large Language Model mit Unterstützung für einen 1M-Token-Kontext, veröffentlicht in zwei Versionen: Pro (1.6T Parameter) und Flash (284B Parameter)
Mit einer hybriden Attention-Architektur, die Compressed Sparse Attention (CSA) und Heavily Compressed Attention (HCA) kombiniert, werden bei 1 Million Token im Vergleich zu DeepSeek-V3.2 nur 27 % der Inferenz-FLOPs und 10 % des KV-Cache benötigt
Nach dem Pretraining mit mehr als 32T Token wird eine zweistufige Post-Training-Pipeline angewendet, bei der domänenspezifische Experten zunächst separat trainiert und anschließend per on-policy distillation in ein einzelnes Modell integriert werden
DeepSeek-V4-Pro-Max erreicht bei Coding-Benchmarks wie LiveCodeBench 93.5, SWE Verified 80.6 und Codeforces 3206 die beste Open-Source-Leistung
Unterstützt drei Inferenzmodi: Non-Think, Think High und Think Max, sodass je nach Einsatz vom Alltags-Task bis zur anspruchsvollsten Schlussfolgerung gewählt werden kann

Modellüberblick und Architektur

Die DeepSeek-V4-Serie besteht aus zwei Modellen: DeepSeek-V4-Pro (insgesamt 1.6T Parameter, 49B aktiv) und DeepSeek-V4-Flash (insgesamt 284B Parameter, 13B aktiv)
Beide Modelle unterstützen eine Kontextlänge von 1 Million Token
Drei zentrale Architektur- und Optimierungs-Upgrades:
- Hybrid Attention Architecture: Kombiniert CSA und HCA, verbessert damit die Effizienz bei langen Kontexten deutlich und reduziert bei 1 Million Token im Vergleich zu DeepSeek-V3.2 die FLOPs pro Token-Inferenz auf 27 % und den KV-Cache auf 10 %
- Manifold-Constrained Hyper-Connections (mHC): Verstärkt bestehende Residual-Verbindungen, um sowohl stabile Signalübertragung zwischen den Layern als auch höhere Ausdrucksstärke des Modells sicherzustellen
- Muon Optimizer: Sorgt für schnellere Konvergenz und höhere Trainingsstabilität

Training und Post-Training-Pipeline

Pretraining mit mehr als 32T vielfältigen und hochwertigen Token
Im Post-Training wird ein zweistufiges Paradigma angewendet:
- Stufe 1: Unabhängiges Training domänenspezifischer Experten durch SFT und RL (unter Verwendung von GRPO)
- Stufe 2: Integration der Fachkompetenz aus verschiedenen Domänen in ein einzelnes Modell per on-policy distillation

Inferenzmodi

Sowohl DeepSeek-V4-Pro als auch DeepSeek-V4-Flash unterstützen drei Inferenzmodi:
- Non-Think: Schnelle und intuitive Antworten, geeignet für Alltagsaufgaben oder risikoarme Entscheidungen
- Think High: Bewusste logische Analyse, geeignet für komplexe Problemlösung oder Planung
- Think Max: Erweitert die Schlussfolgerungsfähigkeit bis an ihre Grenzen, gedacht zur Erkundung der Inferenzgrenzen des Modells

Benchmark-Leistung — Base-Modelle

DeepSeek-V4-Pro-Base übertrifft in den meisten Benchmarks V3.2-Base und V4-Flash-Base:
- MMLU: 90.1 (V3.2-Base 87.8, V4-Flash-Base 88.7)
- MMLU-Pro: 73.5 (V3.2-Base 65.5)
- Simple-QA Verified: 55.2 (V3.2-Base 28.3)
- FACTS Parametric: 62.6 (V3.2-Base 27.1)
- HumanEval: 76.8 (V3.2-Base 62.8)
- LongBench-V2: 51.5 (V3.2-Base 40.2)
V4-Flash-Base zeigt Effizienz, da es mit nur 13B aktiven Parametern nahezu an V3.2-Base (37B aktiv) heranreicht oder diese in einigen Benchmarks übertrifft

Benchmark-Leistung — Instruct-Modelle (V4-Pro-Max vs. Frontier-Modelle)

Besonders stark bei Coding-Benchmarks:
- LiveCodeBench 93.5 (Gemini-3.1-Pro High 91.7, Opus-4.6 Max 88.8)
- Codeforces 3206 (GPT-5.4 xHigh 3168, Gemini-3.1-Pro High 3052)
- Apex Shortlist 90.2 (Gemini-3.1-Pro High 89.1)
Im Bereich Wissen und Reasoning:
- SimpleQA-Verified 57.9 und Chinese-SimpleQA 84.4 übertreffen die meisten Modelle, bleiben aber hinter Gemini-3.1-Pro High (75.6, 85.9) zurück
- GPQA Diamond 90.1, MMLU-Pro 87.5
Agenten-Tasks:
- SWE Verified 80.6, MCPAtlas Public 73.6 und damit in der Spitzengruppe
- Bei Terminal Bench 2.0 (67.9) und HLE w/ tools (48.2) unterlegen gegenüber einigen Closed-Source-Modellen
V4-Flash-Max erreicht mit größerem Thinking-Budget eine Inferenzleistung nahe der Pro-Version, bleibt bei reinen Wissens-Tasks und komplexen Agent-Workflows wegen des Parameterunterschieds jedoch leicht zurück

Leistungsvergleich nach Modus

V4-Pro Max erzielt in allen Benchmarks die beste Leistung
Konsistentes Muster steigender Leistung von Non-Think → Think High → Think Max:
- Beispiel: Bei GPQA Diamond steigt V4-Pro von Non-Think 72.9 → High 89.1 → Max 90.1
- Beispiel: Bei LiveCodeBench steigt V4-Flash von Non-Think 55.2 → Max 91.6
V4-Flash Max erreicht in mehreren Benchmarks eine ähnliche oder bessere Leistung als V4-Pro High

Modelldownload und Präzision

Vier Modelle verfügbar: V4-Flash-Base, V4-Flash, V4-Pro-Base, V4-Pro
Base-Modelle verwenden FP8 Mixed-Präzision, Instruct-Modelle FP4 + FP8 Mixed-Präzision
- MoE-Expertenparameter in FP4, der Großteil des Rests in FP8
Download über HuggingFace und ModelScope möglich

Chat-Template und lokale Ausführung

Kein Chat-Template im Jinja-Format enthalten; stattdessen werden im Ordner encoding Python-Skripte und Testfälle zum Kodieren/Parsen von Nachrichten im OpenAI-kompatiblen Format bereitgestellt
Empfohlene Sampling-Parameter für lokale Deployments: temperature 1.0, top_p 1.0
Für den Think-Max-Modus wird ein Kontextfenster von mindestens 384K Token empfohlen

Lizenz

Sowohl Modellgewichte als auch Repository stehen unter der MIT License

1 Kommentare

GN⁺ 5 일 전

Hacker-News-Kommentare

Bei einem riesigen Modell wie v4 pro kostet die Ausgabe von 1 Million Token etwa 4 Dollar, aber ich bin mir nicht sicher, ob die Aussage wirklich stimmt, dass „die Frontier-Labs Inferenz auf verrücktem Niveau querfinanzieren“
Abomodelle scheinen bereits ausreichend profitabel zu sein, und von API-Preisen ganz zu schweigen
Input kostet $1.74/M, Output laut OpenRouter $3.48/M
- Es gibt auch die Erklärung, dass der Preis aktuell wegen eines Mangels an Inferenz-Karten bei DeepSeek hoch ist
  Laut Pressemitteilung soll der Pro-Preis stark sinken, wenn in der zweiten Jahreshälfte die Ascend-950-Compute-Karten erscheinen
- Gemessen an den Betriebskosten könnte es profitabel sein, aber auf Basis der Kapitalkosten inklusive des aktuellen Abschreibungsplans vielleicht noch nicht
  Allerdings scheinen auch diese Kostenschätzungen zuletzt höher auszufallen als erwartet
- Sehe ich ähnlich
  Abo-Dienste sind wahrscheinlich bereits profitabel, und das Gerede von Subventionen wirkt am Ende wie ein Argument, um bei Unternehmens-APIs höhere Margen zu rechtfertigen
- Der Einwand stimmt, aber es gibt noch keinen westlichen Anbieter, der dieses Preisniveau erreicht
  In China sind auch die Stromkosten niedriger
Irgendwie angenehm, dass vor den schicken Pressemitteilungen zuerst die Entwicklerdokumentation erschienen ist
- Ja, genau, wirklich this is the way
- Wenn man das Open Source nennen will, wo sind dann die Trainingsdaten und die Trainingsskripte?
  Nach einer Korrektur scheint der Ausdruck „open source“ im Top-Kommentar entfernt worden zu sein
Es ist schon auf OpenRouter verfügbar
Pro kostet $1.74/m für Input und $3.48/m für Output, Flash kostet $0.14/m für Input und $0.28/m für Output
- Hier kommt ein Api Error
  Alle anderen Modelle funktionieren ganz normal
- https://openrouter.ai/deepseek/deepseek-v4-pro
  
  https://openrouter.ai/deepseek/deepseek-v4-flash
Es freut mich schon, dass aus China tatsächlich Open Source kommt
Ich weiß, dass dahinter versteckte Motive stecken könnten, aber trotzdem spricht mich das an
- US-Unternehmen verlangen übertriebene Identitätsprüfungen, selbst wenn man nur für den Modellzugang bezahlt, speichern und analysieren Daten, nutzen sie fürs Training und sagen offen, dass sie sie auf Anfrage an Behörden weitergeben könnten
  Chinas versteckte Motive sind eine Annahme, bei den USA liegt es offen auf dem Tisch
- Wer verstehen will, warum chinesische Labs ihre Modelle veröffentlichen, für den ist dieser Artikel hilfreich
  http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
- Es ist nur Open Weights
Das 1.6T Pro base model wurde auf Hugging Face hochgeladen
Das ist das erste Mal, dass ich dort die Bezeichnung eines T-Klasse-Modells sehe
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

Das Modell ist veröffentlicht und ziemlich beeindruckend
Frontier-Niveau bei der Leistung, aber deutlich günstiger, und es fühlt sich besser an als Opus 4.6
- Ich frage mich inzwischen, ob man Modelle überhaupt noch mit Opus vergleichen muss
  Opus-Nutzer glauben ohnehin weiter, dass es das Beste bleibt, und Nichtnutzer wollen die Kosten, den Lock-in und die Beschränkungen nicht
  Ich als Nichtnutzer verwende weiter einfach das billigste und schnellste Modell, das die Arbeit erledigt, und derzeit ist das MiniMax M2.5
  Selbst wenn ich gelegentlich teurere neue Modelle ausprobiere, sind die Ergebnisse ähnlich, sodass man sich fragt, ob nicht die gesamte Übertreibung der AI-Branche dafür sorgt, dass Fortschritt nur noch auf Benchmarks sichtbar wirkt
- Mich würde interessieren, wie es im Vergleich zu Opus 4.7 aussieht
  Ich habe diese Woche beim Anthropic-Opus-4.7-Hackathon intensiv mit 4.7 gearbeitet, und obwohl es viel mehr Tokens als 4.6 verbraucht, war es ziemlich beeindruckend
- Mich interessiert, ob es wirklich besser als Opus 4.6 ist oder nur gut auf Benchmarks optimiert wurde
  Ich würde gern wissen, ob jemand auch echtes Coding mit einem Agent-Harness ausprobiert hat
  Wenn die Coding-Fähigkeit besser ist als Claude Code + Opus 4.6, würde ich sofort wechseln
- Jetzt geht das wieder los
  Jeden Tag erscheinen Release-Posts mit „besser als Opus 4.6“, aber nicht einmal DeepSeek selbst behauptet, mit Thinking insgesamt besser als Opus zu sein
  Dsv3 war kein Modell, das nur Benchmarks aufbläht, sondern auch bei Aufgaben außerhalb der Benchmarks ziemlich stabil und ordentlich, wenn auch nicht SoTA
  Dieses Modell wirkt ähnlich
  Direkt unter der Spitzengruppe, aber mit kleinem Abstand und viel niedrigerem Preis
  Das große Modell wird aktuell direkt von ds für $1.74 in / $3.48 out / $0.14 cache angeboten und ist gemessen am Gegenwert sehr günstig
  Das kleine Modell kostet $0.14 in / $0.28 out / $0.028 cache und ist praktisch so billig, dass es kaum ins Gewicht fällt, zudem könnte es ein realistischer Kandidat für lokale Nutzung zu Hause sein
  Wenn die Leistung passt, kann es durchaus mit haiku- oder gemini-flash-artigen Modellen konkurrieren
- Nach grober Rechnung anhand der veröffentlichten Benchmark-Zahlen ergibt sich über 20 Metriken, bei denen beide Werte haben, insgesamt ein Abstand von 20,1 Prozentpunkten
  Die durchschnittliche Verbesserung liegt bei ungefähr 2 %, und ehrlich gesagt ist schwer zu sagen, ob das riesig oder eher banal ist
  Claude 4.6 war bei Long-Context-QA klar besser, besonders bei den Korpora von CorpusQA und bei mehrstufigen Dialogen in MRCR, fast 10 pp
  DSv4 lag dafür bei IMOAnswerBench um ganze 14 pp und bei SimpleQA-Verified um 12 pp vorn
Die Gewichte gibt es hier zum Download
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
- https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base
  https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
  
  Es ist wirklich schön, dass jetzt sogar neue base-Modelle da sind
Ich interessiere mich tief für dieses Feld und habe auch real viel darin hängen, aber ehrlich gesagt bekomme ich inzwischen Burnout, wenn ich versuche, alles zu verfolgen
Es fühlt sich an, als wären wir schon längst an dem Punkt vorbei, an dem AI die AI-Entwicklung für uns zusammenfassen muss, damit man noch mitkommt
- Am besten versucht man gar nicht erst, alles zu verfolgen
  Das ist wie bei Nachrichten: Wenn etwas wirklich wichtig wird, wird es einem schon jemand sagen
- Die Kernakteure ändern sich kaum
  Man kann das wie Sport verfolgen, und wenn man akzeptiert, dass die Spitze wechselt, ist es gar nicht so anstrengend
- Gefühlt ist seit GPT-4 alles ziemlich ähnlich
  Neue Modelle bringen dann ein paar bessere Benchmark-Werte, aber die subjektive Erfahrung in der realen Nutzung bleibt fast gleich
  Seitdem gab es nur wenig, das wirklich überrascht hat, und inzwischen wirkt das Feld etwas stagnierend und eher auf Enthusiasten beschränkt
Mehr noch als dass High Flyer dafür Anthropic schamlos kopiert hat, stört mich, dass GAB ihnen offenbar genug Zeit verschafft hat, um darin Dutzende xz-artige Easter Eggs zu verstecken
Ich habe es gerade über OpenRouter im Pi Coding agent getestet, und oft nutzt es die Read- und Write-Tools nicht richtig
Ziemlich enttäuschend, und ich frage mich, ob es dafür bessere Lösungen gibt als Prompts wie „verwende keine direkten Aufrufe, sondern immer die bereitgestellten Tools“
- Es ist gerade erst erschienen, daher wäre es wohl besser, noch etwas abzuwarten
  Wahrscheinlich gab es noch nicht genug Vorabtests mit Pi

DeepSeek v4: Hocheffizientes Large Language Model mit Unterstützung für 1 Million Token Kontext

Modellüberblick und Architektur

Training und Post-Training-Pipeline

Inferenzmodi

Benchmark-Leistung — Base-Modelle

Benchmark-Leistung — Instruct-Modelle (V4-Pro-Max vs. Frontier-Modelle)

Leistungsvergleich nach Modus

Modelldownload und Präzision

Chat-Template und lokale Ausführung

Lizenz

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare