DeepSeek V4 – Fast auf Frontier-Niveau und deutlich günstiger
(simonwillison.net)- DeepSeek hat mit DeepSeek-V4-Pro und DeepSeek-V4-Flash Vorschau-Modelle als erste Modelle der V4-Serie vorgestellt. Beide sind Mixture-of-Experts-Modelle mit Unterstützung für 1 Million Token Kontext und werden unter der MIT-Lizenz angeboten.
- DeepSeek-V4-Pro ist ein Modell mit insgesamt 1.6T Parametern und 49B aktiven Parametern und das bislang größte Modell mit offenen Gewichten, größer als Kimi K2.6, GLM-5.1 und DeepSeek V3.2.
- Das zentrale Unterscheidungsmerkmal von DeepSeek V4 ist der Preis: Flash kostet $0.14 pro 1 Million Input-Token und $0.28 für Output, Pro kostet $1.74 für Input und $3.48 für Output und liegt damit unter den verglichenen kleinen und großen Modellen.
- Der niedrige Preis hängt mit der Effizienz bei langem Kontext zusammen: Bei 1 Million Token Kontext sinkt Pro gegenüber DeepSeek-V3.2 auf 27 % der FLOPs pro Token und 10 % des KV-Cache, Flash auf 10 % der FLOPs und 7 % des KV-Cache.
- In den eigenen Benchmarks ist DeepSeek-V4-Pro konkurrenzfähig mit Frontier-Modellen, liegt aber leicht unter GPT-5.4 und Gemini-3.1-Pro und folgt einer Entwicklungsbahn, die etwa 3 bis 6 Monate hinter modernsten Frontier-Modellen liegt.
Modellveröffentlichung und Basisspezifikationen
- DeepSeek hat nach V3.2 und V3.2 Speciale im Dezember 2025 mit DeepSeek-V4-Pro und DeepSeek-V4-Flash zwei Vorschau-Modelle als erste Modelle der V4-Serie veröffentlicht.
- Beide Modelle sind Mixture-of-Experts-Modelle mit Unterstützung für einen Kontext von 1 Million Token und verwenden die Standard-MIT-Lizenz.
- DeepSeek-V4-Pro ist ein Modell mit insgesamt 1.6T Parametern und 49B aktiven Parametern, DeepSeek-V4-Flash ein Modell mit insgesamt 284B Parametern und 13B aktiven Parametern.
- DeepSeek-V4-Pro ist mit 1.6T größer als Kimi K2.6 mit 1.1T, GLM-5.1 mit 754B und DeepSeek V3.2 mit 685B und scheint damit das neue größte Modell mit offenen Gewichten zu sein.
- Laut Hugging Face beträgt die Modellgröße bei Pro 865GB und bei Flash 160GB. Es wird erwartet, dass die leicht quantisierte Flash-Version auf einem M5 MacBook Pro mit 128GB laufen kann.
- Auch das Pro-Modell könnte auf derselben Maschine laufen, sofern nur die jeweils benötigten aktiven Experten (experts) von der Festplatte gestreamt werden können.
-
Kurzer Test über OpenRouter
- Mit OpenRouter und llm-openrouter wurde das Modell mit folgendem Befehl aufgerufen:
-
llm install llm-openrouter llm openrouter refresh llm -m openrouter/deepseek/deepseek-v4-pro 'Generate an SVG of a pelican riding a bicycle' - Als Ergebnis wurden das Pelikan-SVG von DeepSeek-V4-Flash und das Pelikan-SVG von DeepSeek-V4-Pro veröffentlicht.
- Zum Vergleich werden auch die Ergebnisse desselben Prompts für DeepSeek V3.2 vom Dezember 2025, V3.1 vom August 2025 und V3-0324 vom März 2025 gezeigt.
Preis, Effizienz und Leistungseinordnung
- Das auffälligste Element bei DeepSeek V4 ist der Preis. Laut DeepSeek-Preisübersicht kostet Flash $0.14 pro 1 Million Input-Token und $0.28 pro 1 Million Output-Token.
- Für Pro werden $1.74 pro 1 Million Input-Token und $3.48 pro 1 Million Output-Token berechnet.
- In der Vergleichstabelle liegt DeepSeek V4 Flash unter GPT-5.4 Nano mit $0.20 Input und $1.25 Output sowie Gemini 3.1 Flash-Lite mit $0.25 Input und $1.50 Output und ist damit das günstigste unter den kleinen Modellen.
- DeepSeek V4 Pro liegt unter Gemini 3.1 Pro mit $2 Input und $12 Output, GPT-5.4 mit $2.50 Input und $15 Output, Claude Sonnet 4.6 mit $3 Input und $15 Output, Claude Opus 4.7 mit $5 Input und $25 Output sowie GPT-5.5 mit $5 Input und $30 Output und ist damit das günstigste unter den großen Frontier-Modellen.
-
Effizienzsteigerungen stützen den niedrigen Preis
- Das DeepSeek-Paper erklärt, dass sich diese Veröffentlichung stark auf die Effizienz bei langen Kontext-Prompts konzentriert hat.
- Bei 1 Million Token Kontext erreicht DeepSeek-V4-Pro gegenüber DeepSeek-V3.2 nur 27 % der FLOPs pro Token und 10 % der KV-Cache-Größe.
- Unter denselben Bedingungen sinkt DeepSeek-V4-Flash gegenüber DeepSeek-V3.2 auf nur 10 % der FLOPs pro Token und 7 % der KV-Cache-Größe.
-
In Benchmarks nahe an Frontier, aber nicht an der Spitze
- Die selbst berichteten Benchmarks von DeepSeek zeigen, dass das Pro-Modell mit anderen Frontier-Modellen konkurrieren kann.
- Laut Paper zeigt DeepSeek-V4-Pro-Max mit angewandter Inference-Token-Skalierung in Standard-Reasoning-Benchmarks eine höhere Leistung als GPT-5.2 und Gemini-3.0-Pro.
- Es liegt jedoch leicht unter GPT-5.4 und Gemini-3.1-Pro und folgt einer Entwicklungsbahn, die etwa 3 bis 6 Monate hinter modernsten Frontier-Modellen liegt.
- Es wird erwartet, dass auf huggingface.co/unsloth/models quantisierte Versionen von Unsloth veröffentlicht werden; zugleich bleibt interessant, wie gut sich das Flash-Modell auf lokalen Maschinen ausführen lässt.
2 Kommentare
Dass es wirklich sehr günstig ist, ist erst mal gut, aber das Problem ist, dass es viel zu langsam ist ... Was mit Codex 5 Minuten dauert, darüber denkt dieses hier 20 Minuten nach. Deshalb nutze ich es eher für Code-Reviews als für die Implementierung; mit den Code-Reviews ist es ziemlich gut, daher bin ich zufrieden.
Hacker-News-Kommentare
Der größte Unterschied für mich ist, dass DeepSeek einfach das tut, worum man es bittet. Ich habe kürzlich sowohl GPT als auch Claude für Reverse Engineering verwendet, und beide haben abgelehnt, und ich habe sogar eine Warnung für mein OpenAI-Konto bekommen.
Deepseek v4 pro 94%
Deepseek v4 flash - 96%
https://artificialanalysis.ai/evaluations/omniscience?models...
Das hat mich wirklich wütend gemacht, es war wie das alte SpongeBob-Patrick-Meme. Ich verstehe nicht, warum man aus Modellen Gesetzeshüter machen will. Illegale Dinge bleiben weiterhin illegal, und es gibt Experten, die sich mit Kriminalität befassen. Google muss nicht zum Schiedsrichter von Wahrheit und Gerechtigkeit werden. Strafverfolgungsbehörden zur Rechenschaft zu ziehen ist schon schwer genug, aber wenigstens arbeiten sie für uns.
Entwicklerkollegen, was für eine Welt haben wir da gebaut? Das ist Wahnsinn. Man stelle sich vor, ein Hammer würde sagen: „Benutze mich nicht für Schrauben, nur für Nägel. Wenn du das noch mal machst, sprenge ich mich selbst.“ Ich wünschte, wir würden aufhören, solche Software zu bauen.
Man stelle sich vor, OpenAI kauft 20 Firmen auf, und weil du früher einmal eine unscharfe Grenze überschritten hast, kannst du Figma, Next und Ähnliches nicht mehr benutzen. Nicht nur OpenAI, das ganze Ökosystem ist viel zu schwer lesbar.
Ich habe Gemini nach einem Zitat aus Catch-22 gefragt, und obwohl es weder gewalttätig noch sexuell war, stoppte es mitten im Streaming immer wieder und sagte, es könne nicht antworten. Solche Inhalte gibt es zwar im Buch, aber allein deshalb hat man das Gefühl, dass sogar das gesamte Workspace-Konto Minuspunkte bekommen könnte.
Im Idealfall sollte die Zukunft lokal sein, das ist mir klar, aber wenn ich in den nächsten Jahren an die realen Kosten und den Stromverbrauch denke, weiß ich nicht, wie realistisch das für die meisten ist. Wenn man in diesem Ökosystem ist, wären M*-Prozessoren vielleicht die Ausnahme.
DeepSeek v4 Pro fühlte sich vom Charakter her wie Claude Opus 4.6 an, und beim Preis war es beeindruckend.
Ich habe es gebeten, sich in einer ziemlich großen TypeScript-Codebasis nur auf einen einzelnen Endpoint zu konzentrieren und API, DTO, Service und Datenbankmodell schichtweise tief zu untersuchen, alle relevanten Typen vollständig nachzuvollziehen und sicherzustellen, dass keine temporären Typen entstehen.
Es hat die eingeführten Typen und welche davon zurückgegeben werden, sehr kurz, aber auf den Punkt gebracht zusammengefasst, und danach habe ich es gebeten, das Ganze zu vereinfachen.
Für beide Prompts zusammen muss es viele Dateien durchgesehen haben, aber die Gesamtkosten der Pro-Version lagen bei $0.09. Mit Claude Opus hätte ich nach meiner Erfahrung selbst vor der Preiserhöhung nur für diese beiden Prompts leicht $9–$13 verbrannt, und der Gewinn wäre nicht groß gewesen.
Zur Einordnung: Ich habe nicht OpenRouter, sondern direkt die DeepSeek API verwendet. OpenRouter selbst wurde auf der DeepSeek-Seite gerade rate-limited.
grepausführt; ich halte das für ein Problem des Harnesses.Deshalb habe ich mit tree-sitter und Prolog-basiertem MCP den Code als Graphen geparst, damit das Modell Fragen stellen kann wie „Welche Funktionen sind mit dieser Funktion verbunden?“. Wenn man sehen will, was ein bestimmter Endpoint macht, kann man den gesamten Call-Subgraph trivial und vorhersehbar verfolgen.
https://github.com/yogthos/chiasmus
Dazu passend gibt es eine Live-Demo, in der DeepSeek v4 Flash auf einem 128GB MacBook läuft. Das Video ist auf Italienisch und hat englische Untertitel.
https://www.youtube.com/watch?v=todMmp6AGCE
Ich habe es an vscode copilot angeschlossen und sowohl flash als auch pro verwendet. Für kleine Proofs of Concept reichte flash aus, war ziemlich schnell und wirklich billig.
Es ist ein paarmal hängen geblieben, vielleicht wegen Latenzproblemen, aber die Ergebnisse waren trotzdem gut. Pro habe ich für schwere Arbeit und Planung verwendet, und das hat es hervorragend erledigt.
Für einen kleinen Proof of Concept habe ich ungefähr 10 Cent bezahlt, und es hat genau so funktioniert, wie ich es gepromptet hatte. Für mich ist das nach der Kündigung von GitHub Copilot Ende dieses Monats eine echte Alternative.
Die Kosten sind zwar niedriger als bei Frontier-Modellen, aber es gibt zwei Faktoren, die DS4 Pro und K2.6 weniger billig machen, als es scheint.
DS4 Pro hat in der offiziellen API einen Rabatt, was in Diskussionen oft übersehen oder vermischt wird. Simon hat im Vergleich den Listenpreis verwendet, daher ist das hier kein Problem.
Das andere Problem ist, dass DS4 Pro und K2.6 oft viel mehr Inferenz-Tokens verbrauchen als Frontier-Modelle. In meinen Tests gab es einige pathologische Fälle, in denen so viele Tokens verbraucht wurden, dass die Kosten pro Request auf das Niveau von Frontier-Modellen steigen konnten. Fairerweise muss man sagen, dass ich DS und Kimi über Drittanbieter-Provider nutze, also könnte das auch ein Konfigurationsproblem dort sein.
Wenn man sich aber die Modellseiten von Artificial Analysis ansieht, hat DSv4 Pro beim Intelligenz-Benchmark 190M Tokens verbraucht, K2.6 170M, während GPT 5.5 high nur 45M brauchte.
Ich empfehle, sich „Intelligence vs. Cost to Run Artificial Analysis Intelligence Index“ anzusehen, im UI also „Intelligence vs Cost“. Open-Source-Modelle sind immer noch günstiger, aber nicht so stark, wie man es allein anhand des Token-Preises erwarten würde.
[0] https://artificialanalysis.ai/models/deepseek-v4-pro
[1] https://artificialanalysis.ai/models/kimi-k2-6
[2] https://artificialanalysis.ai/models/gpt-5-5-high
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main...
Es führt HCA und mCH ein, ziemlich neue Methoden zur Verbesserung von Long-Context-Effizienz und Attention. Im Vergleich zu v3.2 werden für Inferenz nur 27% der FLOPs und für den KV-Cache nur 10% benötigt. Das heißt, mit denselben Rechenressourcen kann man mehr als dreimal so viel Serving machen und braucht nur 30% des bisherigen KV-Caches.
Außerdem ist dieses Release ein PREVIEW. DeepSeek ist ein echtes Open Lab, das bei jedem Release nicht nur ziemlich viel hervorbringt, sondern es auch offenlegt und teilt. Ich betreibe das lokal.
Um zu zeigen, wie „billig“ es ist: Bei v3.2 reichte der GPU-Speicher bei 256k Kontext nicht aus und es spillte in den Systemspeicher, trotzdem war ich mit etwa 7.000 Tokens pro Sekunde zufrieden. Diesmal passt der gesamte Kontext von 1 Million Tokens zu 100% in den GPU-Speicher, läuft mehr als doppelt so schnell und liefert bessere Ergebnisse.
Das ist wirklich günstig. Moonshot hat klar gemacht, dass ihnen GPUs fehlen, und deshalb ist das so. Wenn sie GPU-Kapazität wie in den USA hätten und das Modell hier ähnlich subventionieren würden, hätten sie es gratis verteilt.
Als ich das früher mit Opus 4.6 versucht habe, hatte es mein Budget von $10 schon verbrannt, bevor es überhaupt vom ersten Prompt zurückkam.
Selbst bei stark rabattierten Preisen hätte die vollständige Lösung einen einstelligen Dollarbetrag gekostet, während Opus einen zweistelligen Dollarbetrag gekostet hätte, ohne dass ich exakt irgendetwas bekommen hätte.
V4 ist in unserem mehrsprachigen Benchmark gegenüber V3.2 klar eine Stufe aufgestiegen.
Allerdings gibt es zwei Vorbehalte. Beim Inferenzbetrieb über OpenRouter war die Geschwindigkeit (TPS) sehr niedrig und manchmal oft instabil. Selbst gerade eben lagen alle verfügbaren Provider nur bei 10–30 TPS, was für ein stark „denkendes“ Modell wie DeepSeek nicht viel ist.
Die offizielle DeepSeek API garantiert selbst zahlenden Nutzern keinen Datenschutz.
Über Azure AI Foundry könnten beide Punkte kein Problem sein. Letzteres ist meines Wissens so, getestet habe ich es aber noch nicht.
Jedenfalls freue ich mich, dass es mehr Open-Weights-Modelle gibt, die halbwegs mit aktuellen Topmodellen konkurrieren.
Die offizielle DeepSeek API ist bei langen Sitzungen auf derselben Codebasis wegen Cache-Trefferraten von über 99% viel günstiger als Frontier-Modelle. Es gibt ein Beispiel für eine 200M-Token-Session in claude code.
Es erstaunt mich, dass es den Leuten, vor allem wenn sie solche Modelle direkt über die Entwickler-API nutzen, offenbar völlig egal ist, dass diese Modelle öffentlich auf ihren Daten trainieren.
Bei Sachen wie „GitHub optiert jetzt automatisch den Code aller für das Modelltraining ein“ gibt es zu Recht Hunderte wütende Kommentare, aber sobald es um die Nutzung chinesischer Modelle über OpenRouter geht, kommt das kaum noch vor. Man könnte es mit „andere Leute“ erklären, aber der Unterschied ist so krass, dass das kaum die ganze Erklärung sein kann.
Das ist einer der großen Vorteile von Open Weights. Weder China noch die USA bekommen meine Daten.
Es macht Hoffnung, dass nach dem Ende des Subventionszirkus und wenn alles rein nutzungsbasiert läuft, normale Leute ohne $200 Monatsbudget nicht völlig ausgeschlossen sein werden.
Zum einen finden wir weiterhin Wege, mehr Intelligenz in kleinere Modelle zu packen, sodass dieselbe Hardware-Spezifikation mit der Zeit mehr Modellfähigkeiten liefert.
Zum anderen verbessert sich die Hardware weiter und das Angebot holt die Nachfrage ein, sodass die Hardware-Spezifikation, die man für einen Dollar bekommt, mit der Zeit besser wird.
Ich hoffe, dass wir irgendwann auf das heutige Modell „Zugang zu KI über Provider-APIs“ so zurückblicken werden, wie wir heute auf die Zeit zurückblicken, in der sich alle in den Mainframe einer Firma eingeloggt haben.
Ich habe in den letzten Tagen v4 pro benutzt, und qualitativ scheint es meist ungefähr auf dem Niveau von OpenAI 5.4 oder Opus 4.6 zu sein. 4.7 habe ich nicht ausprobiert.
Zur Klarstellung: Ich mache keine hochmodernen Aufgaben. Ich habe es hauptsächlich für Frontend-Entwicklung verwendet, und da ich darin nicht gut bin, brauchte ich nur einen plausiblen Prototypen.
Für meine Zwecke ist es völlig in Ordnung, und der Preis ist vernünftig. Ich warte aber wirklich auf ein kleines offenes Modell, das lokal laufen kann. Ich hasse es, auf fremde Maschinen angewiesen zu sein und dabei zuzusehen, wie all meine Daten abfließen.
Zur Transparenz: Ich bin Mitgründer. Dieser Ansatz führt das Modell in einer sicheren Enklave aus und prüft, ob der in der Enklave laufende Open-Source-Code mit der Runtime-Attestation übereinstimmt. Dabei wird NVIDIA confidential computing verwendet.
In der Dokumentation wird der Verifizierungsprozess erklärt: https://docs.tinfoil.sh/verification/verification-in-tinfoil