DeepSeek V4 – fast auf Frontier-Niveau, zu einem Bruchteil des Preises
(simonwillison.net)- DeepSeek hat mit DeepSeek-V4-Pro und DeepSeek-V4-Flash die ersten Preview-Modelle der V4-Serie vorgestellt. Beide sind Mixture-of-Experts-Modelle mit Unterstützung für 1 Million Token Kontext und werden unter der MIT-Lizenz angeboten.
- DeepSeek-V4-Pro ist ein Modell mit insgesamt 1,6T Parametern und 49B aktiven Parametern und scheint damit größer zu sein als Kimi K2.6, GLM-5.1 und DeepSeek V3.2. Es wirkt damit wie das neue größte Open-Weights-Modell.
- Das wichtigste Unterscheidungsmerkmal von DeepSeek V4 ist der Preis: Flash kostet $0.14 pro 1 Million Eingabe-Token und $0.28 pro 1 Million Ausgabe-Token, Pro kostet $1.74 für Eingabe und $3.48 für Ausgabe und liegt damit unter vergleichbaren kleineren und größeren Modellen.
- Der niedrige Preis hängt mit der Effizienz bei langen Kontexten zusammen: Bei 1 Million Token Kontext sinkt Pro gegenüber DeepSeek-V3.2 auf 27 % der FLOPs pro einzelnes Token und 10 % des KV-Cache-Bedarfs, Flash auf 10 % der FLOPs und 7 % des KV-Cache-Bedarfs.
- In eigenen Benchmarks zeigt DeepSeek-V4-Pro Leistung auf Frontier-Niveau, liegt aber etwas hinter GPT-5.4 und Gemini-3.1-Pro und folgt damit einer Entwicklungsbahn, die etwa 3–6 Monate hinter den modernsten Frontier-Modellen zurückliegt.
Modellveröffentlichung und Basisspezifikationen
- DeepSeek hat nach V3.2 und V3.2 Speciale im Dezember 2025 mit DeepSeek-V4-Pro und DeepSeek-V4-Flash die ersten beiden Preview-Modelle der V4-Serie veröffentlicht.
- Beide Modelle sind Mixture-of-Experts-Modelle mit 1 Million Token Kontext und verwenden die Standard-MIT-Lizenz.
- DeepSeek-V4-Pro hat insgesamt 1,6T Parameter und 49B aktive Parameter, DeepSeek-V4-Flash insgesamt 284B Parameter und 13B aktive Parameter.
- DeepSeek-V4-Pro ist größer als Kimi K2.6 mit 1.1T, GLM-5.1 mit 754B und DeepSeek V3.2 mit 685B und scheint damit das neue größte Open-Weights-Modell zu sein.
- Laut Hugging Face beträgt die Modellgröße 865GB für Pro und 160GB für Flash. Es wird erwartet, dass eine leicht quantisierte Flash-Version auf einem 128GB M5 MacBook Pro laufen könnte.
- Auch das Pro-Modell könnte auf derselben Maschine laufen, falls nur die benötigten aktiven Experten (experts) von der Festplatte gestreamt werden müssen.
-
Kurzer Test über OpenRouter
- Mit OpenRouter und llm-openrouter wurde das Modell mit folgendem Befehl aufgerufen:
-
llm install llm-openrouter llm openrouter refresh llm -m openrouter/deepseek/deepseek-v4-pro 'Generate an SVG of a pelican riding a bicycle' - Die erzeugten Ergebnisse wurden als Pelikan-SVG von DeepSeek-V4-Flash und Pelikan-SVG von DeepSeek-V4-Pro veröffentlicht.
- Zum Vergleich wurden außerdem die Ergebnisse desselben Prompts für DeepSeek V3.2 vom Dezember 2025, V3.1 vom August 2025 und V3-0324 vom März 2025 gezeigt.
Preis, Effizienz und Leistungsposition
- Das auffälligste Merkmal von DeepSeek V4 ist der Preis. Laut der DeepSeek-Preisseite kostet Flash $0.14 pro 1 Million Eingabe-Token und $0.28 pro 1 Million Ausgabe-Token.
- Pro kostet $1.74 pro 1 Million Eingabe-Token und $3.48 pro 1 Million Ausgabe-Token.
- In der Vergleichstabelle liegt DeepSeek V4 Flash unter GPT-5.4 Nano mit $0.20 Eingabe und $1.25 Ausgabe sowie Gemini 3.1 Flash-Lite mit $0.25 Eingabe und $1.50 Ausgabe und ist damit das günstigste unter den kleineren Modellen.
- DeepSeek V4 Pro liegt unter Gemini 3.1 Pro mit $2 Eingabe und $12 Ausgabe, GPT-5.4 mit $2.50 Eingabe und $15 Ausgabe, Claude Sonnet 4.6 mit $3 Eingabe und $15 Ausgabe, Claude Opus 4.7 mit $5 Eingabe und $25 Ausgabe sowie GPT-5.5 mit $5 Eingabe und $30 Ausgabe und ist damit das günstigste unter den großen Frontier-Modellen.
-
Effizienzsteigerungen stützen den niedrigen Preis
- Das DeepSeek-Paper erklärt, dass sich dieser Release stark auf die Effizienz bei langen Kontext-Prompts konzentriert.
- Bei 1 Million Token Kontext erreicht DeepSeek-V4-Pro gegenüber DeepSeek-V3.2 nur noch 27 % der FLOPs pro einzelnes Token und 10 % der KV-Cache-Größe.
- Unter denselben Bedingungen sinkt DeepSeek-V4-Flash gegenüber DeepSeek-V3.2 auf nur 10 % der FLOPs pro einzelnes Token und 7 % der KV-Cache-Größe.
-
In Benchmarks nah an Frontier, aber nicht an der Spitze
- DeepSeeks selbst berichtete Benchmarks zeigen, dass das Pro-Modell mit anderen Frontier-Modellen konkurrieren kann.
- Laut Paper zeigt DeepSeek-V4-Pro-Max mit skalierter Inference-Token-Erweiterung in Standard-Reasoning-Benchmarks höhere Leistung als GPT-5.2 und Gemini-3.0-Pro.
- Gegenüber GPT-5.4 und Gemini-3.1-Pro liegt es allerdings leicht zurück und folgt damit einer Entwicklungsbahn, die etwa 3–6 Monate hinter den modernsten Frontier-Modellen liegt.
- Auf huggingface.co/unsloth/models wird die Veröffentlichung quantisierter Versionen von Unsloth erwartet, und es bleibt interessant, wie gut das Flash-Modell auf lokalen Maschinen laufen wird.
Noch keine Kommentare.