DeepSeek V4 – fast auf Frontier-Niveau, zu einem Bruchteil des Preises

(simonwillison.net)

1 Punkte von GN⁺ 1 시간 전 | Noch keine Kommentare. | Auf WhatsApp teilen

DeepSeek hat mit DeepSeek-V4-Pro und DeepSeek-V4-Flash die ersten Preview-Modelle der V4-Serie vorgestellt. Beide sind Mixture-of-Experts-Modelle mit Unterstützung für 1 Million Token Kontext und werden unter der MIT-Lizenz angeboten.
DeepSeek-V4-Pro ist ein Modell mit insgesamt 1,6T Parametern und 49B aktiven Parametern und scheint damit größer zu sein als Kimi K2.6, GLM-5.1 und DeepSeek V3.2. Es wirkt damit wie das neue größte Open-Weights-Modell.
Das wichtigste Unterscheidungsmerkmal von DeepSeek V4 ist der Preis: Flash kostet $0.14 pro 1 Million Eingabe-Token und $0.28 pro 1 Million Ausgabe-Token, Pro kostet $1.74 für Eingabe und $3.48 für Ausgabe und liegt damit unter vergleichbaren kleineren und größeren Modellen.
Der niedrige Preis hängt mit der Effizienz bei langen Kontexten zusammen: Bei 1 Million Token Kontext sinkt Pro gegenüber DeepSeek-V3.2 auf 27 % der FLOPs pro einzelnes Token und 10 % des KV-Cache-Bedarfs, Flash auf 10 % der FLOPs und 7 % des KV-Cache-Bedarfs.
In eigenen Benchmarks zeigt DeepSeek-V4-Pro Leistung auf Frontier-Niveau, liegt aber etwas hinter GPT-5.4 und Gemini-3.1-Pro und folgt damit einer Entwicklungsbahn, die etwa 3–6 Monate hinter den modernsten Frontier-Modellen zurückliegt.

Modellveröffentlichung und Basisspezifikationen

DeepSeek hat nach V3.2 und V3.2 Speciale im Dezember 2025 mit DeepSeek-V4-Pro und DeepSeek-V4-Flash die ersten beiden Preview-Modelle der V4-Serie veröffentlicht.
Beide Modelle sind Mixture-of-Experts-Modelle mit 1 Million Token Kontext und verwenden die Standard-MIT-Lizenz.
DeepSeek-V4-Pro hat insgesamt 1,6T Parameter und 49B aktive Parameter, DeepSeek-V4-Flash insgesamt 284B Parameter und 13B aktive Parameter.
DeepSeek-V4-Pro ist größer als Kimi K2.6 mit 1.1T, GLM-5.1 mit 754B und DeepSeek V3.2 mit 685B und scheint damit das neue größte Open-Weights-Modell zu sein.
Laut Hugging Face beträgt die Modellgröße 865GB für Pro und 160GB für Flash. Es wird erwartet, dass eine leicht quantisierte Flash-Version auf einem 128GB M5 MacBook Pro laufen könnte.
Auch das Pro-Modell könnte auf derselben Maschine laufen, falls nur die benötigten aktiven Experten (experts) von der Festplatte gestreamt werden müssen.
Kurzer Test über OpenRouter
- Mit OpenRouter und llm-openrouter wurde das Modell mit folgendem Befehl aufgerufen:
- ```
llm install llm-openrouter
llm openrouter refresh
llm -m openrouter/deepseek/deepseek-v4-pro 'Generate an SVG of a pelican riding a bicycle'
```
- Die erzeugten Ergebnisse wurden als Pelikan-SVG von DeepSeek-V4-Flash und Pelikan-SVG von DeepSeek-V4-Pro veröffentlicht.
- Zum Vergleich wurden außerdem die Ergebnisse desselben Prompts für DeepSeek V3.2 vom Dezember 2025, V3.1 vom August 2025 und V3-0324 vom März 2025 gezeigt.

Preis, Effizienz und Leistungsposition

Das auffälligste Merkmal von DeepSeek V4 ist der Preis. Laut der DeepSeek-Preisseite kostet Flash $0.14 pro 1 Million Eingabe-Token und $0.28 pro 1 Million Ausgabe-Token.
Pro kostet $1.74 pro 1 Million Eingabe-Token und $3.48 pro 1 Million Ausgabe-Token.
In der Vergleichstabelle liegt DeepSeek V4 Flash unter GPT-5.4 Nano mit $0.20 Eingabe und $1.25 Ausgabe sowie Gemini 3.1 Flash-Lite mit $0.25 Eingabe und $1.50 Ausgabe und ist damit das günstigste unter den kleineren Modellen.
DeepSeek V4 Pro liegt unter Gemini 3.1 Pro mit $2 Eingabe und $12 Ausgabe, GPT-5.4 mit $2.50 Eingabe und $15 Ausgabe, Claude Sonnet 4.6 mit $3 Eingabe und $15 Ausgabe, Claude Opus 4.7 mit $5 Eingabe und $25 Ausgabe sowie GPT-5.5 mit $5 Eingabe und $30 Ausgabe und ist damit das günstigste unter den großen Frontier-Modellen.
Effizienzsteigerungen stützen den niedrigen Preis
- Das DeepSeek-Paper erklärt, dass sich dieser Release stark auf die Effizienz bei langen Kontext-Prompts konzentriert.
- Bei 1 Million Token Kontext erreicht DeepSeek-V4-Pro gegenüber DeepSeek-V3.2 nur noch 27 % der FLOPs pro einzelnes Token und 10 % der KV-Cache-Größe.
- Unter denselben Bedingungen sinkt DeepSeek-V4-Flash gegenüber DeepSeek-V3.2 auf nur 10 % der FLOPs pro einzelnes Token und 7 % der KV-Cache-Größe.
In Benchmarks nah an Frontier, aber nicht an der Spitze
- DeepSeeks selbst berichtete Benchmarks zeigen, dass das Pro-Modell mit anderen Frontier-Modellen konkurrieren kann.
- Laut Paper zeigt DeepSeek-V4-Pro-Max mit skalierter Inference-Token-Erweiterung in Standard-Reasoning-Benchmarks höhere Leistung als GPT-5.2 und Gemini-3.0-Pro.
- Gegenüber GPT-5.4 und Gemini-3.1-Pro liegt es allerdings leicht zurück und folgt damit einer Entwicklungsbahn, die etwa 3–6 Monate hinter den modernsten Frontier-Modellen liegt.
- Auf huggingface.co/unsloth/models wird die Veröffentlichung quantisierter Versionen von Unsloth erwartet, und es bleibt interessant, wie gut das Flash-Modell auf lokalen Maschinen laufen wird.

DeepSeek V4 – fast auf Frontier-Niveau, zu einem Bruchteil des Preises

Modellveröffentlichung und Basisspezifikationen

Kurzer Test über OpenRouter

Preis, Effizienz und Leistungsposition

Effizienzsteigerungen stützen den niedrigen Preis

In Benchmarks nah an Frontier, aber nicht an der Spitze

Verwandte Beiträge

Noch keine Kommentare.