1 Punkte von GN⁺ 1 시간 전 | Noch keine Kommentare. | Auf WhatsApp teilen
  • DeepSeek hat mit DeepSeek-V4-Pro und DeepSeek-V4-Flash die ersten Preview-Modelle der V4-Serie vorgestellt. Beide sind Mixture-of-Experts-Modelle mit Unterstützung für 1 Million Token Kontext und werden unter der MIT-Lizenz angeboten.
  • DeepSeek-V4-Pro ist ein Modell mit insgesamt 1,6T Parametern und 49B aktiven Parametern und scheint damit größer zu sein als Kimi K2.6, GLM-5.1 und DeepSeek V3.2. Es wirkt damit wie das neue größte Open-Weights-Modell.
  • Das wichtigste Unterscheidungsmerkmal von DeepSeek V4 ist der Preis: Flash kostet $0.14 pro 1 Million Eingabe-Token und $0.28 pro 1 Million Ausgabe-Token, Pro kostet $1.74 für Eingabe und $3.48 für Ausgabe und liegt damit unter vergleichbaren kleineren und größeren Modellen.
  • Der niedrige Preis hängt mit der Effizienz bei langen Kontexten zusammen: Bei 1 Million Token Kontext sinkt Pro gegenüber DeepSeek-V3.2 auf 27 % der FLOPs pro einzelnes Token und 10 % des KV-Cache-Bedarfs, Flash auf 10 % der FLOPs und 7 % des KV-Cache-Bedarfs.
  • In eigenen Benchmarks zeigt DeepSeek-V4-Pro Leistung auf Frontier-Niveau, liegt aber etwas hinter GPT-5.4 und Gemini-3.1-Pro und folgt damit einer Entwicklungsbahn, die etwa 3–6 Monate hinter den modernsten Frontier-Modellen zurückliegt.

Modellveröffentlichung und Basisspezifikationen

  • DeepSeek hat nach V3.2 und V3.2 Speciale im Dezember 2025 mit DeepSeek-V4-Pro und DeepSeek-V4-Flash die ersten beiden Preview-Modelle der V4-Serie veröffentlicht.
  • Beide Modelle sind Mixture-of-Experts-Modelle mit 1 Million Token Kontext und verwenden die Standard-MIT-Lizenz.
  • DeepSeek-V4-Pro hat insgesamt 1,6T Parameter und 49B aktive Parameter, DeepSeek-V4-Flash insgesamt 284B Parameter und 13B aktive Parameter.
  • DeepSeek-V4-Pro ist größer als Kimi K2.6 mit 1.1T, GLM-5.1 mit 754B und DeepSeek V3.2 mit 685B und scheint damit das neue größte Open-Weights-Modell zu sein.
  • Laut Hugging Face beträgt die Modellgröße 865GB für Pro und 160GB für Flash. Es wird erwartet, dass eine leicht quantisierte Flash-Version auf einem 128GB M5 MacBook Pro laufen könnte.
  • Auch das Pro-Modell könnte auf derselben Maschine laufen, falls nur die benötigten aktiven Experten (experts) von der Festplatte gestreamt werden müssen.
  • Kurzer Test über OpenRouter

Preis, Effizienz und Leistungsposition

  • Das auffälligste Merkmal von DeepSeek V4 ist der Preis. Laut der DeepSeek-Preisseite kostet Flash $0.14 pro 1 Million Eingabe-Token und $0.28 pro 1 Million Ausgabe-Token.
  • Pro kostet $1.74 pro 1 Million Eingabe-Token und $3.48 pro 1 Million Ausgabe-Token.
  • In der Vergleichstabelle liegt DeepSeek V4 Flash unter GPT-5.4 Nano mit $0.20 Eingabe und $1.25 Ausgabe sowie Gemini 3.1 Flash-Lite mit $0.25 Eingabe und $1.50 Ausgabe und ist damit das günstigste unter den kleineren Modellen.
  • DeepSeek V4 Pro liegt unter Gemini 3.1 Pro mit $2 Eingabe und $12 Ausgabe, GPT-5.4 mit $2.50 Eingabe und $15 Ausgabe, Claude Sonnet 4.6 mit $3 Eingabe und $15 Ausgabe, Claude Opus 4.7 mit $5 Eingabe und $25 Ausgabe sowie GPT-5.5 mit $5 Eingabe und $30 Ausgabe und ist damit das günstigste unter den großen Frontier-Modellen.
  • Effizienzsteigerungen stützen den niedrigen Preis

    • Das DeepSeek-Paper erklärt, dass sich dieser Release stark auf die Effizienz bei langen Kontext-Prompts konzentriert.
    • Bei 1 Million Token Kontext erreicht DeepSeek-V4-Pro gegenüber DeepSeek-V3.2 nur noch 27 % der FLOPs pro einzelnes Token und 10 % der KV-Cache-Größe.
    • Unter denselben Bedingungen sinkt DeepSeek-V4-Flash gegenüber DeepSeek-V3.2 auf nur 10 % der FLOPs pro einzelnes Token und 7 % der KV-Cache-Größe.
  • In Benchmarks nah an Frontier, aber nicht an der Spitze

    • DeepSeeks selbst berichtete Benchmarks zeigen, dass das Pro-Modell mit anderen Frontier-Modellen konkurrieren kann.
    • Laut Paper zeigt DeepSeek-V4-Pro-Max mit skalierter Inference-Token-Erweiterung in Standard-Reasoning-Benchmarks höhere Leistung als GPT-5.2 und Gemini-3.0-Pro.
    • Gegenüber GPT-5.4 und Gemini-3.1-Pro liegt es allerdings leicht zurück und folgt damit einer Entwicklungsbahn, die etwa 3–6 Monate hinter den modernsten Frontier-Modellen liegt.
    • Auf huggingface.co/unsloth/models wird die Veröffentlichung quantisierter Versionen von Unsloth erwartet, und es bleibt interessant, wie gut das Flash-Modell auf lokalen Maschinen laufen wird.

Noch keine Kommentare.

Noch keine Kommentare.