7 Punkte von GN⁺ 2026-05-03 | 2 Kommentare | Auf WhatsApp teilen
  • DeepSeek hat mit DeepSeek-V4-Pro und DeepSeek-V4-Flash Vorschau-Modelle als erste Modelle der V4-Serie vorgestellt. Beide sind Mixture-of-Experts-Modelle mit Unterstützung für 1 Million Token Kontext und werden unter der MIT-Lizenz angeboten.
  • DeepSeek-V4-Pro ist ein Modell mit insgesamt 1.6T Parametern und 49B aktiven Parametern und das bislang größte Modell mit offenen Gewichten, größer als Kimi K2.6, GLM-5.1 und DeepSeek V3.2.
  • Das zentrale Unterscheidungsmerkmal von DeepSeek V4 ist der Preis: Flash kostet $0.14 pro 1 Million Input-Token und $0.28 für Output, Pro kostet $1.74 für Input und $3.48 für Output und liegt damit unter den verglichenen kleinen und großen Modellen.
  • Der niedrige Preis hängt mit der Effizienz bei langem Kontext zusammen: Bei 1 Million Token Kontext sinkt Pro gegenüber DeepSeek-V3.2 auf 27 % der FLOPs pro Token und 10 % des KV-Cache, Flash auf 10 % der FLOPs und 7 % des KV-Cache.
  • In den eigenen Benchmarks ist DeepSeek-V4-Pro konkurrenzfähig mit Frontier-Modellen, liegt aber leicht unter GPT-5.4 und Gemini-3.1-Pro und folgt einer Entwicklungsbahn, die etwa 3 bis 6 Monate hinter modernsten Frontier-Modellen liegt.

Modellveröffentlichung und Basisspezifikationen

  • DeepSeek hat nach V3.2 und V3.2 Speciale im Dezember 2025 mit DeepSeek-V4-Pro und DeepSeek-V4-Flash zwei Vorschau-Modelle als erste Modelle der V4-Serie veröffentlicht.
  • Beide Modelle sind Mixture-of-Experts-Modelle mit Unterstützung für einen Kontext von 1 Million Token und verwenden die Standard-MIT-Lizenz.
  • DeepSeek-V4-Pro ist ein Modell mit insgesamt 1.6T Parametern und 49B aktiven Parametern, DeepSeek-V4-Flash ein Modell mit insgesamt 284B Parametern und 13B aktiven Parametern.
  • DeepSeek-V4-Pro ist mit 1.6T größer als Kimi K2.6 mit 1.1T, GLM-5.1 mit 754B und DeepSeek V3.2 mit 685B und scheint damit das neue größte Modell mit offenen Gewichten zu sein.
  • Laut Hugging Face beträgt die Modellgröße bei Pro 865GB und bei Flash 160GB. Es wird erwartet, dass die leicht quantisierte Flash-Version auf einem M5 MacBook Pro mit 128GB laufen kann.
  • Auch das Pro-Modell könnte auf derselben Maschine laufen, sofern nur die jeweils benötigten aktiven Experten (experts) von der Festplatte gestreamt werden können.
  • Kurzer Test über OpenRouter

Preis, Effizienz und Leistungseinordnung

  • Das auffälligste Element bei DeepSeek V4 ist der Preis. Laut DeepSeek-Preisübersicht kostet Flash $0.14 pro 1 Million Input-Token und $0.28 pro 1 Million Output-Token.
  • Für Pro werden $1.74 pro 1 Million Input-Token und $3.48 pro 1 Million Output-Token berechnet.
  • In der Vergleichstabelle liegt DeepSeek V4 Flash unter GPT-5.4 Nano mit $0.20 Input und $1.25 Output sowie Gemini 3.1 Flash-Lite mit $0.25 Input und $1.50 Output und ist damit das günstigste unter den kleinen Modellen.
  • DeepSeek V4 Pro liegt unter Gemini 3.1 Pro mit $2 Input und $12 Output, GPT-5.4 mit $2.50 Input und $15 Output, Claude Sonnet 4.6 mit $3 Input und $15 Output, Claude Opus 4.7 mit $5 Input und $25 Output sowie GPT-5.5 mit $5 Input und $30 Output und ist damit das günstigste unter den großen Frontier-Modellen.
  • Effizienzsteigerungen stützen den niedrigen Preis

    • Das DeepSeek-Paper erklärt, dass sich diese Veröffentlichung stark auf die Effizienz bei langen Kontext-Prompts konzentriert hat.
    • Bei 1 Million Token Kontext erreicht DeepSeek-V4-Pro gegenüber DeepSeek-V3.2 nur 27 % der FLOPs pro Token und 10 % der KV-Cache-Größe.
    • Unter denselben Bedingungen sinkt DeepSeek-V4-Flash gegenüber DeepSeek-V3.2 auf nur 10 % der FLOPs pro Token und 7 % der KV-Cache-Größe.
  • In Benchmarks nahe an Frontier, aber nicht an der Spitze

    • Die selbst berichteten Benchmarks von DeepSeek zeigen, dass das Pro-Modell mit anderen Frontier-Modellen konkurrieren kann.
    • Laut Paper zeigt DeepSeek-V4-Pro-Max mit angewandter Inference-Token-Skalierung in Standard-Reasoning-Benchmarks eine höhere Leistung als GPT-5.2 und Gemini-3.0-Pro.
    • Es liegt jedoch leicht unter GPT-5.4 und Gemini-3.1-Pro und folgt einer Entwicklungsbahn, die etwa 3 bis 6 Monate hinter modernsten Frontier-Modellen liegt.
    • Es wird erwartet, dass auf huggingface.co/unsloth/models quantisierte Versionen von Unsloth veröffentlicht werden; zugleich bleibt interessant, wie gut sich das Flash-Modell auf lokalen Maschinen ausführen lässt.

2 Kommentare

 
emptybynature 2026-05-09

Dass es wirklich sehr günstig ist, ist erst mal gut, aber das Problem ist, dass es viel zu langsam ist ... Was mit Codex 5 Minuten dauert, darüber denkt dieses hier 20 Minuten nach. Deshalb nutze ich es eher für Code-Reviews als für die Implementierung; mit den Code-Reviews ist es ziemlich gut, daher bin ich zufrieden.

 
GN⁺ 2026-05-03
Hacker-News-Kommentare
  • Der größte Unterschied für mich ist, dass DeepSeek einfach das tut, worum man es bittet. Ich habe kürzlich sowohl GPT als auch Claude für Reverse Engineering verwendet, und beide haben abgelehnt, und ich habe sogar eine Warnung für mein OpenAI-Konto bekommen.

    • Leider ist die Halluzinationsrate absurd hoch, sodass sich die schlimmste Seite großer Sprachmodelle zeigt.
      Deepseek v4 pro 94%
      Deepseek v4 flash - 96%
      https://artificialanalysis.ai/evaluations/omniscience?models...
    • Nach meiner Erfahrung war IDA Pro mit GLM 5.1 zusammen hervorragend, DeepSeek v4 pro lag knapp auf Platz 2, und Kimi hat einfach abgelehnt. Bei Claude kann man Reverse Engineering nur machen, wenn man es erst in so einen Helden-/Rettermodus drängt und dann schrittweise in Richtung Red Team lenkt, aber es stolpert leicht darüber.
    • In der Firma haben wir ein Enterprise-Cursor-Konto, daher kann ich alle Mainstream-Modelle ausprobieren. Als ich ganz selbstverständlich in unserem Code mit vorhandenem Source mit Composer 2 ein Problem untersuchte, wollte ich, dass es ein Debug-Flag zum Umgehen der Lizenzprüfung aktiviert, aber selbst das wollte es nicht tun.
      Das hat mich wirklich wütend gemacht, es war wie das alte SpongeBob-Patrick-Meme. Ich verstehe nicht, warum man aus Modellen Gesetzeshüter machen will. Illegale Dinge bleiben weiterhin illegal, und es gibt Experten, die sich mit Kriminalität befassen. Google muss nicht zum Schiedsrichter von Wahrheit und Gerechtigkeit werden. Strafverfolgungsbehörden zur Rechenschaft zu ziehen ist schon schwer genug, aber wenigstens arbeiten sie für uns.
    • Der Teil „ich habe sogar eine Warnung für mein OpenAI-Konto bekommen“ ist völlig seltsam und dystopisch, weil Software dem Nutzer droht, indem sie ihm Ergebnisse vorhält.
      Entwicklerkollegen, was für eine Welt haben wir da gebaut? Das ist Wahnsinn. Man stelle sich vor, ein Hammer würde sagen: „Benutze mich nicht für Schrauben, nur für Nägel. Wenn du das noch mal machst, sprenge ich mich selbst.“ Ich wünschte, wir würden aufhören, solche Software zu bauen.
    • „Ich habe sogar eine Warnung für mein OpenAI-Konto bekommen“ fühlt sich ziemlich oft beängstigend an. Für gewöhnliche Leute ohne Follower gibt es faktisch keinen Rechtsbehelf, und sie könnten von grundlegenden Tools ausgeschlossen werden.
      Man stelle sich vor, OpenAI kauft 20 Firmen auf, und weil du früher einmal eine unscharfe Grenze überschritten hast, kannst du Figma, Next und Ähnliches nicht mehr benutzen. Nicht nur OpenAI, das ganze Ökosystem ist viel zu schwer lesbar.
      Ich habe Gemini nach einem Zitat aus Catch-22 gefragt, und obwohl es weder gewalttätig noch sexuell war, stoppte es mitten im Streaming immer wieder und sagte, es könne nicht antworten. Solche Inhalte gibt es zwar im Buch, aber allein deshalb hat man das Gefühl, dass sogar das gesamte Workspace-Konto Minuspunkte bekommen könnte.
      Im Idealfall sollte die Zukunft lokal sein, das ist mir klar, aber wenn ich in den nächsten Jahren an die realen Kosten und den Stromverbrauch denke, weiß ich nicht, wie realistisch das für die meisten ist. Wenn man in diesem Ökosystem ist, wären M*-Prozessoren vielleicht die Ausnahme.
  • DeepSeek v4 Pro fühlte sich vom Charakter her wie Claude Opus 4.6 an, und beim Preis war es beeindruckend.
    Ich habe es gebeten, sich in einer ziemlich großen TypeScript-Codebasis nur auf einen einzelnen Endpoint zu konzentrieren und API, DTO, Service und Datenbankmodell schichtweise tief zu untersuchen, alle relevanten Typen vollständig nachzuvollziehen und sicherzustellen, dass keine temporären Typen entstehen.
    Es hat die eingeführten Typen und welche davon zurückgegeben werden, sehr kurz, aber auf den Punkt gebracht zusammengefasst, und danach habe ich es gebeten, das Ganze zu vereinfachen.
    Für beide Prompts zusammen muss es viele Dateien durchgesehen haben, aber die Gesamtkosten der Pro-Version lagen bei $0.09. Mit Claude Opus hätte ich nach meiner Erfahrung selbst vor der Preiserhöhung nur für diese beiden Prompts leicht $9–$13 verbrannt, und der Gewinn wäre nicht groß gewesen.
    Zur Einordnung: Ich habe nicht OpenRouter, sondern direkt die DeepSeek API verwendet. OpenRouter selbst wurde auf der DeepSeek-Seite gerade rate-limited.

    • Ich mache gerade dieselbe Erfahrung. Für Aufgaben wie „geh dieses ganze Modul durch und richte alles sorgfältig exakt nach meinem bevorzugten Style Guide aus“ wollte ich ungern jedes Mal ein paar Dollar für Frontier-Modelle ausgeben. Es ist schön, DeepSeek Flash ohne Kostenangst auf dumme, unnötige oder sehr spekulative Arbeit werfen zu können.
    • Ein großer Teil der Ineffizienz kommt daher, dass das Modell ständig zufällig hier und da herumstochert und grep ausführt; ich halte das für ein Problem des Harnesses.
      Deshalb habe ich mit tree-sitter und Prolog-basiertem MCP den Code als Graphen geparst, damit das Modell Fragen stellen kann wie „Welche Funktionen sind mit dieser Funktion verbunden?“. Wenn man sehen will, was ein bestimmter Endpoint macht, kann man den gesamten Call-Subgraph trivial und vorhersehbar verfolgen.
      https://github.com/yogthos/chiasmus
    • Ich frage mich, ob „ich hätte $9–$13 ohne großen Gewinn verbrannt“ bedeutet, dass es im Vergleich zum 9-Cent-DeepSeek v4 Pro kein großer Gewinn gewesen wäre, oder ob du meinst, dass beide keinen großen Gewinn gebracht hätten.
    • Selbst wenn man berücksichtigt, dass derzeit ein 75%-Rabatt abgerechnet wird, ist es immer noch viel günstiger.
    • Mich würde interessieren, wie du es genutzt hast. Hast du OpenRouter verwendet oder direkt die Provider-API?
  • Dazu passend gibt es eine Live-Demo, in der DeepSeek v4 Flash auf einem 128GB MacBook läuft. Das Video ist auf Italienisch und hat englische Untertitel.
    https://www.youtube.com/watch?v=todMmp6AGCE

  • Ich habe es an vscode copilot angeschlossen und sowohl flash als auch pro verwendet. Für kleine Proofs of Concept reichte flash aus, war ziemlich schnell und wirklich billig.
    Es ist ein paarmal hängen geblieben, vielleicht wegen Latenzproblemen, aber die Ergebnisse waren trotzdem gut. Pro habe ich für schwere Arbeit und Planung verwendet, und das hat es hervorragend erledigt.
    Für einen kleinen Proof of Concept habe ich ungefähr 10 Cent bezahlt, und es hat genau so funktioniert, wie ich es gepromptet hatte. Für mich ist das nach der Kündigung von GitHub Copilot Ende dieses Monats eine echte Alternative.

  • Die Kosten sind zwar niedriger als bei Frontier-Modellen, aber es gibt zwei Faktoren, die DS4 Pro und K2.6 weniger billig machen, als es scheint.
    DS4 Pro hat in der offiziellen API einen Rabatt, was in Diskussionen oft übersehen oder vermischt wird. Simon hat im Vergleich den Listenpreis verwendet, daher ist das hier kein Problem.
    Das andere Problem ist, dass DS4 Pro und K2.6 oft viel mehr Inferenz-Tokens verbrauchen als Frontier-Modelle. In meinen Tests gab es einige pathologische Fälle, in denen so viele Tokens verbraucht wurden, dass die Kosten pro Request auf das Niveau von Frontier-Modellen steigen konnten. Fairerweise muss man sagen, dass ich DS und Kimi über Drittanbieter-Provider nutze, also könnte das auch ein Konfigurationsproblem dort sein.
    Wenn man sich aber die Modellseiten von Artificial Analysis ansieht, hat DSv4 Pro beim Intelligenz-Benchmark 190M Tokens verbraucht, K2.6 170M, während GPT 5.5 high nur 45M brauchte.
    Ich empfehle, sich „Intelligence vs. Cost to Run Artificial Analysis Intelligence Index“ anzusehen, im UI also „Intelligence vs Cost“. Open-Source-Modelle sind immer noch günstiger, aber nicht so stark, wie man es allein anhand des Token-Preises erwarten würde.
    [0] https://artificialanalysis.ai/models/deepseek-v4-pro
    [1] https://artificialanalysis.ai/models/kimi-k2-6
    [2] https://artificialanalysis.ai/models/gpt-5-5-high

    • Das ist sehr falsch, DS4 ist wirklich günstig. Ich würde empfehlen, zuerst das Release-Paper zu lesen.
      https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main...
      Es führt HCA und mCH ein, ziemlich neue Methoden zur Verbesserung von Long-Context-Effizienz und Attention. Im Vergleich zu v3.2 werden für Inferenz nur 27% der FLOPs und für den KV-Cache nur 10% benötigt. Das heißt, mit denselben Rechenressourcen kann man mehr als dreimal so viel Serving machen und braucht nur 30% des bisherigen KV-Caches.
      Außerdem ist dieses Release ein PREVIEW. DeepSeek ist ein echtes Open Lab, das bei jedem Release nicht nur ziemlich viel hervorbringt, sondern es auch offenlegt und teilt. Ich betreibe das lokal.
      Um zu zeigen, wie „billig“ es ist: Bei v3.2 reichte der GPU-Speicher bei 256k Kontext nicht aus und es spillte in den Systemspeicher, trotzdem war ich mit etwa 7.000 Tokens pro Sekunde zufrieden. Diesmal passt der gesamte Kontext von 1 Million Tokens zu 100% in den GPU-Speicher, läuft mehr als doppelt so schnell und liefert bessere Ergebnisse.
      Das ist wirklich günstig. Moonshot hat klar gemacht, dass ihnen GPUs fehlen, und deshalb ist das so. Wenn sie GPU-Kapazität wie in den USA hätten und das Modell hier ähnlich subventionieren würden, hätten sie es gratis verteilt.
    • Das mag passieren können, aber das war nicht meine Erfahrung. Ich habe den ganzen Tag ziemlich große Refactorings gemacht, viele Hin-und-her-Runden, Änderungen an Tausenden Zeilen Code, Reviews, Recherche und sogar parallele Arbeit mehrerer Sub-Agents, und die Gesamtkosten lagen bei $0.95.
      Als ich das früher mit Opus 4.6 versucht habe, hatte es mein Budget von $10 schon verbrannt, bevor es überhaupt vom ersten Prompt zurückkam.
      Selbst bei stark rabattierten Preisen hätte die vollständige Lösung einen einstelligen Dollarbetrag gekostet, während Opus einen zweistelligen Dollarbetrag gekostet hätte, ohne dass ich exakt irgendetwas bekommen hätte.
    • Laut Artificial Analysis ist Grok 4.3 schneller als DS4, intelligenter, billiger und verbraucht auch weniger Tokens. Warum redet dann niemand über Grok?
      1. https://artificialanalysis.ai/models/grok-4-3
  • V4 ist in unserem mehrsprachigen Benchmark gegenüber V3.2 klar eine Stufe aufgestiegen.
    Allerdings gibt es zwei Vorbehalte. Beim Inferenzbetrieb über OpenRouter war die Geschwindigkeit (TPS) sehr niedrig und manchmal oft instabil. Selbst gerade eben lagen alle verfügbaren Provider nur bei 10–30 TPS, was für ein stark „denkendes“ Modell wie DeepSeek nicht viel ist.
    Die offizielle DeepSeek API garantiert selbst zahlenden Nutzern keinen Datenschutz.
    Über Azure AI Foundry könnten beide Punkte kein Problem sein. Letzteres ist meines Wissens so, getestet habe ich es aber noch nicht.
    Jedenfalls freue ich mich, dass es mehr Open-Weights-Modelle gibt, die halbwegs mit aktuellen Topmodellen konkurrieren.

  • Die offizielle DeepSeek API ist bei langen Sitzungen auf derselben Codebasis wegen Cache-Trefferraten von über 99% viel günstiger als Frontier-Modelle. Es gibt ein Beispiel für eine 200M-Token-Session in claude code.

    • Vielleicht eine dumme Frage, aber muss man Dateien in derselben Reihenfolge einlesen, um bei einer neuen Session den richtigen Prefix für den Cache sicherzustellen?
  • Es erstaunt mich, dass es den Leuten, vor allem wenn sie solche Modelle direkt über die Entwickler-API nutzen, offenbar völlig egal ist, dass diese Modelle öffentlich auf ihren Daten trainieren.
    Bei Sachen wie „GitHub optiert jetzt automatisch den Code aller für das Modelltraining ein“ gibt es zu Recht Hunderte wütende Kommentare, aber sobald es um die Nutzung chinesischer Modelle über OpenRouter geht, kommt das kaum noch vor. Man könnte es mit „andere Leute“ erklären, aber der Unterschied ist so krass, dass das kaum die ganze Erklärung sein kann.

    • Das Gute an Open-Weights-Modellen ist, dass man frei alternative Provider nutzen kann, die keine Daten an die Ersteller des Ursprungsmodells schicken. Bei OpenRouter sehe ich zum Beispiel sechs alternative Provider für DeepSeek V4 Pro.
    • Persönlich habe ich kein Problem damit, ihnen zu helfen, solange sie das Modell veröffentlichen und nicht geschlossen halten. Und ich glaube auch Anbietern nicht, wenn sie per Setting versprechen, nicht für Training zu nutzen.
    • Für die meisten Open-Weights-Modelle kann man Provider ohne Datenspeicherung und ohne Training nutzen. Siehe zum Beispiel OpenRouter und OpenCode Go/Zen.
      Das ist einer der großen Vorteile von Open Weights. Weder China noch die USA bekommen meine Daten.
    • Weil sie es kostenlos verteilen und die API außerdem zu sehr fairen Preisen anbieten. Das ist nicht schwer zu verstehen. Es erinnert mich an Robin Hood, der unsere Datensteuer stiehlt und an uns zurückgibt.
    • Dass mit meinem Open-Source-Code trainiert wird, finde ich in Ordnung. Der Code ist zwar ziemlich schlecht, aber das ist nicht der Punkt, und außerdem stellen sie den Dienst kostenlos bereit. Aber wenn ich für Enterprise bezahle und sie es trotzdem zum Training verwenden, wäre ich wirklich wütend. Ich denke, die meisten Programmierer sehen das ähnlich.
  • Es macht Hoffnung, dass nach dem Ende des Subventionszirkus und wenn alles rein nutzungsbasiert läuft, normale Leute ohne $200 Monatsbudget nicht völlig ausgeschlossen sein werden.

    • Ich bin aus zwei Gründen optimistisch, dass es im Vergleich zu heute keinen massiven Schlag in Form plötzlich explodierender Preis-Leistung geben wird.
      Zum einen finden wir weiterhin Wege, mehr Intelligenz in kleinere Modelle zu packen, sodass dieselbe Hardware-Spezifikation mit der Zeit mehr Modellfähigkeiten liefert.
      Zum anderen verbessert sich die Hardware weiter und das Angebot holt die Nachfrage ein, sodass die Hardware-Spezifikation, die man für einen Dollar bekommt, mit der Zeit besser wird.
      Ich hoffe, dass wir irgendwann auf das heutige Modell „Zugang zu KI über Provider-APIs“ so zurückblicken werden, wie wir heute auf die Zeit zurückblicken, in der sich alle in den Mainframe einer Firma eingeloggt haben.
    • Es würde mich nicht überraschen, wenn persönliche interaktive Nutzung sich bis dahin als unter $200 unmöglich herausstellt, wenn sich der Staub gelegt hat. Wenn ich die Serving-Kosten solcher Systeme modelliere, passt das nicht gut zu den öffentlichen Berichten. Selbst in den pessimistischeren Szenarien nicht.
  • Ich habe in den letzten Tagen v4 pro benutzt, und qualitativ scheint es meist ungefähr auf dem Niveau von OpenAI 5.4 oder Opus 4.6 zu sein. 4.7 habe ich nicht ausprobiert.
    Zur Klarstellung: Ich mache keine hochmodernen Aufgaben. Ich habe es hauptsächlich für Frontend-Entwicklung verwendet, und da ich darin nicht gut bin, brauchte ich nur einen plausiblen Prototypen.
    Für meine Zwecke ist es völlig in Ordnung, und der Preis ist vernünftig. Ich warte aber wirklich auf ein kleines offenes Modell, das lokal laufen kann. Ich hasse es, auf fremde Maschinen angewiesen zu sein und dabei zuzusehen, wie all meine Daten abfließen.

    • Mit Tinfoil Inference kann man ein Modell in der Cloud verwenden und trotzdem Privatsphäre ähnlich wie bei lokaler Ausführung bekommen: https://tinfoil.sh/inference
      Zur Transparenz: Ich bin Mitgründer. Dieser Ansatz führt das Modell in einer sicheren Enklave aus und prüft, ob der in der Enklave laufende Open-Source-Code mit der Runtime-Attestation übereinstimmt. Dabei wird NVIDIA confidential computing verwendet.
      In der Dokumentation wird der Verifizierungsprozess erklärt: https://docs.tinfoil.sh/verification/verification-in-tinfoil
    • Danke fürs Teilen deiner Erfahrung, ich wollte es auch ausprobieren. Welchen Provider nutzt du für Inference? Opencode oder die DeepSeek API?