DeepSeek macht den Preisnachlass für V4 Pro dauerhaft
(api-docs.deepseek.com)- Der API-Preis für DeepSeek-V4-Pro bleibt auch nach dem Ende der 75-%-Rabattaktion offiziell bei 1/4 des bisherigen Preises
- Die Abrechnung erfolgt auf Basis des Preises pro 1 Million Tokens; die Kosten werden je nach Nutzung von Eingabe-Tokens und Ausgabe-Tokens direkt vom Guthaben abgezogen
- Unterstützt werden DeepSeek-V4-Flash und DeepSeek-V4-Pro; beide unterstützen sowohl den Nicht-Denkmodus als auch den Denkmodus, standardmäßig ist der Denkmodus aktiviert
- Bei beiden Modellen beträgt die Kontextlänge 1M, die maximale Ausgabe 384K; das Parallelitätslimit unterscheidet sich jedoch mit 2500 für Flash und 500 für Pro
- Der Preis für Cache-Treffer bei Eingaben wurde bei allen Modellen auf 1/10 des Einführungspreises gesenkt; die Anpassung gilt ab dem 26. April 2026, 12:15 UTC
Abrechnungsgrundlage
- Die Preiseinheit ist die Gebühr pro 1 Million Tokens; Tokens sind die kleinsten vom Modell erkannten Texteinheiten und können Wörter, Zahlen oder Satzzeichen sein
- Abgerechnet wird anhand der Gesamtmenge der Eingabe-Tokens und Ausgabe-Tokens des Modells
- Die Kosten werden als
Anzahl der Tokens × Preisberechnet und direkt vom aufgeladenen Guthaben oder Auszahlungsguthaben abgezogen - Wenn sowohl aufgeladenes Guthaben als auch Auszahlungsguthaben vorhanden sind, wird zuerst das Auszahlungsguthaben verwendet
- Produktpreise können sich ändern, und DeepSeek behält sich das Recht auf Preisanpassungen vor
- Es wird empfohlen, entsprechend der tatsächlichen Nutzung Guthaben aufzuladen und die aktuellen Preise regelmäßig auf dieser Seite zu prüfen
Modelle und Preise
-
Unterstützte Modelle
- DeepSeek-V4-Flash und DeepSeek-V4-Pro werden angeboten
- Beide Modelle unterstützen sowohl den Nicht-Denkmodus als auch den Denkmodus; standardmäßig ist der Denkmodus aktiviert
- Die Modellnamen
deepseek-chatunddeepseek-reasonersollen künftig eingestellt werden - Zur Kompatibilität entspricht
deepseek-chatdem Nicht-Denkmodus vondeepseek-v4-flash,deepseek-reasonerentsprechend dem Denkmodus vondeepseek-v4-flash
-
Endpunkte und Funktionen
- Die Base URL im Anthropic-Format lautet https://api.deepseek.com/anthropic
- Wie zwischen Denkmodus und Nicht-Denkmodus umgeschaltet wird, ist unter Thinking Mode beschrieben
- Als zugehörige Funktionsdokumentation stehen Json Output, Tool Calls, Chat Prefix Completion(Beta), FIM Completion(Beta) zur Verfügung
-
Kontext- und Ausgabelimits
- Die Kontextlänge beträgt 1M
- Die maximale Ausgabe beträgt 384K
Preis pro 1 Million Tokens
| Punkt | DeepSeek-V4-Flash | DeepSeek-V4-Pro |
|---|---|---|
| Eingabe-Tokens, Cache-Treffer | $0.0028 | $0.003625 |
| Eingabe-Tokens, Cache-Fehlschlag | $0.14 | $0.435 |
| Ausgabe-Tokens | $0.28 | $0.87 |
| Parallelitätslimit | 2500 | 500 |
-
Rabattanpassung für DeepSeek-V4-Pro
- Der Preis für DeepSeek-V4-Pro wird zum Preis mit 75-%-Rabatt ausgewiesen
- Der Preis für Eingabe-Tokens mit Cache-Treffer wurde von zuvor $0.0145 auf $0.003625 gesenkt
- Der Preis für Eingabe-Tokens mit Cache-Fehlschlag wurde von zuvor $1.74 auf $0.435 gesenkt
- Der Preis für Ausgabe-Tokens wurde von zuvor $3.48 auf $0.87 gesenkt
- Auch nach dem Ende der 75-%-Rabattaktion am 31. Mai 2026, 15:59 UTC, wird der API-Preis für DeepSeek-V4-Pro offiziell auf 1/4 des bisherigen Preises angepasst
-
Senkung der Cache-Treffer-Preise
- Der Preis für Cache-Treffer bei Eingaben wurde bei allen Modellen auf 1/10 des Einführungspreises gesenkt
- Diese Preisänderung gilt ab dem 26. April 2026, 12:15 UTC
-
Parallelitätslimits
- Das Parallelitätslimit für DeepSeek-V4-Flash beträgt 2500
- Das Parallelitätslimit für DeepSeek-V4-Pro beträgt 500
- Weitere Details zu den Parallelitätslimits finden sich unter Rate Limit & Isolation
1 Kommentare
Hacker-News-Kommentare
Wenn sie einen eigenen Coding-Agenten herausbringen, könnte ich anfangen, DeepSeek-Modelle als Hauptoption zu nutzen
Es wirkt, als würden sie weiter die „richtigen Dinge“ tun, etwa das Modell als Open Source veröffentlichen, Forschung publizieren und die Preise niedrig halten
Man kann V4 Pro in Claude Code verwenden 1
Ich habe es selbst ausprobiert und war beeindruckt
Es passt auch sehr gut zu OpenCode
Unser Team stößt bei einem anderen Abo-Service oft an das 5-Stunden-Limit, und DeepSeek als Backup ist dafür ziemlich gut
Ich habe nur 50 Dollar aufgeladen, und es fühlt sich an, als würde das Geld nie weniger werden
Es ersetzt die modernsten Modelle zwar noch nicht vollständig, aber als Backup ist es definitiv hervorragend
Ich bin mir nicht sicher, ob DeepSeek überhaupt selbst einen Coding-Agenten anbieten muss
Man kann das Modell einfach an jeden vorhandenen Coding-Agenten anschließen
Ich persönlich bevorzuge Pi, aber letztlich sollte jeder nutzen, was für ihn am besten passt
Ich habe Anfang dieser Woche angefangen, chinesische Modelle in meiner Codebasis zu testen
Bisher eher bei Issue-Klassifizierung, automatischen Bugfixes und Log-Analyse als beim dialogbasierten Coding; ich habe DeepSeek, Kimi, GLM, Qwen und MiMO mit GPT-5.5 high verglichen und alles ohne Installation im Pi-Harness ausgeführt
Bis jetzt wirken Kimi und MiMO am vielversprechendsten
Ich habe es noch nicht streng genug getestet, aber mein erster Eindruck ist, dass diese Modelle bei typischen Alltagsaufgaben in der Praxis vielleicht nicht so weit zurückliegen, wie viele denken
Allerdings arbeiten sie eher „fleißig statt clever“: Sie kommen langsamer zu ähnlichen Ergebnissen und verbrauchen mehr Tokens, sind dafür aber deutlich billiger
Es wäre gut, wenn Coding-Agenten einigermaßen unabhängig von den Modellanbietern blieben
Die Anbieter ändern Qualität, Funktionen und Preise viel zu oft, und ich möchte nicht jedes Mal auch noch den Agenten wechseln müssen
Ich hoffe, dass sich die Lage etwas verlangsamt und stabilisiert
Nicht unbedingt sofort, aber es wäre schön, wenn wir an diesen Punkt kämen
Wenn du DeepSeek V4 noch nicht ausprobiert hast, verpasst du wirklich etwas
Für den Preis ist es kaum zu glauben, wie gut es ist
Die Gedankenkette von DeepSeek ist wirklich interessant zu lesen
In OpenCode wird sie nicht angezeigt, aber wenn man sie direkt liest, könnte man überrascht sein, wie unterschätzt dieses Modell ist
Ich nutze Modelle nur sehr wenig, aber ich zahle DeepSeek regelmäßig direkt Geld – als Dank dafür, dass sie das Modell als Open Source veröffentlichen, und als Zeichen der Unterstützung für das, was ich insgesamt als gesellschaftlichen Nutzen sehe
Es ist gut und billig, aber wenn man über Politik anfängt, können offenbar Zensurregeln anspringen
Ich habe gesehen, wie es mitten im Denkprozess plötzlich alles gelöscht und ohne Erklärung vorgeschlagen hat, zu einem anderen Thema zu wechseln
Einmal hat es auch eine allgemeine Nachricht ausgegeben, dass Nachrichtenmedien dem Volk dienen sollten
Beides waren weder sensible noch illegale oder systemkritische Anfragen, was mich überrascht hat
Aber sie waren auch nur ein wenig politisch, und das reichte offenbar aus
Westliche Zensur ist normalerweise subtiler, deshalb war das auf unheimliche Weise fast schon erfrischend
Ja, das Modell ist wirklich gut
Bei der Arbeit nutze ich Claude und privat DeepSeek; es ist das einzige Modell, das nicht aktiv versucht, mich in den Bankrott zu treiben
Für bestimmte Aufgaben mag ich V4 Pro, aber beim Coden war V4 Flash ziemlich beeindruckend
Es ist knapp, trifft den Kern gut, macht vergleichsweise wenige Fehler und ist ziemlich schnell
Im opencode-CLI sieht man die Inferenzspuren
Vielleicht ist das ein Konfigurationsproblem
In opencode kann man die Anzeige der Inferenz ein- und ausschalten
Dieser Preis ist verdächtig billig
Wenn dasselbe Modell bei anderen Anbietern gehostet wird, ist es viel teurer 0
Also kann DeepSeek entweder deutlich günstiger hosten als andere, oder das Geschäftsmodell ist ein anderes; ich vermute Letzteres
Vor allem, weil in der Datenschutzrichtlinie 1 steht, dass personenbezogene Daten einschließlich „User Input“ für „Service Improvement and Development, as well as technology training and enhancement“ verwendet werden können
Vielleicht eine dumme Frage, aber wenn ich OpenRouter anschaue, frage ich mich, ob es DeepSeek wirklich nur außerhalb der USA, Singapurs und Chinas gibt
Es wirkt wie ein zu offensichtliches Produkt, als dass es nicht auch von europäischen oder anderen westlichen Anbietern angeboten werden sollte
Ich bin sicher, es wäre ein viel größerer Sprung als Mistral
Ich würde diese Modelle gern ausprobieren, möchte aber Anbieter vermeiden, die mit meinen Daten trainieren oder sie speichern – über die üblichen rechtlichen Anforderungen hinaus
Da wirken mehrere Faktoren zusammen
In Bezug auf die Effizienz des Inferenz-Stacks nehmen viele Anbieter einfach vorhandenes sglang / vllm / trtllm und hoffen auf das Beste, aber das DeepSeek-Team ist dafür bekannt, die Optimierungsgrenzen auszureizen
sglang und vllm sind großartige Software, aber wenn man sich DeepSeeks Sparse Attention (DSA) anschaut, wurde sie schon vor 1,5 Jahren eingeführt (https://arxiv.org/abs/2512.02556) und in DeepSeek 3.2, GLM 5 und DeepSeek V4 eingesetzt
Erst jetzt kommen langsam Optimierungen dafür in die großen Inferenz-Engines: (https://github.com/sgl-project/sglang/issues/19380 https://github.com/sgl-project/sglang/pull/22851 usw.)
Natürlich hat DS V4 zusätzlich noch Optimierungen an der Modellarchitektur über DSA hinaus, und es wird noch Zeit brauchen, bis Open-Source-Inferenz-Engines das vollständig ausnutzen können
Beim Datenschutz gibt es die Wette, dass Menschen für Inferenz-Hosting außerhalb Chinas einen Aufpreis zahlen werden
Das gilt besonders, weil DeepSeek transparent sagt, dass API-Daten zur Modellverbesserung verwendet werden
Dazu kommen Faktoren wie Skaleneffekte (bei MoE sehr wichtig), Zuverlässigkeit und eine sanfte Bindung von Unternehmenskunden
Außerdem ist stillschweigende Absprache ebenfalls gut möglich
Wenn man sich die Preise von GLM 5 und GLM 5.1 anschaut, kosten beide gleich viel im Betrieb, aber 5.1 ist das deutlich bessere Modell, und weil Z.AI den Preis erhöht hat, haben Anbieter auch für 5.1 höhere Preise angesetzt
Sie verkaufen ganz offensichtlich mit Verlust
Aber warum auch nicht
Sich Marktanteile durch Verluste zu erkaufen, ist kein ausschließlich amerikanisches Patent
Vielleicht weißt du nicht genug über DeepSeek-Gründer Liang Wenfeng
Er ist auch Gründer von High-Flyer Quant
Mich interessiert eher die Caching-Seite
Dort steht: „The input cache hit prices for all models have been permanently reduced to 1/10th of the launch prices, effective from 12:15 UTC on 2026/4/26“
Es gibt kein Enddatum
Aktuell liegt DeepSeek V4 Flash bei 2 % des Input-Preises und beim aktuellen V4-Pro-Preis sind es 0,8 %, was im Vergleich zur Konkurrenz extrem niedrig ist und sogar die Unit Economics beeinflusst; ich dachte daher, das sei nur vorübergehend
Bei V4 Pro liegen die effektiven Kosten unter Berücksichtigung des Cachings bei etwa $0.04 pro 1 Million Input-Tokens (laut OpenRouter-Metriken: https://openrouter.ai/deepseek/deepseek-v4-pro)
Das ist sogar deutlich billiger als kleine Modelle der Konkurrenz
Der KV-Cache von DeepSeek V4 ist dank der stark komprimierten Sparse-Attention-Struktur sehr effizient
DeepSeek V3.2, das nur DSA nutzt, ist zwar ein kleineres Modell, verbraucht aber bei einem Kontextfenster von 1 Million trotzdem zehnmal mehr Speicher als DS V4 Pro
Außerdem hat die DeepSeek-API eine sehr gute Cache-Trefferquote
Bei derselben Last liegen große westliche Inferenzanbieter für Open-Weight-Modelle bei etwa 50 % KV-Cache-Hitrate, die DS-API dagegen bei ungefähr 80 %
Der große Punkt bei DeepSeek V4 ist, dass die Größe des KV-Caches massiv reduziert wurde
Flash selbst ist kein besonders konkurrenzfähiges Modell, und auch der Preis liegt ungefähr im gleichen Bereich wie bei anderen Modellen auf dem Markt
Der direkteste Konkurrent des Flash-Modells ist wahrscheinlich ungefähr so etwas wie:
GPT 5.4 mini
Cache Read
$0.075
/M tokens
Gemini 3 flash:
Cache Read
$0.05
/M tokens
Also nichts magisch Besonderes oder Bahnbrechendes
Sonnet:
Cache Read
$0.30
Gemini 3.5 flash:
Cache Read
$0.15
Das ist ein unglaubliches Preis-Leistungs-Verhältnis
Ich habe eine Weile GLM 5.1 mit GLM Coding Plan Max genutzt und DeepSeek V4 Pro außerdem etwa drei Wochen lang getestet; bei komplexen Coding-Aufgaben halte ich es für besser als GLM 5.1
Ich habe 65 Millionen Tokens verbraucht, und zu diesem Preis kamen 1,5 Dollar heraus – wirklich extrem billig
Beeindruckend
Damit wird DeepSeek V4 Pro sogar innerhalb derselben Kategorie im Vergleich zu anderen Modellen extrem billig
Wenn man den Preis pro 1 Million Output-Tokens betrachtet, sieht es so aus:
DeepSeek V4 Pro: $0.87
Qwen 3.7 Max: $7.50
Grok 4.3: $2.50
GLM 1.5: $3.08
Opus 4.7: $25.00
GPT-5.5: $30.00
In Agent-Workflows können diese Kosten dominieren, und die Cache-Read-Kosten von DeepSeek sind unvergleichlich niedrig
Es sind $0.003626 pro 1 Million Tokens, und das nächstgünstigste in der Liste liegt immer noch über $0.2 pro 1 Million
Das ist fast ein Unterschied um den Faktor 100
Das heißt, es ist möglich, Inferenz effizient zu betreiben – solange man nicht einfach unbegrenzt Geld verbrennen darf
Wenn man Opus zwei Monate nach dem Abo aus Kostengründen schlechter als GPT-3 macht, spielt es keine Rolle, wie gut Opus einmal war
Selbst mit dem Rabatt für V4 Pro ist V4 Flash beim Verhältnis Leistung pro Dollar am besten und bei agentischen, tool-intensiven Aufgaben insgesamt ebenfalls stärker
V4 Pro ist bei einzelnen Inferenzläufen intelligenter, aber der Geschwindigkeitsunterschied ist groß
Zusammengenommen aus Leistung, Kosten und Geschwindigkeit ist V4 Flash nach unseren Maßstäben derzeit mit Abstand das beste Flash-Modell
Die Daten stehen unter https://gertlabs.com/rankings
Ihre MLA-Architektur reduziert den KV-Cache gegenüber Standard-Attention um etwa das 5- bis 13-Fache
Deshalb ist das nicht einfach nur ein Preiskrieg zur Gewinnung von Marktanteilen, sondern die tatsächlichen Inferenzkosten sind wirklich niedriger
Lange Kontexte, Batch-Inferenz und das Speichern des KV-Caches auf Festplatte werden auf gewöhnlichen Verbraucherplattformen möglich
Dieser Rabatt war wahrscheinlich ein Marktexperiment nach dem Launch, um zu sehen, wie effizient Caching bei der neuen Modellgeneration tatsächlich funktioniert
Bei in China gehosteten Modellen mache ich mir mehr Sorgen über versehentliche Datenlecks als bei in den USA gehosteten Modellen
Zum Beispiel, wenn ein Agent eine env-Datei liest
Ist es falsch von mir zu vermuten, dass die chinesische Regierung eher als die US-Regierung oder US-Unternehmen dazu neigen könnte, sämtliche Gespräche zu scannen und nützliche Informationen zu speichern?
Ich habe sogar gezögert, diesen Kommentar zu schreiben, weil das voreingenommen und fremdenfeindlich klingen könnte
Ich würde mich freuen, wenn mich jemand davon überzeugt, dass ich falsch liege
Weiß jemand, was das für ein Unternehmen hinter dem Hosting von DeepSeek ist und ob es eine Vorgeschichte gibt, Datenschutz zu respektieren?
Das ist keine unvernünftige Sorge
Deshalb bevorzugen die meisten US-Unternehmen AWS Bedrock oder KI-Labore und verlangen in der Regel Verträge ohne Datenspeicherung
Aber Leckagerisiken gibt es unabhängig vom Hosting-Standort; anders ist vor allem die Anreizstruktur
Zum Beispiel scannen auch Labore alle Gespräche und trainieren mit Daten, die nicht durch Enterprise-ZDR-Verträge geschützt sind
Strafverfolgungsbehörden können mit gültigem Durchsuchungsbeschluss oder in Notfällen Zugriff auf sämtliche Nutzerdaten verlangen 1
Wenn du DeepSeek V4 privat nutzen möchtest, kannst du Tinfoil (tinfoil.sh) ausprobieren
Dort werden alle Modelle in verifizierbaren Secure-Hardware-Enclaves gehostet, sodass die Inferenz Ende-zu-Ende privat ist
Der Vollständigkeit halber: Ich bin einer der Mitgründer
1 https://cdn.openai.com/trust-and-transparency/openai-law-enf...
Nimm einfach etwas wie Azure
Dort wird das komplette Modell gehostet und in den USA angeboten
Solche Anbieter gibt es sicher noch mehr
Wir nutzen es auf diese Weise, und es funktioniert sehr gut
Es würde mich nicht überraschen, wenn sie das täten
Und genauso wenig würde es mich groß überraschen, wenn in den USA ansässige Modelle das für andere Regierungen täten
Bei der Vertraulichkeit von Daten habe ich generell keine großen Erwartungen
Microsoft erfüllt zwar alle Enterprise-Checkboxen, aber auch Azure wird gelegentlich kompromittiert
Ich würde sagen, die Wahrscheinlichkeit ist nicht null
Peking könnte jederzeit entscheiden, dass DeepSeek zu mächtig geworden ist oder ein wichtiges Exportgut darstellt, und eingreifen
Es gibt nicht einmal eine Garantie, dass das nicht bereits geschehen ist
Es gibt viele Berichte darüber, dass nicht nur China, sondern auch andere ausländische Akteure massiv in zentrale Netzwerke quer durch mehrere US-Branchen eingedrungen sind und auf den passenden Moment zur Ausnutzung warten
Ein Frontier-Modell ist einfach nur ein weiterer Angriffsvektor – und wenn man darüber nachdenkt, womöglich sogar ein deutlich leichter auszunutzender
Tatsächlich besteht diese Möglichkeit bei jedem Cloud-gehosteten Modell
Egal, ob das Unternehmen hinter dem Modell das beabsichtigt oder ein böswilliger Akteur eine Schwachstelle ausnutzt
Ich bin nicht wichtig genug, als dass jemand in China es auf mich persönlich abgesehen hätte
Und DeepSeek muss genug Vertrauen erhalten, damit Nutzer die Plattform weiterverwenden
Wenn sie sich wie ein Keylogger verhielten, der die Krypto-Wallets aller angreift, wäre dieses Vertrauen schnell zerstört
Wenn ich an Dingen arbeiten würde, die die chinesische Regierung als strategisch wichtig betrachtet, würde ich mir natürlich Sorgen machen, aber das tue ich nicht
Eher sorge ich mich darüber, dass die Tech-Reichen dieses Landes mich mit LLMs großflächig profilieren und hier etwas erschaffen, das noch dystopischer ist als Chinas reales oder eingebildetes Sozialkreditsystem
Gerade die Leute, die dich als US-Bürger davon überzeugen wollen, dass du dir Sorgen um die chinesische Regierung machen solltest, sind wahrscheinlich diejenigen, um die du dir wirklich Sorgen machen solltest
Falls jemand es an Copilot anschließen will: Ich hatte früher ein Proxy-Skript gebaut, das die Verbindung handhabt, und es könnte nützlich sein: https://gist.github.com/g023/c2bb7b540ffe64cee76023f18f6f936...