DeepSeek macht den Preisnachlass für V4 Pro dauerhaft

(api-docs.deepseek.com)

3 Punkte von GN⁺ 2026-05-23 | 3 Kommentare | Auf WhatsApp teilen

Der API-Preis für DeepSeek-V4-Pro bleibt auch nach dem Ende der 75-%-Rabattaktion offiziell bei 1/4 des bisherigen Preises
Die Abrechnung erfolgt auf Basis des Preises pro 1 Million Tokens; die Kosten werden je nach Nutzung von Eingabe-Tokens und Ausgabe-Tokens direkt vom Guthaben abgezogen
Unterstützt werden DeepSeek-V4-Flash und DeepSeek-V4-Pro; beide unterstützen sowohl den Nicht-Denkmodus als auch den Denkmodus, standardmäßig ist der Denkmodus aktiviert
Bei beiden Modellen beträgt die Kontextlänge 1M, die maximale Ausgabe 384K; das Parallelitätslimit unterscheidet sich jedoch mit 2500 für Flash und 500 für Pro
Der Preis für Cache-Treffer bei Eingaben wurde bei allen Modellen auf 1/10 des Einführungspreises gesenkt; die Anpassung gilt ab dem 26. April 2026, 12:15 UTC

Abrechnungsgrundlage

Die Preiseinheit ist die Gebühr pro 1 Million Tokens; Tokens sind die kleinsten vom Modell erkannten Texteinheiten und können Wörter, Zahlen oder Satzzeichen sein
Abgerechnet wird anhand der Gesamtmenge der Eingabe-Tokens und Ausgabe-Tokens des Modells
Die Kosten werden als Anzahl der Tokens × Preis berechnet und direkt vom aufgeladenen Guthaben oder Auszahlungsguthaben abgezogen
Wenn sowohl aufgeladenes Guthaben als auch Auszahlungsguthaben vorhanden sind, wird zuerst das Auszahlungsguthaben verwendet
Produktpreise können sich ändern, und DeepSeek behält sich das Recht auf Preisanpassungen vor
Es wird empfohlen, entsprechend der tatsächlichen Nutzung Guthaben aufzuladen und die aktuellen Preise regelmäßig auf dieser Seite zu prüfen

Modelle und Preise

Unterstützte Modelle
- DeepSeek-V4-Flash und DeepSeek-V4-Pro werden angeboten
- Beide Modelle unterstützen sowohl den Nicht-Denkmodus als auch den Denkmodus; standardmäßig ist der Denkmodus aktiviert
- Die Modellnamen deepseek-chat und deepseek-reasoner sollen künftig eingestellt werden
- Zur Kompatibilität entspricht deepseek-chat dem Nicht-Denkmodus von deepseek-v4-flash, deepseek-reasoner entsprechend dem Denkmodus von deepseek-v4-flash
Endpunkte und Funktionen
- Die Base URL im Anthropic-Format lautet https://api.deepseek.com/anthropic
- Wie zwischen Denkmodus und Nicht-Denkmodus umgeschaltet wird, ist unter Thinking Mode beschrieben
- Als zugehörige Funktionsdokumentation stehen Json Output, Tool Calls, Chat Prefix Completion（Beta）, FIM Completion（Beta） zur Verfügung
Kontext- und Ausgabelimits
- Die Kontextlänge beträgt 1M
- Die maximale Ausgabe beträgt 384K

Preis pro 1 Million Tokens

Punkt	DeepSeek-V4-Flash	DeepSeek-V4-Pro
Eingabe-Tokens, Cache-Treffer	$0.0028	$0.003625
Eingabe-Tokens, Cache-Fehlschlag	$0.14	$0.435
Ausgabe-Tokens	$0.28	$0.87
Parallelitätslimit	2500	500

Rabattanpassung für DeepSeek-V4-Pro
- Der Preis für DeepSeek-V4-Pro wird zum Preis mit 75-%-Rabatt ausgewiesen
- Der Preis für Eingabe-Tokens mit Cache-Treffer wurde von zuvor $0.0145 auf $0.003625 gesenkt
- Der Preis für Eingabe-Tokens mit Cache-Fehlschlag wurde von zuvor $1.74 auf $0.435 gesenkt
- Der Preis für Ausgabe-Tokens wurde von zuvor $3.48 auf $0.87 gesenkt
- Auch nach dem Ende der 75-%-Rabattaktion am 31. Mai 2026, 15:59 UTC, wird der API-Preis für DeepSeek-V4-Pro offiziell auf 1/4 des bisherigen Preises angepasst
Senkung der Cache-Treffer-Preise
- Der Preis für Cache-Treffer bei Eingaben wurde bei allen Modellen auf 1/10 des Einführungspreises gesenkt
- Diese Preisänderung gilt ab dem 26. April 2026, 12:15 UTC
Parallelitätslimits
- Das Parallelitätslimit für DeepSeek-V4-Flash beträgt 2500
- Das Parallelitätslimit für DeepSeek-V4-Pro beträgt 500
- Weitere Details zu den Parallelitätslimits finden sich unter Rate Limit & Isolation

3 Kommentare

j2sus91 2026-05-26

Wenn man sich die Nutzungsbedingungen ansieht, heißt es offenbar, dass dort nicht ausdrücklich festgelegt ist, dass die API-Nutzung nicht für das Training verwendet wird.
Es wäre daher gut, diesen Punkt zu berücksichtigen, wenn ihr den Dienst nutzt~

myoun 2026-05-25

Oh, das ist gut.

GN⁺ 2026-05-23

Hacker-News-Kommentare

Wenn sie einen eigenen Coding-Agenten herausbringen, könnte ich anfangen, DeepSeek-Modelle als Hauptoption zu nutzen
Es wirkt, als würden sie weiter die „richtigen Dinge“ tun, etwa das Modell als Open Source veröffentlichen, Forschung publizieren und die Preise niedrig halten
- Man kann V4 Pro in Claude Code verwenden 1
  Ich habe es selbst ausprobiert und war beeindruckt
- Es passt auch sehr gut zu OpenCode
  Unser Team stößt bei einem anderen Abo-Service oft an das 5-Stunden-Limit, und DeepSeek als Backup ist dafür ziemlich gut
  Ich habe nur 50 Dollar aufgeladen, und es fühlt sich an, als würde das Geld nie weniger werden
  
  Es ersetzt die modernsten Modelle zwar noch nicht vollständig, aber als Backup ist es definitiv hervorragend
- Ich bin mir nicht sicher, ob DeepSeek überhaupt selbst einen Coding-Agenten anbieten muss
  Man kann das Modell einfach an jeden vorhandenen Coding-Agenten anschließen
  Ich persönlich bevorzuge Pi, aber letztlich sollte jeder nutzen, was für ihn am besten passt
- Ich habe Anfang dieser Woche angefangen, chinesische Modelle in meiner Codebasis zu testen
  Bisher eher bei Issue-Klassifizierung, automatischen Bugfixes und Log-Analyse als beim dialogbasierten Coding; ich habe DeepSeek, Kimi, GLM, Qwen und MiMO mit GPT-5.5 high verglichen und alles ohne Installation im Pi-Harness ausgeführt
  
  Bis jetzt wirken Kimi und MiMO am vielversprechendsten
  Ich habe es noch nicht streng genug getestet, aber mein erster Eindruck ist, dass diese Modelle bei typischen Alltagsaufgaben in der Praxis vielleicht nicht so weit zurückliegen, wie viele denken
  
  Allerdings arbeiten sie eher „fleißig statt clever“: Sie kommen langsamer zu ähnlichen Ergebnissen und verbrauchen mehr Tokens, sind dafür aber deutlich billiger
- Es wäre gut, wenn Coding-Agenten einigermaßen unabhängig von den Modellanbietern blieben
  Die Anbieter ändern Qualität, Funktionen und Preise viel zu oft, und ich möchte nicht jedes Mal auch noch den Agenten wechseln müssen
  
  Ich hoffe, dass sich die Lage etwas verlangsamt und stabilisiert
  Nicht unbedingt sofort, aber es wäre schön, wenn wir an diesen Punkt kämen
Wenn du DeepSeek V4 noch nicht ausprobiert hast, verpasst du wirklich etwas
Für den Preis ist es kaum zu glauben, wie gut es ist

Die Gedankenkette von DeepSeek ist wirklich interessant zu lesen
In OpenCode wird sie nicht angezeigt, aber wenn man sie direkt liest, könnte man überrascht sein, wie unterschätzt dieses Modell ist

Ich nutze Modelle nur sehr wenig, aber ich zahle DeepSeek regelmäßig direkt Geld – als Dank dafür, dass sie das Modell als Open Source veröffentlichen, und als Zeichen der Unterstützung für das, was ich insgesamt als gesellschaftlichen Nutzen sehe
- Es ist gut und billig, aber wenn man über Politik anfängt, können offenbar Zensurregeln anspringen
  Ich habe gesehen, wie es mitten im Denkprozess plötzlich alles gelöscht und ohne Erklärung vorgeschlagen hat, zu einem anderen Thema zu wechseln
  Einmal hat es auch eine allgemeine Nachricht ausgegeben, dass Nachrichtenmedien dem Volk dienen sollten
  
  Beides waren weder sensible noch illegale oder systemkritische Anfragen, was mich überrascht hat
  Aber sie waren auch nur ein wenig politisch, und das reichte offenbar aus
  Westliche Zensur ist normalerweise subtiler, deshalb war das auf unheimliche Weise fast schon erfrischend
- Ja, das Modell ist wirklich gut
  Bei der Arbeit nutze ich Claude und privat DeepSeek; es ist das einzige Modell, das nicht aktiv versucht, mich in den Bankrott zu treiben
- Für bestimmte Aufgaben mag ich V4 Pro, aber beim Coden war V4 Flash ziemlich beeindruckend
  Es ist knapp, trifft den Kern gut, macht vergleichsweise wenige Fehler und ist ziemlich schnell
- Im opencode-CLI sieht man die Inferenzspuren
  Vielleicht ist das ein Konfigurationsproblem
- In opencode kann man die Anzeige der Inferenz ein- und ausschalten
Dieser Preis ist verdächtig billig
Wenn dasselbe Modell bei anderen Anbietern gehostet wird, ist es viel teurer 0
Also kann DeepSeek entweder deutlich günstiger hosten als andere, oder das Geschäftsmodell ist ein anderes; ich vermute Letzteres
Vor allem, weil in der Datenschutzrichtlinie 1 steht, dass personenbezogene Daten einschließlich „User Input“ für „Service Improvement and Development, as well as technology training and enhancement“ verwendet werden können
- Vielleicht eine dumme Frage, aber wenn ich OpenRouter anschaue, frage ich mich, ob es DeepSeek wirklich nur außerhalb der USA, Singapurs und Chinas gibt
  Es wirkt wie ein zu offensichtliches Produkt, als dass es nicht auch von europäischen oder anderen westlichen Anbietern angeboten werden sollte
  Ich bin sicher, es wäre ein viel größerer Sprung als Mistral
  
  Ich würde diese Modelle gern ausprobieren, möchte aber Anbieter vermeiden, die mit meinen Daten trainieren oder sie speichern – über die üblichen rechtlichen Anforderungen hinaus
- Da wirken mehrere Faktoren zusammen
  In Bezug auf die Effizienz des Inferenz-Stacks nehmen viele Anbieter einfach vorhandenes sglang / vllm / trtllm und hoffen auf das Beste, aber das DeepSeek-Team ist dafür bekannt, die Optimierungsgrenzen auszureizen
  
  sglang und vllm sind großartige Software, aber wenn man sich DeepSeeks Sparse Attention (DSA) anschaut, wurde sie schon vor 1,5 Jahren eingeführt (https://arxiv.org/abs/2512.02556) und in DeepSeek 3.2, GLM 5 und DeepSeek V4 eingesetzt
  Erst jetzt kommen langsam Optimierungen dafür in die großen Inferenz-Engines: (https://github.com/sgl-project/sglang/issues/19380 https://github.com/sgl-project/sglang/pull/22851 usw.)
  Natürlich hat DS V4 zusätzlich noch Optimierungen an der Modellarchitektur über DSA hinaus, und es wird noch Zeit brauchen, bis Open-Source-Inferenz-Engines das vollständig ausnutzen können
  
  Beim Datenschutz gibt es die Wette, dass Menschen für Inferenz-Hosting außerhalb Chinas einen Aufpreis zahlen werden
  Das gilt besonders, weil DeepSeek transparent sagt, dass API-Daten zur Modellverbesserung verwendet werden
  
  Dazu kommen Faktoren wie Skaleneffekte (bei MoE sehr wichtig), Zuverlässigkeit und eine sanfte Bindung von Unternehmenskunden
  
  Außerdem ist stillschweigende Absprache ebenfalls gut möglich
  Wenn man sich die Preise von GLM 5 und GLM 5.1 anschaut, kosten beide gleich viel im Betrieb, aber 5.1 ist das deutlich bessere Modell, und weil Z.AI den Preis erhöht hat, haben Anbieter auch für 5.1 höhere Preise angesetzt
- Sie verkaufen ganz offensichtlich mit Verlust
  Aber warum auch nicht
  Sich Marktanteile durch Verluste zu erkaufen, ist kein ausschließlich amerikanisches Patent
- Vielleicht weißt du nicht genug über DeepSeek-Gründer Liang Wenfeng
  Er ist auch Gründer von High-Flyer Quant
Mich interessiert eher die Caching-Seite
Dort steht: „The input cache hit prices for all models have been permanently reduced to 1/10th of the launch prices, effective from 12:15 UTC on 2026/4/26“

Es gibt kein Enddatum
Aktuell liegt DeepSeek V4 Flash bei 2 % des Input-Preises und beim aktuellen V4-Pro-Preis sind es 0,8 %, was im Vergleich zur Konkurrenz extrem niedrig ist und sogar die Unit Economics beeinflusst; ich dachte daher, das sei nur vorübergehend

Bei V4 Pro liegen die effektiven Kosten unter Berücksichtigung des Cachings bei etwa $0.04 pro 1 Million Input-Tokens (laut OpenRouter-Metriken: https://openrouter.ai/deepseek/deepseek-v4-pro)
Das ist sogar deutlich billiger als kleine Modelle der Konkurrenz
- Der KV-Cache von DeepSeek V4 ist dank der stark komprimierten Sparse-Attention-Struktur sehr effizient
  DeepSeek V3.2, das nur DSA nutzt, ist zwar ein kleineres Modell, verbraucht aber bei einem Kontextfenster von 1 Million trotzdem zehnmal mehr Speicher als DS V4 Pro
  
  Außerdem hat die DeepSeek-API eine sehr gute Cache-Trefferquote
  Bei derselben Last liegen große westliche Inferenzanbieter für Open-Weight-Modelle bei etwa 50 % KV-Cache-Hitrate, die DS-API dagegen bei ungefähr 80 %
- Der große Punkt bei DeepSeek V4 ist, dass die Größe des KV-Caches massiv reduziert wurde
- Flash selbst ist kein besonders konkurrenzfähiges Modell, und auch der Preis liegt ungefähr im gleichen Bereich wie bei anderen Modellen auf dem Markt
  Der direkteste Konkurrent des Flash-Modells ist wahrscheinlich ungefähr so etwas wie:
  
  GPT 5.4 mini
  
  Cache Read
  $0.075
  /M tokens
  
  Gemini 3 flash:
  
  Cache Read
  $0.05
  /M tokens
  
  Also nichts magisch Besonderes oder Bahnbrechendes
- Sonnet:
  Cache Read
  $0.30
  
  Gemini 3.5 flash:
  Cache Read
  $0.15
Das ist ein unglaubliches Preis-Leistungs-Verhältnis
Ich habe eine Weile GLM 5.1 mit GLM Coding Plan Max genutzt und DeepSeek V4 Pro außerdem etwa drei Wochen lang getestet; bei komplexen Coding-Aufgaben halte ich es für besser als GLM 5.1
Ich habe 65 Millionen Tokens verbraucht, und zu diesem Preis kamen 1,5 Dollar heraus – wirklich extrem billig
- DeepSeek scheint deutlich mehr Tokens zu verbrauchen als andere Modelle
Beeindruckend
Damit wird DeepSeek V4 Pro sogar innerhalb derselben Kategorie im Vergleich zu anderen Modellen extrem billig
Wenn man den Preis pro 1 Million Output-Tokens betrachtet, sieht es so aus:

DeepSeek V4 Pro: $0.87

Qwen 3.7 Max: $7.50

Grok 4.3: $2.50

GLM 1.5: $3.08

Opus 4.7: $25.00

GPT-5.5: $30.00
- Wenn man die Cache-Read-Kosten mit einrechnet, ist es in der Praxis sogar noch billiger
  In Agent-Workflows können diese Kosten dominieren, und die Cache-Read-Kosten von DeepSeek sind unvergleichlich niedrig
  Es sind $0.003626 pro 1 Million Tokens, und das nächstgünstigste in der Liste liegt immer noch über $0.2 pro 1 Million
  Das ist fast ein Unterschied um den Faktor 100
- Wenn mir das nächste Mal jemand sagt: „Heul nicht wegen Nutzungslimits, dein Abo sorgt dafür, dass das Unternehmen Verlust macht“, dann werde ich diesen Kommentar verlinken
  Das heißt, es ist möglich, Inferenz effizient zu betreiben – solange man nicht einfach unbegrenzt Geld verbrennen darf
- Und nach dem Abschluss eines Abos verschlechtern sie das Modell nicht noch
  Wenn man Opus zwei Monate nach dem Abo aus Kostengründen schlechter als GPT-3 macht, spielt es keine Rolle, wie gut Opus einmal war
- Es ist GLM 5.1
Selbst mit dem Rabatt für V4 Pro ist V4 Flash beim Verhältnis Leistung pro Dollar am besten und bei agentischen, tool-intensiven Aufgaben insgesamt ebenfalls stärker
V4 Pro ist bei einzelnen Inferenzläufen intelligenter, aber der Geschwindigkeitsunterschied ist groß
Zusammengenommen aus Leistung, Kosten und Geschwindigkeit ist V4 Flash nach unseren Maßstäben derzeit mit Abstand das beste Flash-Modell

Die Daten stehen unter https://gertlabs.com/rankings
- Für meinen Anwendungsfall, hauptsächlich sehr große Zusammenfassungen und Ideenextraktion, war es im Vergleich zu Pro deutlich schlechter
Ihre MLA-Architektur reduziert den KV-Cache gegenüber Standard-Attention um etwa das 5- bis 13-Fache
Deshalb ist das nicht einfach nur ein Preiskrieg zur Gewinnung von Marktanteilen, sondern die tatsächlichen Inferenzkosten sind wirklich niedriger
- Auch für lokale Inferenz ist das ein Gamechanger
  Lange Kontexte, Batch-Inferenz und das Speichern des KV-Caches auf Festplatte werden auf gewöhnlichen Verbraucherplattformen möglich
- Ja
  Dieser Rabatt war wahrscheinlich ein Marktexperiment nach dem Launch, um zu sehen, wie effizient Caching bei der neuen Modellgeneration tatsächlich funktioniert
Bei in China gehosteten Modellen mache ich mir mehr Sorgen über versehentliche Datenlecks als bei in den USA gehosteten Modellen
Zum Beispiel, wenn ein Agent eine env-Datei liest
Ist es falsch von mir zu vermuten, dass die chinesische Regierung eher als die US-Regierung oder US-Unternehmen dazu neigen könnte, sämtliche Gespräche zu scannen und nützliche Informationen zu speichern?

Ich habe sogar gezögert, diesen Kommentar zu schreiben, weil das voreingenommen und fremdenfeindlich klingen könnte
Ich würde mich freuen, wenn mich jemand davon überzeugt, dass ich falsch liege
Weiß jemand, was das für ein Unternehmen hinter dem Hosting von DeepSeek ist und ob es eine Vorgeschichte gibt, Datenschutz zu respektieren?
- Das ist keine unvernünftige Sorge
  Deshalb bevorzugen die meisten US-Unternehmen AWS Bedrock oder KI-Labore und verlangen in der Regel Verträge ohne Datenspeicherung
  Aber Leckagerisiken gibt es unabhängig vom Hosting-Standort; anders ist vor allem die Anreizstruktur
  
  Zum Beispiel scannen auch Labore alle Gespräche und trainieren mit Daten, die nicht durch Enterprise-ZDR-Verträge geschützt sind
  Strafverfolgungsbehörden können mit gültigem Durchsuchungsbeschluss oder in Notfällen Zugriff auf sämtliche Nutzerdaten verlangen 1
  
  Wenn du DeepSeek V4 privat nutzen möchtest, kannst du Tinfoil (tinfoil.sh) ausprobieren
  Dort werden alle Modelle in verifizierbaren Secure-Hardware-Enclaves gehostet, sodass die Inferenz Ende-zu-Ende privat ist
  Der Vollständigkeit halber: Ich bin einer der Mitgründer
  
  1 https://cdn.openai.com/trust-and-transparency/openai-law-enf...
- Nimm einfach etwas wie Azure
  Dort wird das komplette Modell gehostet und in den USA angeboten
  Solche Anbieter gibt es sicher noch mehr
  
  Wir nutzen es auf diese Weise, und es funktioniert sehr gut
- Es würde mich nicht überraschen, wenn sie das täten
  Und genauso wenig würde es mich groß überraschen, wenn in den USA ansässige Modelle das für andere Regierungen täten
  Bei der Vertraulichkeit von Daten habe ich generell keine großen Erwartungen
  Microsoft erfüllt zwar alle Enterprise-Checkboxen, aber auch Azure wird gelegentlich kompromittiert
- Ich würde sagen, die Wahrscheinlichkeit ist nicht null
  Peking könnte jederzeit entscheiden, dass DeepSeek zu mächtig geworden ist oder ein wichtiges Exportgut darstellt, und eingreifen
  Es gibt nicht einmal eine Garantie, dass das nicht bereits geschehen ist
  
  Es gibt viele Berichte darüber, dass nicht nur China, sondern auch andere ausländische Akteure massiv in zentrale Netzwerke quer durch mehrere US-Branchen eingedrungen sind und auf den passenden Moment zur Ausnutzung warten
  Ein Frontier-Modell ist einfach nur ein weiterer Angriffsvektor – und wenn man darüber nachdenkt, womöglich sogar ein deutlich leichter auszunutzender
  
  Tatsächlich besteht diese Möglichkeit bei jedem Cloud-gehosteten Modell
  Egal, ob das Unternehmen hinter dem Modell das beabsichtigt oder ein böswilliger Akteur eine Schwachstelle ausnutzt
- Ich bin nicht wichtig genug, als dass jemand in China es auf mich persönlich abgesehen hätte
  Und DeepSeek muss genug Vertrauen erhalten, damit Nutzer die Plattform weiterverwenden
  Wenn sie sich wie ein Keylogger verhielten, der die Krypto-Wallets aller angreift, wäre dieses Vertrauen schnell zerstört
  
  Wenn ich an Dingen arbeiten würde, die die chinesische Regierung als strategisch wichtig betrachtet, würde ich mir natürlich Sorgen machen, aber das tue ich nicht
  
  Eher sorge ich mich darüber, dass die Tech-Reichen dieses Landes mich mit LLMs großflächig profilieren und hier etwas erschaffen, das noch dystopischer ist als Chinas reales oder eingebildetes Sozialkreditsystem
  Gerade die Leute, die dich als US-Bürger davon überzeugen wollen, dass du dir Sorgen um die chinesische Regierung machen solltest, sind wahrscheinlich diejenigen, um die du dir wirklich Sorgen machen solltest
Falls jemand es an Copilot anschließen will: Ich hatte früher ein Proxy-Skript gebaut, das die Verbindung handhabt, und es könnte nützlich sein: https://gist.github.com/g023/c2bb7b540ffe64cee76023f18f6f936...

DeepSeek macht den Preisnachlass für V4 Pro dauerhaft

Abrechnungsgrundlage

Modelle und Preise

Unterstützte Modelle

Endpunkte und Funktionen

Kontext- und Ausgabelimits

Preis pro 1 Million Tokens

Rabattanpassung für DeepSeek-V4-Pro

Senkung der Cache-Treffer-Preise

Parallelitätslimits

Verwandte Beiträge

3 Kommentare

Hacker-News-Kommentare