1 Punkte von GN⁺ 4 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • Der API-Preis für DeepSeek-V4-Pro bleibt auch nach dem Ende der 75-%-Rabattaktion offiziell bei 1/4 des bisherigen Preises
  • Die Abrechnung erfolgt auf Basis des Preises pro 1 Million Tokens; die Kosten werden je nach Nutzung von Eingabe-Tokens und Ausgabe-Tokens direkt vom Guthaben abgezogen
  • Unterstützt werden DeepSeek-V4-Flash und DeepSeek-V4-Pro; beide unterstützen sowohl den Nicht-Denkmodus als auch den Denkmodus, standardmäßig ist der Denkmodus aktiviert
  • Bei beiden Modellen beträgt die Kontextlänge 1M, die maximale Ausgabe 384K; das Parallelitätslimit unterscheidet sich jedoch mit 2500 für Flash und 500 für Pro
  • Der Preis für Cache-Treffer bei Eingaben wurde bei allen Modellen auf 1/10 des Einführungspreises gesenkt; die Anpassung gilt ab dem 26. April 2026, 12:15 UTC

Abrechnungsgrundlage

  • Die Preiseinheit ist die Gebühr pro 1 Million Tokens; Tokens sind die kleinsten vom Modell erkannten Texteinheiten und können Wörter, Zahlen oder Satzzeichen sein
  • Abgerechnet wird anhand der Gesamtmenge der Eingabe-Tokens und Ausgabe-Tokens des Modells
  • Die Kosten werden als Anzahl der Tokens × Preis berechnet und direkt vom aufgeladenen Guthaben oder Auszahlungsguthaben abgezogen
  • Wenn sowohl aufgeladenes Guthaben als auch Auszahlungsguthaben vorhanden sind, wird zuerst das Auszahlungsguthaben verwendet
  • Produktpreise können sich ändern, und DeepSeek behält sich das Recht auf Preisanpassungen vor
  • Es wird empfohlen, entsprechend der tatsächlichen Nutzung Guthaben aufzuladen und die aktuellen Preise regelmäßig auf dieser Seite zu prüfen

Modelle und Preise

  • Unterstützte Modelle

    • DeepSeek-V4-Flash und DeepSeek-V4-Pro werden angeboten
    • Beide Modelle unterstützen sowohl den Nicht-Denkmodus als auch den Denkmodus; standardmäßig ist der Denkmodus aktiviert
    • Die Modellnamen deepseek-chat und deepseek-reasoner sollen künftig eingestellt werden
    • Zur Kompatibilität entspricht deepseek-chat dem Nicht-Denkmodus von deepseek-v4-flash, deepseek-reasoner entsprechend dem Denkmodus von deepseek-v4-flash
  • Endpunkte und Funktionen

  • Kontext- und Ausgabelimits

    • Die Kontextlänge beträgt 1M
    • Die maximale Ausgabe beträgt 384K

Preis pro 1 Million Tokens

Punkt DeepSeek-V4-Flash DeepSeek-V4-Pro
Eingabe-Tokens, Cache-Treffer $0.0028 $0.003625
Eingabe-Tokens, Cache-Fehlschlag $0.14 $0.435
Ausgabe-Tokens $0.28 $0.87
Parallelitätslimit 2500 500
  • Rabattanpassung für DeepSeek-V4-Pro

    • Der Preis für DeepSeek-V4-Pro wird zum Preis mit 75-%-Rabatt ausgewiesen
    • Der Preis für Eingabe-Tokens mit Cache-Treffer wurde von zuvor $0.0145 auf $0.003625 gesenkt
    • Der Preis für Eingabe-Tokens mit Cache-Fehlschlag wurde von zuvor $1.74 auf $0.435 gesenkt
    • Der Preis für Ausgabe-Tokens wurde von zuvor $3.48 auf $0.87 gesenkt
    • Auch nach dem Ende der 75-%-Rabattaktion am 31. Mai 2026, 15:59 UTC, wird der API-Preis für DeepSeek-V4-Pro offiziell auf 1/4 des bisherigen Preises angepasst
  • Senkung der Cache-Treffer-Preise

    • Der Preis für Cache-Treffer bei Eingaben wurde bei allen Modellen auf 1/10 des Einführungspreises gesenkt
    • Diese Preisänderung gilt ab dem 26. April 2026, 12:15 UTC
  • Parallelitätslimits

    • Das Parallelitätslimit für DeepSeek-V4-Flash beträgt 2500
    • Das Parallelitätslimit für DeepSeek-V4-Pro beträgt 500
    • Weitere Details zu den Parallelitätslimits finden sich unter Rate Limit & Isolation

1 Kommentare

 
GN⁺ 4 시간 전
Hacker-News-Kommentare
  • Wenn sie einen eigenen Coding-Agenten herausbringen, könnte ich anfangen, DeepSeek-Modelle als Hauptoption zu nutzen
    Es wirkt, als würden sie weiter die „richtigen Dinge“ tun, etwa das Modell als Open Source veröffentlichen, Forschung publizieren und die Preise niedrig halten

    • Man kann V4 Pro in Claude Code verwenden 1
      Ich habe es selbst ausprobiert und war beeindruckt

    • Es passt auch sehr gut zu OpenCode
      Unser Team stößt bei einem anderen Abo-Service oft an das 5-Stunden-Limit, und DeepSeek als Backup ist dafür ziemlich gut
      Ich habe nur 50 Dollar aufgeladen, und es fühlt sich an, als würde das Geld nie weniger werden

      Es ersetzt die modernsten Modelle zwar noch nicht vollständig, aber als Backup ist es definitiv hervorragend

    • Ich bin mir nicht sicher, ob DeepSeek überhaupt selbst einen Coding-Agenten anbieten muss
      Man kann das Modell einfach an jeden vorhandenen Coding-Agenten anschließen
      Ich persönlich bevorzuge Pi, aber letztlich sollte jeder nutzen, was für ihn am besten passt

    • Ich habe Anfang dieser Woche angefangen, chinesische Modelle in meiner Codebasis zu testen
      Bisher eher bei Issue-Klassifizierung, automatischen Bugfixes und Log-Analyse als beim dialogbasierten Coding; ich habe DeepSeek, Kimi, GLM, Qwen und MiMO mit GPT-5.5 high verglichen und alles ohne Installation im Pi-Harness ausgeführt

      Bis jetzt wirken Kimi und MiMO am vielversprechendsten
      Ich habe es noch nicht streng genug getestet, aber mein erster Eindruck ist, dass diese Modelle bei typischen Alltagsaufgaben in der Praxis vielleicht nicht so weit zurückliegen, wie viele denken

      Allerdings arbeiten sie eher „fleißig statt clever“: Sie kommen langsamer zu ähnlichen Ergebnissen und verbrauchen mehr Tokens, sind dafür aber deutlich billiger

    • Es wäre gut, wenn Coding-Agenten einigermaßen unabhängig von den Modellanbietern blieben
      Die Anbieter ändern Qualität, Funktionen und Preise viel zu oft, und ich möchte nicht jedes Mal auch noch den Agenten wechseln müssen

      Ich hoffe, dass sich die Lage etwas verlangsamt und stabilisiert
      Nicht unbedingt sofort, aber es wäre schön, wenn wir an diesen Punkt kämen

  • Wenn du DeepSeek V4 noch nicht ausprobiert hast, verpasst du wirklich etwas
    Für den Preis ist es kaum zu glauben, wie gut es ist

    Die Gedankenkette von DeepSeek ist wirklich interessant zu lesen
    In OpenCode wird sie nicht angezeigt, aber wenn man sie direkt liest, könnte man überrascht sein, wie unterschätzt dieses Modell ist

    Ich nutze Modelle nur sehr wenig, aber ich zahle DeepSeek regelmäßig direkt Geld – als Dank dafür, dass sie das Modell als Open Source veröffentlichen, und als Zeichen der Unterstützung für das, was ich insgesamt als gesellschaftlichen Nutzen sehe

    • Es ist gut und billig, aber wenn man über Politik anfängt, können offenbar Zensurregeln anspringen
      Ich habe gesehen, wie es mitten im Denkprozess plötzlich alles gelöscht und ohne Erklärung vorgeschlagen hat, zu einem anderen Thema zu wechseln
      Einmal hat es auch eine allgemeine Nachricht ausgegeben, dass Nachrichtenmedien dem Volk dienen sollten

      Beides waren weder sensible noch illegale oder systemkritische Anfragen, was mich überrascht hat
      Aber sie waren auch nur ein wenig politisch, und das reichte offenbar aus
      Westliche Zensur ist normalerweise subtiler, deshalb war das auf unheimliche Weise fast schon erfrischend

    • Ja, das Modell ist wirklich gut
      Bei der Arbeit nutze ich Claude und privat DeepSeek; es ist das einzige Modell, das nicht aktiv versucht, mich in den Bankrott zu treiben

    • Für bestimmte Aufgaben mag ich V4 Pro, aber beim Coden war V4 Flash ziemlich beeindruckend
      Es ist knapp, trifft den Kern gut, macht vergleichsweise wenige Fehler und ist ziemlich schnell

    • Im opencode-CLI sieht man die Inferenzspuren
      Vielleicht ist das ein Konfigurationsproblem

    • In opencode kann man die Anzeige der Inferenz ein- und ausschalten

  • Dieser Preis ist verdächtig billig
    Wenn dasselbe Modell bei anderen Anbietern gehostet wird, ist es viel teurer 0
    Also kann DeepSeek entweder deutlich günstiger hosten als andere, oder das Geschäftsmodell ist ein anderes; ich vermute Letzteres
    Vor allem, weil in der Datenschutzrichtlinie 1 steht, dass personenbezogene Daten einschließlich „User Input“ für „Service Improvement and Development, as well as technology training and enhancement“ verwendet werden können

    • Vielleicht eine dumme Frage, aber wenn ich OpenRouter anschaue, frage ich mich, ob es DeepSeek wirklich nur außerhalb der USA, Singapurs und Chinas gibt
      Es wirkt wie ein zu offensichtliches Produkt, als dass es nicht auch von europäischen oder anderen westlichen Anbietern angeboten werden sollte
      Ich bin sicher, es wäre ein viel größerer Sprung als Mistral

      Ich würde diese Modelle gern ausprobieren, möchte aber Anbieter vermeiden, die mit meinen Daten trainieren oder sie speichern – über die üblichen rechtlichen Anforderungen hinaus

    • Da wirken mehrere Faktoren zusammen
      In Bezug auf die Effizienz des Inferenz-Stacks nehmen viele Anbieter einfach vorhandenes sglang / vllm / trtllm und hoffen auf das Beste, aber das DeepSeek-Team ist dafür bekannt, die Optimierungsgrenzen auszureizen

      sglang und vllm sind großartige Software, aber wenn man sich DeepSeeks Sparse Attention (DSA) anschaut, wurde sie schon vor 1,5 Jahren eingeführt (https://arxiv.org/abs/2512.02556) und in DeepSeek 3.2, GLM 5 und DeepSeek V4 eingesetzt
      Erst jetzt kommen langsam Optimierungen dafür in die großen Inferenz-Engines: (https://github.com/sgl-project/sglang/issues/19380 https://github.com/sgl-project/sglang/pull/22851 usw.)
      Natürlich hat DS V4 zusätzlich noch Optimierungen an der Modellarchitektur über DSA hinaus, und es wird noch Zeit brauchen, bis Open-Source-Inferenz-Engines das vollständig ausnutzen können

      Beim Datenschutz gibt es die Wette, dass Menschen für Inferenz-Hosting außerhalb Chinas einen Aufpreis zahlen werden
      Das gilt besonders, weil DeepSeek transparent sagt, dass API-Daten zur Modellverbesserung verwendet werden

      Dazu kommen Faktoren wie Skaleneffekte (bei MoE sehr wichtig), Zuverlässigkeit und eine sanfte Bindung von Unternehmenskunden

      Außerdem ist stillschweigende Absprache ebenfalls gut möglich
      Wenn man sich die Preise von GLM 5 und GLM 5.1 anschaut, kosten beide gleich viel im Betrieb, aber 5.1 ist das deutlich bessere Modell, und weil Z.AI den Preis erhöht hat, haben Anbieter auch für 5.1 höhere Preise angesetzt

    • Sie verkaufen ganz offensichtlich mit Verlust
      Aber warum auch nicht
      Sich Marktanteile durch Verluste zu erkaufen, ist kein ausschließlich amerikanisches Patent

    • Vielleicht weißt du nicht genug über DeepSeek-Gründer Liang Wenfeng
      Er ist auch Gründer von High-Flyer Quant

  • Mich interessiert eher die Caching-Seite
    Dort steht: „The input cache hit prices for all models have been permanently reduced to 1/10th of the launch prices, effective from 12:15 UTC on 2026/4/26“

    Es gibt kein Enddatum
    Aktuell liegt DeepSeek V4 Flash bei 2 % des Input-Preises und beim aktuellen V4-Pro-Preis sind es 0,8 %, was im Vergleich zur Konkurrenz extrem niedrig ist und sogar die Unit Economics beeinflusst; ich dachte daher, das sei nur vorübergehend

    Bei V4 Pro liegen die effektiven Kosten unter Berücksichtigung des Cachings bei etwa $0.04 pro 1 Million Input-Tokens (laut OpenRouter-Metriken: https://openrouter.ai/deepseek/deepseek-v4-pro)
    Das ist sogar deutlich billiger als kleine Modelle der Konkurrenz

    • Der KV-Cache von DeepSeek V4 ist dank der stark komprimierten Sparse-Attention-Struktur sehr effizient
      DeepSeek V3.2, das nur DSA nutzt, ist zwar ein kleineres Modell, verbraucht aber bei einem Kontextfenster von 1 Million trotzdem zehnmal mehr Speicher als DS V4 Pro

      Außerdem hat die DeepSeek-API eine sehr gute Cache-Trefferquote
      Bei derselben Last liegen große westliche Inferenzanbieter für Open-Weight-Modelle bei etwa 50 % KV-Cache-Hitrate, die DS-API dagegen bei ungefähr 80 %

    • Der große Punkt bei DeepSeek V4 ist, dass die Größe des KV-Caches massiv reduziert wurde

    • Flash selbst ist kein besonders konkurrenzfähiges Modell, und auch der Preis liegt ungefähr im gleichen Bereich wie bei anderen Modellen auf dem Markt
      Der direkteste Konkurrent des Flash-Modells ist wahrscheinlich ungefähr so etwas wie:

      GPT 5.4 mini

      Cache Read
      $0.075
      /M tokens

      Gemini 3 flash:

      Cache Read
      $0.05
      /M tokens

      Also nichts magisch Besonderes oder Bahnbrechendes

    • Sonnet:
      Cache Read
      $0.30

      Gemini 3.5 flash:
      Cache Read
      $0.15

  • Das ist ein unglaubliches Preis-Leistungs-Verhältnis
    Ich habe eine Weile GLM 5.1 mit GLM Coding Plan Max genutzt und DeepSeek V4 Pro außerdem etwa drei Wochen lang getestet; bei komplexen Coding-Aufgaben halte ich es für besser als GLM 5.1
    Ich habe 65 Millionen Tokens verbraucht, und zu diesem Preis kamen 1,5 Dollar heraus – wirklich extrem billig

    • DeepSeek scheint deutlich mehr Tokens zu verbrauchen als andere Modelle
  • Beeindruckend
    Damit wird DeepSeek V4 Pro sogar innerhalb derselben Kategorie im Vergleich zu anderen Modellen extrem billig
    Wenn man den Preis pro 1 Million Output-Tokens betrachtet, sieht es so aus:

    DeepSeek V4 Pro: $0.87

    Qwen 3.7 Max: $7.50

    Grok 4.3: $2.50

    GLM 1.5: $3.08

    Opus 4.7: $25.00

    GPT-5.5: $30.00

    • Wenn man die Cache-Read-Kosten mit einrechnet, ist es in der Praxis sogar noch billiger
      In Agent-Workflows können diese Kosten dominieren, und die Cache-Read-Kosten von DeepSeek sind unvergleichlich niedrig
      Es sind $0.003626 pro 1 Million Tokens, und das nächstgünstigste in der Liste liegt immer noch über $0.2 pro 1 Million
      Das ist fast ein Unterschied um den Faktor 100
    • Wenn mir das nächste Mal jemand sagt: „Heul nicht wegen Nutzungslimits, dein Abo sorgt dafür, dass das Unternehmen Verlust macht“, dann werde ich diesen Kommentar verlinken
      Das heißt, es ist möglich, Inferenz effizient zu betreiben – solange man nicht einfach unbegrenzt Geld verbrennen darf
    • Und nach dem Abschluss eines Abos verschlechtern sie das Modell nicht noch
      Wenn man Opus zwei Monate nach dem Abo aus Kostengründen schlechter als GPT-3 macht, spielt es keine Rolle, wie gut Opus einmal war
    • Es ist GLM 5.1
  • Selbst mit dem Rabatt für V4 Pro ist V4 Flash beim Verhältnis Leistung pro Dollar am besten und bei agentischen, tool-intensiven Aufgaben insgesamt ebenfalls stärker
    V4 Pro ist bei einzelnen Inferenzläufen intelligenter, aber der Geschwindigkeitsunterschied ist groß
    Zusammengenommen aus Leistung, Kosten und Geschwindigkeit ist V4 Flash nach unseren Maßstäben derzeit mit Abstand das beste Flash-Modell

    Die Daten stehen unter https://gertlabs.com/rankings

    • Für meinen Anwendungsfall, hauptsächlich sehr große Zusammenfassungen und Ideenextraktion, war es im Vergleich zu Pro deutlich schlechter
  • Ihre MLA-Architektur reduziert den KV-Cache gegenüber Standard-Attention um etwa das 5- bis 13-Fache
    Deshalb ist das nicht einfach nur ein Preiskrieg zur Gewinnung von Marktanteilen, sondern die tatsächlichen Inferenzkosten sind wirklich niedriger

    • Auch für lokale Inferenz ist das ein Gamechanger
      Lange Kontexte, Batch-Inferenz und das Speichern des KV-Caches auf Festplatte werden auf gewöhnlichen Verbraucherplattformen möglich
    • Ja
      Dieser Rabatt war wahrscheinlich ein Marktexperiment nach dem Launch, um zu sehen, wie effizient Caching bei der neuen Modellgeneration tatsächlich funktioniert
  • Bei in China gehosteten Modellen mache ich mir mehr Sorgen über versehentliche Datenlecks als bei in den USA gehosteten Modellen
    Zum Beispiel, wenn ein Agent eine env-Datei liest
    Ist es falsch von mir zu vermuten, dass die chinesische Regierung eher als die US-Regierung oder US-Unternehmen dazu neigen könnte, sämtliche Gespräche zu scannen und nützliche Informationen zu speichern?

    Ich habe sogar gezögert, diesen Kommentar zu schreiben, weil das voreingenommen und fremdenfeindlich klingen könnte
    Ich würde mich freuen, wenn mich jemand davon überzeugt, dass ich falsch liege
    Weiß jemand, was das für ein Unternehmen hinter dem Hosting von DeepSeek ist und ob es eine Vorgeschichte gibt, Datenschutz zu respektieren?

    • Das ist keine unvernünftige Sorge
      Deshalb bevorzugen die meisten US-Unternehmen AWS Bedrock oder KI-Labore und verlangen in der Regel Verträge ohne Datenspeicherung
      Aber Leckagerisiken gibt es unabhängig vom Hosting-Standort; anders ist vor allem die Anreizstruktur

      Zum Beispiel scannen auch Labore alle Gespräche und trainieren mit Daten, die nicht durch Enterprise-ZDR-Verträge geschützt sind
      Strafverfolgungsbehörden können mit gültigem Durchsuchungsbeschluss oder in Notfällen Zugriff auf sämtliche Nutzerdaten verlangen 1

      Wenn du DeepSeek V4 privat nutzen möchtest, kannst du Tinfoil (tinfoil.sh) ausprobieren
      Dort werden alle Modelle in verifizierbaren Secure-Hardware-Enclaves gehostet, sodass die Inferenz Ende-zu-Ende privat ist
      Der Vollständigkeit halber: Ich bin einer der Mitgründer

      1 https://cdn.openai.com/trust-and-transparency/openai-law-enf...

    • Nimm einfach etwas wie Azure
      Dort wird das komplette Modell gehostet und in den USA angeboten
      Solche Anbieter gibt es sicher noch mehr

      Wir nutzen es auf diese Weise, und es funktioniert sehr gut

    • Es würde mich nicht überraschen, wenn sie das täten
      Und genauso wenig würde es mich groß überraschen, wenn in den USA ansässige Modelle das für andere Regierungen täten
      Bei der Vertraulichkeit von Daten habe ich generell keine großen Erwartungen
      Microsoft erfüllt zwar alle Enterprise-Checkboxen, aber auch Azure wird gelegentlich kompromittiert

    • Ich würde sagen, die Wahrscheinlichkeit ist nicht null
      Peking könnte jederzeit entscheiden, dass DeepSeek zu mächtig geworden ist oder ein wichtiges Exportgut darstellt, und eingreifen
      Es gibt nicht einmal eine Garantie, dass das nicht bereits geschehen ist

      Es gibt viele Berichte darüber, dass nicht nur China, sondern auch andere ausländische Akteure massiv in zentrale Netzwerke quer durch mehrere US-Branchen eingedrungen sind und auf den passenden Moment zur Ausnutzung warten
      Ein Frontier-Modell ist einfach nur ein weiterer Angriffsvektor – und wenn man darüber nachdenkt, womöglich sogar ein deutlich leichter auszunutzender

      Tatsächlich besteht diese Möglichkeit bei jedem Cloud-gehosteten Modell
      Egal, ob das Unternehmen hinter dem Modell das beabsichtigt oder ein böswilliger Akteur eine Schwachstelle ausnutzt

    • Ich bin nicht wichtig genug, als dass jemand in China es auf mich persönlich abgesehen hätte
      Und DeepSeek muss genug Vertrauen erhalten, damit Nutzer die Plattform weiterverwenden
      Wenn sie sich wie ein Keylogger verhielten, der die Krypto-Wallets aller angreift, wäre dieses Vertrauen schnell zerstört

      Wenn ich an Dingen arbeiten würde, die die chinesische Regierung als strategisch wichtig betrachtet, würde ich mir natürlich Sorgen machen, aber das tue ich nicht

      Eher sorge ich mich darüber, dass die Tech-Reichen dieses Landes mich mit LLMs großflächig profilieren und hier etwas erschaffen, das noch dystopischer ist als Chinas reales oder eingebildetes Sozialkreditsystem
      Gerade die Leute, die dich als US-Bürger davon überzeugen wollen, dass du dir Sorgen um die chinesische Regierung machen solltest, sind wahrscheinlich diejenigen, um die du dir wirklich Sorgen machen solltest

  • Falls jemand es an Copilot anschließen will: Ich hatte früher ein Proxy-Skript gebaut, das die Verbindung handhabt, und es könnte nützlich sein: https://gist.github.com/g023/c2bb7b540ffe64cee76023f18f6f936...