Release von DeepSeek-v3.1

(api-docs.deepseek.com)

2 Punkte von GN⁺ 2025-08-22 | 1 Kommentare | Auf WhatsApp teilen

DeepSeek-V3.1 ist der erste Schritt für das Zeitalter der nächsten Generation von Agenten
Das Modell verfügt über eine hybride Inferenz-Funktion, mit der sich in einem einzigen Modell zwei Modi wahlweise nutzen lassen: Think (inferenzbasiert) und Non-Think (nicht inferenzbasiert)
Im Modus DeepSeek-V3.1-Think lassen sich im Vergleich zum vorherigen Modell DeepSeek-R1-0528 in kürzerer Zeit richtige Antworten ableiten, wodurch die Effizienz deutlich verbessert wird
Durch Post-Training wurden die Fähigkeiten des Modells in Bereichen wie Tool-Nutzung, Steuerung externer Systeme und mehrstufigen Agentenaufgaben erheblich verbessert
Nutzer können im DeepSeek-Chatbot-Service über die Schaltfläche „DeepThink“ frei zwischen Think- und Non-Think-Modus wechseln
API-Updates
- In den Evaluierungen SWE (Software Engineering) und Terminal-Bench wurden bessere Ergebnisse erzielt
- Bei komplexer Suche oder Multi-Step-Aufgaben wurden mehrstufige Inferenz und Problemlösungsfähigkeit deutlich gestärkt
- Die allgemeine Inferenz-Effizienz wurde in großem Umfang verbessert
Preisänderung (gilt ab 25.9.)
- Input-API: $0.07 pro 1 Mio. Token (Cache-Hit) / $0.56 (Cache-Miss)
- Output-API: $1.68 pro 1 Mio. Token

1 Kommentare

GN⁺ 2025-08-22

Hacker-News-Kommentare

Für die lokale Ausführung wurde ein GGUF-Modell erstellt; um mit einem dynamischen 2-Bit-Ansatz (2-Bit-MoE, der Rest 6–8 Bit) gute Leistung zu erzielen, werden zusammen etwa 250 GB RAM und VRAM benötigt. SSD-Offloading ist ebenfalls möglich, aber langsam. Für Details zur Ausführung und zu optimalen Parametern siehe die offizielle Dokumentation.
- Allerdings ist es seltsam, dass unsloth als Python-Bibliothek versucht, apt-get mit sudo auszuführen. Auf meinem NixOS schlägt das fehl, daher ist die Nutzung schwierig.
- Mich würden Benchmark-Ergebnisse interessieren, wie stark die Leistung bei einer solchen dynamischen 2-Bit-Kompression im Vergleich zum Originalmodell abfällt.
Zur Referenz wird das terminal-bench-Leaderboard geteilt. Zu GPT-5, Claude 4 und GLM-4.5 besteht zwar ein deutlicher Abstand, aber im Vergleich zu anderen Open-Weight-Modellen ist die Leistung recht ordentlich. Benchmarks sagen nicht alles, daher wird man die tatsächlichen Ergebnisse erst mit der Zeit beurteilen können.
- Dieser Benchmark vermischt meiner Meinung nach Agent-Tools und Modelle, sodass die Ergebnisse inkonsistent sind. Aussagekräftig wäre es nur, die Agent-Tools festzuhalten und ausschließlich die Modelle zu vergleichen. Solche Benchmarks sind oft wenig vertrauenswürdig; besser ist es, ein Modell direkt zu verwenden und auf die eigenen Probleme anzuwenden.
- Meinem Eindruck nach war die Qualität der Ergebnisse ziemlich gut.
- Auch Unternehmen wie Anthropic und OpenAI neigen dazu, für bestimmte Benchmarks maßgeschneiderte Agenten zu entwickeln.
- DeepSeek R1 ist bereits ein älteres Modell, das inzwischen ersetzt wurde; das Update wurde zur Kenntnis genommen.
- Erst wenn der Preis nicht zu hoch ist, wird ein SOTA-Modell interessant genug, dass es sich nicht belastend anfühlt.
Schade, dass der frühere Rabatt in der Nebensaison verschwunden ist. Damals konnte man extrem viele Token erzeugen und zahlte trotzdem fast nichts. Trotzdem gibt es keine großen Beschwerden, weil das Preis-Leistungs-Verhältnis weiterhin sehr gut ist.
Laut den Benchmark-Ergebnissen von artificialanalysis.ai ist die Intelligenz ungefähr mit gpt-oss-120B vergleichbar, aber etwa 10-mal langsamer und 3-mal teurer.
- Die angegebene Quelle zeigt derzeit nur einen einzelnen Provider. Genauer wäre es, beim selben Anbieter gpt-oss-120B und deepseek-chat-v3.1 zu vergleichen. Dabei sollte man berücksichtigen, dass gpt-oss-120B im Vorteil ist, weil es dafür bereits mehr aufgebaute und optimierte Anbieter gibt.
DeepSeek V3.1 ist ein hybrides Reasoning-Modell und stark bei Tool-Aufrufen (Task Tool Calling). Allerdings verwendet es häufig zufällig alte Tool-Formate statt des standardmäßigen JSON-Formats. Vermutlich enthält der V3-Trainingsdatensatz viele solcher Beispiele.
- Es wird gefragt, ob schon strict Function Calling (Beta) ausprobiert wurde; dazu gibt es einen Guide.
- Es wird gefragt, welches Format genau gemeint ist. JSON gilt doch als gut geeignet, um strukturierte Ausgaben von LLMs zu erzwingen, daher ist unklar, warum man überhaupt von JSON abweichen würde.
Es scheint hinter Qwen3 235B 2507 Reasoning (mein Lieblingsmodell) und gpt-oss-120B zurückzuliegen; siehe Benchmark-Link, Preisreferenz.
- Ich halte die Modelle der Qwen3-2507-Reihe derzeit für das Beste im lokalen Einsatz. Mit einer GPU und ungefähr 32 GB RAM eignet sich das A3B-Modell sehr gut für Pair-Programming-Arbeit.
Unter den Modellen, die ich in den letzten sechs Monaten verwendet habe, verursacht DeepSeek V3.1 die meisten Halluzinationen.
- Es wird gefragt, welche Context Length verwendet wurde.
- Es wird gefragt, ob diesmal möglicherweise schlechte Daten hereingekommen sind.
Es liegt ungefähr zwischen V3 und Qwen3 Coder; siehe Vergleichslink.
- Es wird gefragt, ob das Modell gpt-5 Mini kostenlos verfügbar ist.
Zwischen Open-Weight-Modellen wirkt es konkurrenzfähig, aber im Vergleich zu GPT-5 oder Claude besteht noch eine große Lücke.
Ich habe noch keine Belege dafür gesehen, dass es bei agentischen Coding-Tasks besser ist als GLM-4.5.
- Es wird zurückgefragt, ob das alles ist oder ob es noch andere, bisher nicht gesehene Hinweise gibt.

Release von DeepSeek-v3.1

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare