2 Punkte von GN⁺ 2025-08-22 | 1 Kommentare | Auf WhatsApp teilen
  • DeepSeek-V3.1 ist der erste Schritt für das Zeitalter der nächsten Generation von Agenten
  • Das Modell verfügt über eine hybride Inferenz-Funktion, mit der sich in einem einzigen Modell zwei Modi wahlweise nutzen lassen: Think (inferenzbasiert) und Non-Think (nicht inferenzbasiert)
  • Im Modus DeepSeek-V3.1-Think lassen sich im Vergleich zum vorherigen Modell DeepSeek-R1-0528 in kürzerer Zeit richtige Antworten ableiten, wodurch die Effizienz deutlich verbessert wird
  • Durch Post-Training wurden die Fähigkeiten des Modells in Bereichen wie Tool-Nutzung, Steuerung externer Systeme und mehrstufigen Agentenaufgaben erheblich verbessert
  • Nutzer können im DeepSeek-Chatbot-Service über die Schaltfläche „DeepThink“ frei zwischen Think- und Non-Think-Modus wechseln
  • API-Updates
    • In den Evaluierungen SWE (Software Engineering) und Terminal-Bench wurden bessere Ergebnisse erzielt
    • Bei komplexer Suche oder Multi-Step-Aufgaben wurden mehrstufige Inferenz und Problemlösungsfähigkeit deutlich gestärkt
    • Die allgemeine Inferenz-Effizienz wurde in großem Umfang verbessert
  • Preisänderung (gilt ab 25.9.)
    • Input-API: $0.07 pro 1 Mio. Token (Cache-Hit) / $0.56 (Cache-Miss)
    • Output-API: $1.68 pro 1 Mio. Token

1 Kommentare

 
GN⁺ 2025-08-22
Hacker-News-Kommentare
  • Für die lokale Ausführung wurde ein GGUF-Modell erstellt; um mit einem dynamischen 2-Bit-Ansatz (2-Bit-MoE, der Rest 6–8 Bit) gute Leistung zu erzielen, werden zusammen etwa 250 GB RAM und VRAM benötigt. SSD-Offloading ist ebenfalls möglich, aber langsam. Für Details zur Ausführung und zu optimalen Parametern siehe die offizielle Dokumentation.
    • Allerdings ist es seltsam, dass unsloth als Python-Bibliothek versucht, apt-get mit sudo auszuführen. Auf meinem NixOS schlägt das fehl, daher ist die Nutzung schwierig.
    • Mich würden Benchmark-Ergebnisse interessieren, wie stark die Leistung bei einer solchen dynamischen 2-Bit-Kompression im Vergleich zum Originalmodell abfällt.
  • Zur Referenz wird das terminal-bench-Leaderboard geteilt. Zu GPT-5, Claude 4 und GLM-4.5 besteht zwar ein deutlicher Abstand, aber im Vergleich zu anderen Open-Weight-Modellen ist die Leistung recht ordentlich. Benchmarks sagen nicht alles, daher wird man die tatsächlichen Ergebnisse erst mit der Zeit beurteilen können.
    • Dieser Benchmark vermischt meiner Meinung nach Agent-Tools und Modelle, sodass die Ergebnisse inkonsistent sind. Aussagekräftig wäre es nur, die Agent-Tools festzuhalten und ausschließlich die Modelle zu vergleichen. Solche Benchmarks sind oft wenig vertrauenswürdig; besser ist es, ein Modell direkt zu verwenden und auf die eigenen Probleme anzuwenden.
    • Meinem Eindruck nach war die Qualität der Ergebnisse ziemlich gut.
    • Auch Unternehmen wie Anthropic und OpenAI neigen dazu, für bestimmte Benchmarks maßgeschneiderte Agenten zu entwickeln.
    • DeepSeek R1 ist bereits ein älteres Modell, das inzwischen ersetzt wurde; das Update wurde zur Kenntnis genommen.
    • Erst wenn der Preis nicht zu hoch ist, wird ein SOTA-Modell interessant genug, dass es sich nicht belastend anfühlt.
  • Schade, dass der frühere Rabatt in der Nebensaison verschwunden ist. Damals konnte man extrem viele Token erzeugen und zahlte trotzdem fast nichts. Trotzdem gibt es keine großen Beschwerden, weil das Preis-Leistungs-Verhältnis weiterhin sehr gut ist.
  • Laut den Benchmark-Ergebnissen von artificialanalysis.ai ist die Intelligenz ungefähr mit gpt-oss-120B vergleichbar, aber etwa 10-mal langsamer und 3-mal teurer.
    • Die angegebene Quelle zeigt derzeit nur einen einzelnen Provider. Genauer wäre es, beim selben Anbieter gpt-oss-120B und deepseek-chat-v3.1 zu vergleichen. Dabei sollte man berücksichtigen, dass gpt-oss-120B im Vorteil ist, weil es dafür bereits mehr aufgebaute und optimierte Anbieter gibt.
  • DeepSeek V3.1 ist ein hybrides Reasoning-Modell und stark bei Tool-Aufrufen (Task Tool Calling). Allerdings verwendet es häufig zufällig alte Tool-Formate statt des standardmäßigen JSON-Formats. Vermutlich enthält der V3-Trainingsdatensatz viele solcher Beispiele.
    • Es wird gefragt, ob schon strict Function Calling (Beta) ausprobiert wurde; dazu gibt es einen Guide.
    • Es wird gefragt, welches Format genau gemeint ist. JSON gilt doch als gut geeignet, um strukturierte Ausgaben von LLMs zu erzwingen, daher ist unklar, warum man überhaupt von JSON abweichen würde.
  • Es scheint hinter Qwen3 235B 2507 Reasoning (mein Lieblingsmodell) und gpt-oss-120B zurückzuliegen; siehe Benchmark-Link, Preisreferenz.
    • Ich halte die Modelle der Qwen3-2507-Reihe derzeit für das Beste im lokalen Einsatz. Mit einer GPU und ungefähr 32 GB RAM eignet sich das A3B-Modell sehr gut für Pair-Programming-Arbeit.
  • Unter den Modellen, die ich in den letzten sechs Monaten verwendet habe, verursacht DeepSeek V3.1 die meisten Halluzinationen.
    • Es wird gefragt, welche Context Length verwendet wurde.
    • Es wird gefragt, ob diesmal möglicherweise schlechte Daten hereingekommen sind.
  • Es liegt ungefähr zwischen V3 und Qwen3 Coder; siehe Vergleichslink.
    • Es wird gefragt, ob das Modell gpt-5 Mini kostenlos verfügbar ist.
  • Zwischen Open-Weight-Modellen wirkt es konkurrenzfähig, aber im Vergleich zu GPT-5 oder Claude besteht noch eine große Lücke.
  • Ich habe noch keine Belege dafür gesehen, dass es bei agentischen Coding-Tasks besser ist als GLM-4.5.
    • Es wird zurückgefragt, ob das alles ist oder ob es noch andere, bisher nicht gesehene Hinweise gibt.