2 Punkte von GN⁺ 2025-09-30 | 1 Kommentare | Auf WhatsApp teilen
  • Ein experimentelles Modell auf Basis von V3.1-Terminus, das DeepSeek Sparse Attention (einen Sparse-Attention-Mechanismus) einführt, um die Effizienz bei der Verarbeitung langer Kontexte zu erhöhen
  • Sparse Attention unterstützt Sparse-Operationen in feiner Granularität und verbessert dadurch die Trainings- und Inferenz-Effizienz deutlich, während die Ausgabequalität auf einem ähnlichen Niveau wie zuvor bleibt
  • In wichtigen Benchmarks zeigte es eine ähnliche oder teilweise verbesserte Leistung gegenüber V3.1-Terminus, insbesondere bei Coding, dem Lösen mathematischer Probleme und der Nutzung agentischer Tools
  • Für Forschung und praktische Nutzung wurden zusammen mit dem Modell auch verwandte Kernel wie TileLang, DeepGEMM, FlashMLA veröffentlicht; verfügbar sind sowohl gut lesbare Design-Versionen als auch leistungsstarke CUDA-Kernel
  • Es lässt sich direkt in verschiedenen Umgebungen wie HuggingFace, SGLang und vLLM ausführen und dürfte damit eine Grundlage für die Forschung an der nächsten Generation effizienter Transformer-Architekturen und deren Einsatz in der Praxis bilden

Einführung

  • DeepSeek-V3.2-Exp ist ein Vorstufenmodell für eine Architektur der nächsten Generation, entwickelt auf Basis von V3.1-Terminus
  • Das zentrale Merkmal ist der Einsatz von DeepSeek Sparse Attention (DSA), das effiziente Inferenz und effizientes Training bei langen Kontexten ermöglicht
  • Ziel ist die Verbesserung der Recheneffizienz und die Optimierung der Verarbeitung erweiterter Textsequenzen

Zentrale Ergebnisse

  • DSA realisiert erstmals hochpräzise Sparse Attention, steigert damit die Effizienz und bewahrt zugleich die Qualität der Modellausgaben
  • Die Trainingskonfiguration wurde identisch zu V3.1-Terminus gehalten, um die Vergleichbarkeit der Leistung verlässlich sicherzustellen
  • Ergebnisse in öffentlichen Benchmarks:
    • Reasoning: MMLU-Pro(85.0 vs 85.0), AIME 2025(88.4 vs 89.3), Codeforces(2046 vs 2121)
    • Agentic Tool Use: BrowseComp(38.5 vs 40.1), SimpleQA(96.8 vs 97.1)
    • Insgesamt wurde eine gleichwertige oder leicht verbesserte Leistung bestätigt

Open-Source-Kernel

  • TileLang: stellt gut lesbare Kernel-Beispiele für Forschungszwecke bereit
  • DeepGEMM: Veröffentlichung leistungsstarker CUDA-Kernel und eines Indexer-Logits-Kernels
  • FlashMLA: stellt Sparse-Attention-Kernel bereit

Ausführung

  • HuggingFace: Nach der Modellkonvertierung kann interaktiver Chat mit torchrun ausgeführt werden
  • SGLang: Docker-Images werden bereitgestellt (für H200, MI350 und NPUs)
  • vLLM: Day-0-Support, offizielle Recipe-Dokumentation verfügbar

Lizenz

  • Veröffentlicht auf Basis der MIT License

1 Kommentare

 
GN⁺ 2025-09-30
Hacker-News-Kommentare
  • Als Nebeneffekt fällt auf, dass kaum jemand über den Preis spricht; beeindruckend ist, dass mit der schnellen Skalierung der Modelle auch die Preise sinken, was für die Verbreitung von AI genauso wichtig ist wie die Intelligenz der Modelle. Soweit bekannt gibt es kein grundlegendes Gesetz, das fallende Preise verhindern würde. Derzeit wird es mit jeder Hardware-Generation deutlich schneller und günstiger, ähnlich wie bei Moore’s Law (oder dem Entwicklungszyklus von AI-/Nvidia-Chips). In einem Jahr könnte man also ChatGPT-5 zum halben Preis nutzen. (Leistungsstärkere Modelle sind natürlich teurer, gemeint ist der Preis pro Token.)

    • Das unterschätzt den Preisrückgang erheblich. Laut einer Studie von Andreessen Horowitz sind die Inferenzkosten in den zwei Jahren seit dem Erscheinen von GPT-3.5 jährlich um den Faktor 10 gesunken Quelle. Selbst in einem Szenario mit verlangsamtem Wachstum wären daher in den nächsten fünf Jahren Rückgänge um das 1.000-Fache möglich. Der aktuelle Preisverfall hängt nicht direkt mit Moore’s Law zusammen, sondern mit verschiedenen Innovationen wie Modelloptimierung, der Lieferkette für High-Bandwidth Memory und Investitionen in die Strominfrastruktur.
  • Es ist erfreulich, dass chinesische Open-Source-Modelle sich weiter verbessern und günstiger werden. Das Modell war schon billig, und nun wurden die API-Preise nochmals um 50 % gesenkt: Input $0.28/M, (bei Cache-Treffer $0.028/M), Output $0.42/M.

    • Wenn die Preise gesenkt wurden, würde mich interessieren, wie hoch sie vorher waren. Ich hatte eher den Eindruck, dass sie zuletzt gestiegen waren.

    • Preissenkungen sind gut, aber ich frage mich, wie dauerhaft dieses Niveau ist. Früher war es sehr billig, dann gab es einmal einen starken Anstieg, und jetzt ist es wieder gesunken.

  • Link zur Vorstellung des Modells Deepseek v3.2-exp

    • Merkwürdigerweise ist bei diesem Modell angegeben, dass es „mit Daten trainiert“ wird („Dieser Anbieter kann Prompts und Ergebnisse zum Training neuer Modelle verwenden. Dieser Anbieter ist derzeit deaktiviert, kann aber bei Änderungen der Datenrichtlinie wieder aktiviert werden.“). Normalerweise verwenden kostenpflichtige Modelle Eingabedaten kaum fürs Training. Daher stellt sich die Frage, ob OpenRouter das falsch kennzeichnet oder ob Deepseek tatsächlich Nutzerdaten fürs Training verwendet.

    • Ich frage mich, ob Open Router wirklich Open Source ist. Das „Haupt“-Repository ist archiviert, und es gibt nur kleine Projekte. Sind in Wirklichkeit nur die API-Client-Bindings Open Source und der eigentliche Routing-Service geschlossen?

  • Wenn ich das richtig verstanden habe, ist die Besonderheit dieses Modells, dass es zwar darauf trainiert wird, die gesamte Attention-Verteilung nachzuahmen, aber nur die wichtigen Top-k-Tokens (hier k=2048) filtert, sodass die Rechenkomplexität der [query, key]-Berechnung auch bei wachsendem Kontextfenster nicht linear steigt, sondern konstant bleibt. (Im eigentlichen Graphen bleibt zwar ein Schritt, bei dem der Indexer einmal grob über den gesamten Kontext geht, also ist es technisch gesehen O(L).)

  • Das große Problem solcher „günstigen“ Modelle ist, dass die tatsächlichen Kosten in realen Einsatzumgebungen, besonders in Agent-Workflows, sogar höher sein können, wenn der Anbieter kein Caching unterstützt. Die Kosten für Input-/Output-Tokens sind dann kaum relevant; den Großteil machen Cache-Treffer bzw. Wiederverwendungskosten über alle Tokens hinweg aus. Dann kann es günstiger oder preislich ähnlich sein, einfach GPT-5 zu verwenden und dafür ein leistungsfähigeres Modell zu bekommen.

    • DeepSeek unterstützt Caching, und bei Cache-Treffern betragen die Kosten ein Zehntel eines Cache-Miss. Konkret: Cache-Treffer $0.028/M, Cache-Miss $0.28/M, Output $0.42/M Quelle

    • Soweit ich wusste, unterstützt dieses Modell Caching. Auf der Preisübersichtsseite steht auch ausdrücklich, dass Input-Tokens bei Cache-Treffern $0.028 kosten.

    • Du erklärst es zum schwerwiegenden Problem und hängst dann eine Bedingung daran (IF). Die DeepSeek-API unterstützt offiziell Caching. Bitte konstruiere kein Problem, wo keines ist. Cache-Hinweis

  • Erstaunlich ist, dass die Benchmarks fast unverändert geblieben sind, während die Kosten drastisch gesunken sind.

  • Interessant ist, dass die Modellentwicklung immer noch so schnell voranschreitet, dass spezialisierte Hardware für einzelne Modelle nicht stark in den Vordergrund tritt und die wichtigsten Skalierungsvorteile weiterhin auf allgemeinen Plattformen entstehen.

    • Trotzdem sollte man auch architekturoptimierte Chips wie Google TPU, Groq und Cerebras erwähnen. Das sind keine vollständig spezialisierten Lösungen, aber Beispiele für Optimierung innerhalb allgemeinerer Strukturen.
  • Deep Sparse Attention scheint bei strukturierten, langen Reasoning-Aufgaben wie Code tatsächlich hilfreich sein zu können.

  • Wirklich beeindruckend. Ich frage mich, wie das bei realen Daten funktioniert, bei denen feine Unterschiede wichtig sind. Und ich würde sehr gern wissen, ob es auch in Szenarien jenseits eines 128K-Kontextfensters getestet wurde.

  • Es ist cool, ein Beispiel dafür zu sehen, dass Sparse Attention in einer realen Umgebung eingesetzt wird.