6 Punkte von GN⁺ 2025-12-02 | 1 Kommentare | Auf WhatsApp teilen
  • DeepSeek-V3.2 ist ein Open-Source-LLM, das hohe Recheneffizienz sowie Inferenz- und Agentenleistung kombiniert
  • Die neue DeepSeek Sparse Attention (DSA)-Struktur erhält die Leistung auch bei langen Kontexten und reduziert den Rechenaufwand deutlich
  • Durch ein skalierbares Reinforcement-Learning-(RL)-Framework wird eine Leistung auf GPT-5-Niveau erreicht, die High-End-Version erreicht eine gleichwertige Inferenzfähigkeit wie Gemini-3.0-Pro
  • Eine großskalierte Agenten-Task-Synthese-Pipeline erzeugt 1.800 Umgebungen und 85.000 Prompts, was die Generalisierung und Ausführungsfähigkeit in komplexen Interaktionsumgebungen verbessert
  • Open-Modelle schließen den Abstand zu geschlossenen Modellen und positionieren sich als kosteneffiziente Alternative

DeepSeek-V3.2-Überblick

  • DeepSeek-V3.2 wurde als Modell entworfen, das die Grenzen der Inference- und Agentenleistung von Open-Source-LLMs überwinden soll
    • Es setzt auf drei Kerntechnologien: DeepSeek Sparse Attention (DSA), ein skalierbares Reinforcement-Learning-Framework und eine großskalierte Agenten-Task-Synthese-Pipeline
  • Die leistungsstärkere Variante DeepSeek-V3.2-Speciale übertrifft GPT-5 und verfügt über eine auf dem Niveau von Gemini-3.0-Pro liegende Inferenzfähigkeit
    • Bei der 2025 International Mathematical Olympiad (IMO) und der International Olympiad in Informatics (IOI) wurden Ergebnisse auf Goldmedaillen-Niveau erzielt
  • Durch gleichzeitige Steigerung von Effizienz und Leistung von Open-Modellen wird die Lücke zu Closed-Source-Modellen verringert

Grenzen offener Modelle und Verbesserungsansätze

  • Für den Rückstand offener Source-LLMs gegenüber Closed-Source-Modellen werden drei Hauptgrenzen genannt
    • Ineffizienz des Basis-Attention-Mechanismus, wodurch lange Sequenzen mit hohem Rechenaufwand verarbeitet werden müssen
    • Ressourcenmangel in der Post-Training-Phase, was zu Leistungseinbußen bei schwierigen Aufgaben führt
    • fehlende Generalisierung und Ausführungsfähigkeit von Agenten, was den Einsatz in realen Anwendungen begrenzt
  • DeepSeek-V3.2 adressiert diese Probleme mit einer effizienten Attention-Struktur, einem skalierbaren RL-Lernansatz und einer integrativen Tool-Use-Reasoning-Pipeline

DeepSeek Sparse Attention (DSA)

  • DSA besteht aus einem lightning indexer und einem feingranularen Token-Selektionsmechanismus
    • Der lightning indexer arbeitet mit FP8-Genauigkeit und bestimmt für jedes Query-Token die Top-k-Key-Value-Paare, die ausgewählt werden sollen
    • Dadurch reduziert sich die Komplexität von O(L²) auf O(Lk), was die effiziente Verarbeitung auch bei langen Kontexten ermöglicht
  • Eine MLA-basierte Implementierung sorgt für Kompatibilität mit dem bisherigen DeepSeek-V3.1-Terminus
  • Es werden zwei aufeinanderfolgende Lernphasen durchgeführt
    • Im Dense-Warm-up-Schritt wird der Indexer initialisiert
    • Im Sparse-Training-Schritt wird das Gesamtmodell an das DSA-Muster angepasst und auf 943,7B Tokens weitertrainiert

Leistungsbewertung und Effizienz

  • DeepSeek-V3.2-Exp steigert die Effizienz bei der Verarbeitung langer Kontexte deutlich, während ohne Leistungseinbußen Ergebnisse auf dem Niveau von DeepSeek-V3.1-Terminus gehalten werden
  • In unabhängigen Benchmarks wie AA-LCR3 und Fiction.liveBench wurden gegenüber der Vorgängerversion verbesserte Inferenzwerte erzielt
  • Basierend auf einem H800-GPU-Cluster wurden die Kosten pro Token deutlich gesenkt und die End-to-End-Geschwindigkeit deutlich verbessert

Post-Training und RL-Architektur

  • Specialist Distillation und Mixed RL werden kombiniert
    • Sechs Fachdomänenmodelle (Mathematik, Programmierung, logisches Schließen, General-Agent, Code-Agent, Search-Agent) werden mit RL trainiert
    • Aus den Daten jedes Fachmodells werden Destillationsschritte durchgeführt, um einen finalen Checkpoint zu erzeugen
  • Die Group Relative Policy Optimization (GRPO)-Algorithmen werden genutzt, um Inferenz-, Agenten- und Alignment-Training zu integrieren
    • Dabei werden Reward Model, Längenstrafe und Sprachkonsistenz-Belohnung kombiniert
  • Für DeepSeek-V3.2-Speciale wird zusätzlich DeepSeekMath-V2-Datenmaterial und ein entsprechendes Belohnungsschema zur Stärkung mathematischer Beweistechniken eingesetzt

Stabilisierung der Verstärkung (Scaling GRPO)

  • Durch Unbiased KL Estimate wird eine stabile Konvergenz erreicht
    • Das Problem instabiler Gradienten des bisherigen K3-Schätzers wird behoben
  • Mit Off-Policy Sequence Masking werden negative Beispiele mit hohem Policy-Mismatch maskiert, wodurch die Trainingsstabilität steigt
  • Mit Keep Routing bleibt die Konsistenz des Routings in Mixture-of-Experts-Modellen erhalten
  • Keep Sampling Mask verhindert bei top-p- und top-k-Sampling das Auseinanderdriften der Aktionsräume zwischen Policies

Tool-Use-Inferenz (Thinking in Tool-Use)

  • Mit Thinking Context Management wird vermieden, dass bei Tool-Aufrufen unnötig neu überlegt wird
    • Frühere Inferenzinhalte werden nur gelöscht, wenn neue Nutzerbotschaften eintreffen
    • Der Verlauf von Tool-Aufrufen bleibt erhalten, wodurch ein effizientes Kontextmanagement möglich ist
  • In der Cold-Start-Phase werden Inferenz- und Agentendaten kombiniert
    • Inferenzdaten markieren den Lösungsweg mit <think></think>-Tags
    • Ein System-Prompt mit Tool-Aufrufen legt die Basis für integriertes Training
  • Über die großskalige Agenten-Aufgabensynthese werden 1.800 Umgebungen und 85.000 Prompts generiert
    • Es findet RL-Training mit realen Umgebungen durch, etwa mit Web-Such-API, Code-Ausführungstools und Jupyter Notebook
    • Der Search Agent automatisiert per Multi-Agent-Pipeline die Generierung von Fragen, Validierung und Belohnungsbewertung
    • Ein hybrides Reward-Modell optimiert sowohl Faktentreue als auch praktische Nützlichkeit

Schlussfolgerung

  • DeepSeek-V3.2 überwindet mit seiner Kombination aus effizienter Attention-Struktur und skalierbarem RL-Training die bisherigen Grenzen offener Modelle
  • In der integrierten Inferenz- und Agentenleistung reduziert es den Abstand zu Closed-Source-Modellen deutlich und etabliert sich als kosteneffiziente Alternative
  • Es gilt als Beispiel für eine nachhaltige Weiterentwicklung leistungsstarker Open-Source-LLMs

1 Kommentare

 
GN⁺ 2025-12-02
Hacker-News-Kommentare
  • Beeindruckend ist, dass sie ihre Kosteneffizienz weiter verbessern und den Entwicklungsprozess öffentlich teilen.
    Hoffentlich tragen solche Bemühungen dazu bei, AI-Monopole zu verhindern.

    • Allerdings lässt sich nicht sagen, wer bei der Kosteneffizienz tatsächlich „gewinnt“, weil wir die Profit-und-Loss-Strukturen der einzelnen Unternehmen nicht kennen.
    • Stimme zu, aber ich glaube nicht, dass ihre Absichten nur auf ein einziges Ziel ausgerichtet sind.
    • Solange es nicht vollständig auf einer einzelnen GPU läuft, ist niemand der wahre Sieger in Sachen Kosteneffizienz.
    • Wahrscheinlich werden sie so lange weiter offenlegen, bis sie ein Modell haben, das der Konkurrenz deutlich überlegen ist. Aber wenn sie auch nach einem echten Vorsprung weiter offenlegen, wäre ich wirklich beeindruckt.
    • Allerdings ist es naiv, ein vom chinesischen Kommunistischen Partei unterstütztes Unternehmen als rein wohlmeinend zu betrachten. Dahinter gibt es sicher noch andere Ziele.
  • Wenn offene Modelle mit kommerziellen Modellen konkurrieren können, frage ich mich, wie Unternehmen wie Google, Anthropic und OpenAI mit AI überhaupt Geld verdienen sollen.
    Der Grund, warum Open Source früher scheiterte, war, dass Qualität und funktionale Tiefe hinter geschlossenen Systemen zurückblieben, aber jetzt scheint die Leistung in eine Plateauphase eingetreten zu sein.
    Am Ende wird langfristig wohl die Seite gewinnen, die über die günstigste Energieinfrastruktur verfügt.

    • Laut einem internen Google-Dokument gibt es bei „AI/LLM keinen Burggraben (moat)“. Aber auch ohne die Modelle selbst zu besitzen, kann man immer noch sehr profitabel sein, wenn man sie als SaaS oder MaaS anbietet.
      So wie Amazon etwa die MongoDB-API als Service anbietet, verdient man am Ende am Infrastrukturverbrauch.
      Die meisten Unternehmen haben nicht die Möglichkeiten, selbst ein SOTA-Modell zu hosten. Wenn man bedenkt, dass sie nicht einmal ihre E-Mail-Server selbst betreiben, ist das nachvollziehbar.
      Google hat den Transformer entwickelt, und OpenAI hat ChatGPT mit RLHF zum Erfolg gemacht, aber inzwischen steht wieder Googles AI-Übersichtsfunktion ganz oben in der Suche.
      Zugehöriges Dokument: Google “We have no moat, and neither does OpenAI”
    • Unternehmen vertrauen OpenAI oder Anthropic. Wichtig ist auch, dass es im Problemfall jemanden gibt, auf den man die Verantwortung abwälzen kann.
    • Wenn man günstige Energie im Weltraum sichern könnte, hätte Musk womöglich einen großen Vorteil im AI-Wettlauf. Er scheint geradezu besessen davon zu sein, auf dem Mond eine AI-Satellitenfabrik zu errichten.
    • Letztlich entscheidet eine Kombination aus UX, Lock-in und Vertrauen. Je tiefer eine AI auf persönliche Daten zugreift, desto eher bevorzugen Menschen eine vertraute Marke.
    • Mit dem reinen Modell selbst lässt sich kein Geld verdienen. Der eigentliche Wert liegt darin, Modelle in bereits monetarisierte Plattformen zu integrieren.
  • Dieses Modell soll nicht nur bei Benchmarks, sondern auch bei der Inferenz-Effizienz stark verbessert worden sein.
    Relevanter Link: Leistungsvergleich von Thomas Ip

    • Ich würde gern wissen, warum es so effizient ist.
  • Das Chat-Template von DeepSeek-V3.2 wurde stark verändert.
    Zuerst dachte ich, sie hätten ein neues Format entwickelt, aber von der Syntax her sieht es praktisch identisch mit dem Harmony-Format aus.
    In dem Fall wäre es verständlicher gewesen, von Anfang an klar anzugeben, dass es mit Harmony kompatibel ist.

  • Ich frage mich, warum es fast keine Modelle in der Größenordnung von 32–512 GB gibt und warum das Mac Studio M4 maximal 128 GB RAM hat.

    • Als Scherz erinnert mich das an „128 GB sollten genug sein“. Beim M5 Max hoffe ich auf mehr RAM.
  • Es ist cool, dass solche Modelle als Open Source veröffentlicht werden. Aber ich frage mich, ob sie selbst auf einem 20.000-Dollar-Rig mit vier RTX 5090 schnell genug laufen.

    • Auf einem 512-GB-Mac-Studio M3 Ultra sollen etwa 20 Token pro Sekunde möglich sein. Demo-Video
    • Große Modelle nutzt man realistischerweise eher in der Cloud mit Abrechnung pro Stunde oder pro Token. Man kann natürlich auch ein H100-Rack kaufen und selbst betreiben, aber Cloud-Nutzung ist viel effizienter.
    • Private Rigs sind inzwischen nicht mehr kosteneffizient. Wenn man GPU-, Strom- und Kühlungskosten einrechnet, ist es wohl sinnvoller, eine RTX Pro 6000 zu kaufen.
    • Die beiden Anbieter auf OpenRouter, die DeepSeek-V3.2 bereitstellen (einschließlich DeepSeek), kommen beide auf rund 28 tps. OpenRouter-Link
      Das stützt eher die Behauptung des ursprünglichen Kommentars, dass es für Consumer-Nutzung zu langsam ist.
    • Ich nutze selbst ein Rig mit sechs RTX 3090, aber ein Modell mit 685B Parametern ist viel zu langsam. Für angenehme Nutzung muss ich bei Modellen mit höchstens 144B bleiben. GLM 4.5 Air war dabei besonders gut.
  • In Tabelle 3 des Papers liegt DS-Speciale in fast allen Tests auf Platz 1 oder 2, erzeugt aber über 50 % mehr Tokens.

    • Manche logischen Schlussfolgerungsprobleme brauchen längere Gedankengänge. Das günstige DeepSeek konnte diesen Teil maximal ausreizen.
      Durch das parallele Erzeugen mehrerer Antworten und die Auswahl der finalen Antwort lässt sich Inferenzleistung mit Rechenressourcen skalieren.
  • Nach ein paar Stunden Nutzung wirkt es wie ein sehr solides und wettbewerbsfähiges Modell. Meiner Meinung nach besser als GLM4.6 und auch besser als Kimi K2. Ich freue mich auf v4.

  • Interessant ist, dass es sich um ein großes Frontier-Modell handelt, das unter der MIT-Lizenz veröffentlicht wurde.

  • Ich verstehe nicht ganz, nach welchen Maßstäben die amerikanische AI-Industrie bewertet wird. Chinesische Modelle sind deutlich günstiger und liefern fast die gleiche Leistung.

    • Chinesische Modelle sind überwiegend textzentriert, während US- und europäische Modelle auch Bild, Sprache und Video abdecken, was die Kosten erhöht.
      Außerdem sind die Benchmarks weitgehend gesättigt, sodass die Unterschiede klein wirken, aber an der Spitze kann schon 1 % Unterschied in der Praxis viel bedeuten.
      Auch auf meiner Metabench-Bestenliste schneiden chinesische Modelle gut ab, aber es gibt immer noch einen Abstand zur Spitzengruppe.
      Wegen der niedrigen Inferenzkosten sind chinesische Modelle im Bereich Preis-Leistung allerdings stark.
    • In realen Deployments ist die Infrastrukturgeschwindigkeit entscheidend. Auf OpenRouter sind chinesische Modelle nicht so schnell wie Claude, GPT oder Gemini.
      US-Unternehmen verkaufen also nicht nur Modelle, sondern zugleich eine weltweite Low-Latency-Infrastruktur. Das erklärt ihre hohe Bewertung.
      Zur Einordnung: Cerebras bietet derzeit ein sehr schnelles GLM 4.6 an.
    • Drittanbieter unterstützen kein Caching. Wenn Caching aktiviert würde, würden sich die Kosten US-amerikanischer Modelle auf etwa das Doppelte reduzieren und sie wären deutlich wettbewerbsfähiger.
    • Die Bewertungen amerikanischer Unternehmen basieren eher auf zukünftigem Potenzial als auf aktueller Leistung. Dabei wird in eine Situation investiert, in der das Verständnis für chinesische Forschung begrenzt ist.
      Vielleicht steckt auch die Annahme dahinter, dass DeepSeek verboten und Open-Source-Software in den USA blockiert wird.
    • Trotzdem: Hätten die USA den Wettbewerb nicht zuerst durch FOMO ausgelöst, hätte Chinas Strategie wahrscheinlich auch nicht so gut funktioniert.
      Künftig könnten sich Frontier-Modelle eher bei detaillierten Edge Cases differenzieren.