DeepSeeks Weg zur Open-Source-Freigabe seiner Inference Engine

(github.com/deepseek-ai)

8 Punkte von GN⁺ 2025-04-15 | 1 Kommentare | Auf WhatsApp teilen

Das DeepSeek-Team hat seine Pläne vorgestellt, die interne Inference Engine (DeepSeek Inference Engine) an Open Source zurückzugeben
Die bestehende Inference Engine basiert auf vLLM, und angesichts der steigenden Nachfrage nach der Bereitstellung der Modelle DeepSeek-V3 und R1 wird eine Freigabe erwogen
Eine vollständige Veröffentlichung ist wegen bestehendem Code, Infrastruktur-Abhängigkeiten und Wartungsaufwand schwierig; stattdessen erfolgt ein Kurswechsel hin zu modularen Beiträgen auf Funktionsbasis
Künftig will man eng mit der Open-Source-Community zusammenarbeiten, um Performance-Optimierungen und wiederverwendbare Funktionen zu teilen
DeepSeek will sich aktiv für die Optimierung der Inferenz und die Synchronisierung des Day-0-Supports mit der Community bei Model-Releases einsetzen

DeepSeeks Weg zur Open-Source-Freigabe seiner Inference Engine

Reaktionen auf die Open Source Week und nachfolgende Beiträge

Während der jüngsten Open Source Week wurden mehrere Bibliotheken als Open Source veröffentlicht
Die positive Resonanz aus der Community führte zu aktiver Zusammenarbeit, Diskussionen und Bugfixes
Dies war der Auslöser für die Entscheidung, auch DeepSeeks interne Inference Engine als Open Source zu teilen

Technische Grundlage

DeepSeeks Trainings-Framework basiert auf PyTorch
Die Inference Engine wurde auf Basis eines frühen Forks des vLLM-Projekts entwickelt und enthält viele auf DeepSeek-Modelle zugeschnittene Anpassungen

Praktische Einschränkungen bei einer vollständigen Open-Source-Veröffentlichung

Unterschiede in der Codebasis: Ausgangspunkt war ein mehr als ein Jahr alter vLLM-Fork; die Struktur ist ähnlich, wurde aber erheblich verändert
Abhängigkeit von interner Infrastruktur: Starke Kopplung an DeepSeeks eigene Infrastruktur wie Cluster-Management-Tools erschwert die externe Nutzung
Begrenzte Wartungsressourcen: Als kleines Forschungsteam fehlen die Kapazitäten, ein großes Open-Source-Projekt dauerhaft zu betreuen

Alternative: Zusammenarbeit mit bestehenden Open-Source-Projekten

Künftig sind Beiträge in folgende Richtung geplant:

Extraktion modularer Funktionen: Wiederverwendbare Komponenten sollen in unabhängige Bibliotheken ausgelagert und beigetragen werden
Teilen von Performance-Optimierungen: Leistungsverbesserungen und Designideen aus der internen Implementierung sollen in bestehende Open-Source-Projekte einfließen

Dank an die Community und Vision

Ohne die Open-Source-Community wäre Fortschritt in der AGI-Entwicklung nicht möglich gewesen
Betriebssysteme, Sprachen, ML-Frameworks und Inference Engines bilden als Open-Source-Ökosystem die Grundlage für AI-Innovationen
DeepSeek will sich gemeinsam mit der Community kontinuierlich dafür einsetzen, dass die Vorteile von AGI der gesamten Menschheit zugutekommen

> [!NOTE]
> Dieser Beitrag ist eine Erläuterung der Open-Source-Strategie für die Codebasis der DeepSeek Inference Engine.
> Im Zusammenhang mit künftigen Model-Veröffentlichungen will DeepSeek die Zusammenarbeit mit der Open-Source-Community und Hardware-Partnern weiter ausbauen.
> Insbesondere sollen Inferenz-bezogene Technologien vor dem Model-Release vorab geteilt und abgestimmt werden, damit Day-0-Support für SOTA auf verschiedenster Hardware von Beginn an möglich ist.

1 Kommentare

GN⁺ 2025-04-15

Hacker-News-Kommentare

Im März übernahm vLLM die Verbesserungen aus dem DeepSeek-Paper, wodurch sich die DeepSeek-Leistung in vLLM v0.7.3 um mehr als das Dreifache verbesserte
- Dennoch gibt es weiterhin viel Raum für Verbesserungen
- Mit vLLM wurden Benchmarks von 5K Token/s mit dem ShareGPT-Datensatz und 12K Token/s mit random 2000/100 durchgeführt
- Laut dem Überblick über das DeepSeek-V3/R1-Inferenzsystem liefert jeder H800-Knoten beim Prefilling durchschnittlich 73,7k Token/s Eingabe (einschließlich Cache-Treffern) oder beim Decoding 14,8k Token/s Ausgabe
- DeepSeek setzt zwar eine andere Inferenzarchitektur ein, aber das zeigt, dass es noch viel Verbesserungspotenzial gibt
- Es wird auf mehr Open Source gehofft
Zustimmung zum Punkt der Codebasis-Abzweigung
- Auf Basis eines frühen Forks von vLLM wurde es für DeepSeek-Modelle angepasst, wodurch es schwer skalierbar wurde
- Der Ansatz, wartbare Sub-Libraries auszugliedern und Informationen direkt zu teilen, ist ein guter Weg, mit der Community zusammenzuarbeiten
- Es gibt Hindernisse, aber sie wählen nicht den einfachen Weg, nichts beizutragen
- Es wäre vielleicht besser, nur Informationen über die Technik zu teilen, aber es ist dennoch Wissensaustausch
- Es scheint einfacher zu sein, es nicht zu tun
- Dafür gebührt ihnen Lob
Motivation kommerzieller KI-Unternehmen, Forschungsergebnisse und Know-how zu teilen
- Warum Google die Transformer-Architektur veröffentlicht hat
- Sie möchten vielleicht etwas Gutes für die Menschheit tun und den Fortschritt fördern
- Es stellt sich die Frage, wie die Unternehmensführung Handlungen vornehmen kann, die dem kommerziellen Interesse zuwiderlaufen
- Es wird gefragt, ob es eine kommerzielle Logik gibt, die das Teilen von Informationen und geistigem Eigentum fördert
"Es gibt etwas Interessantes für die Open-Source-Community, aber um es außerhalb des Unternehmens lauffähig zu machen, ist viel Aufräumarbeit nötig, und es gibt kein Personal, das es nach der Veröffentlichung angemessen pflegt"
- Viele Unternehmen befinden sich in genau dieser Lage
- Es wäre wünschenswert, es als Open Source freizugeben, zusammen mit einem Hinweis wie: "Wir werden das nicht pflegen, aber ihr könnt es gern forken"
Es wurden gute Engineering-Arbeiten von DeepSeek gesehen
- Hoffentlich geht das so weiter
Es wird gefragt, ob China als Reaktion auf die Dominanz der USA strategisch in großem Umfang Open-Source-KI-Tools, Modelle usw. veröffentlicht
- Das wird als gut für den Markt angesehen
tl;dr "Der vLLM-Fork ist unwartbar geworden, und nun soll er öffentlich neu aufgebaut werden"
Es wirkt wie eine Möglichkeit, Zensur umzusetzen

DeepSeeks Weg zur Open-Source-Freigabe seiner Inference Engine