- DeepSeek ist ein chinesisches AI-Startup, dessen kürzlich vorgestelltes Modell R1 in mehreren Reasoning-Benchmarks OpenAIs o1-Modell übertrifft
- Obwohl die Bekanntheit noch gering ist, hat sich das Unternehmen als bemerkenswertes AI-Labor etabliert
Hintergrund und Strategie von DeepSeek
- CEO Liang Wenfeng ist Gründer von High-Flyer, einst einer der vier größten Hedgefonds Chinas, und DeepSeek erhält umfassende Unterstützung von diesem Unternehmen
- Statt auf kommerzielle Anwendungen konzentriert man sich auf die Entwicklung grundlegender Technologien und verfolgt die Strategie, alle Modelle als Open Source zu veröffentlichen
- Es hat Zugriff auf den Computing-Cluster von High-Flyer und verfügt über mehr als 50.000 Hopper-GPUs
- Der Fokus liegt auf der Entwicklung von AGI (Artificial General Intelligence). Die Forschung konzentriert sich auf strukturelle und algorithmische Innovationen, die potenziell zum Game Changer werden können
Wichtige technische Innovationen
- Verbesserungen der Modellarchitektur
- MLA (Multi-head Latent Attention): reduziert den Speicherverbrauch auf 5–13 % des bisherigen Niveaus
- DeepSeekMoE (Sparse Mixture of Experts): senkt die Rechenkosten deutlich
- Auslöser eines Preiskriegs
- Das Modell DeepSeek V2 veranschlagt Inferenzkosten von 1 RMB pro 1 Million Tokens und löste damit vor allem unter großen Tech-Unternehmen in China einen groß angelegten Preiskrieg aus
- Internationale Bewertung
- DeepSeeks Paper wurde als „eines der besten Papers des Jahres“ bezeichnet und auch im Silicon Valley sowie in der internationalen AI-Community gelobt
DeepSeeks Forschungsphilosophie und Organisationskultur
- Technologischer Idealismus: DeepSeek verfolgt technologischen Idealismus und stellt „richtig und falsch“ über „Gewinn und Verlust“. Das ist in Chinas Technologiewelt eine seltene Stimme
- Bedeutung von Innovation: DeepSeek ist überzeugt, dass China nicht nur in der Rolle des Nachahmers bleiben darf, sondern am globalen Strom technologischer Innovation teilnehmen sollte
- Autonome Organisationskultur: Statt Top-down-Management setzt man auf eine autonome und kreative Atmosphäre. Forschende können frei nach ihren Ideen zusammenarbeiten und Ressourcen nutzen
- Talentgewinnung: Statt traditioneller Kriterien zählen vor allem Neugier und Leidenschaft; der Großteil des Teams besteht aus Absolventen lokaler Universitäten und jungen Forschenden
Vision für AGI
- Forschungsschwerpunkt: DeepSeek untersucht die Realisierbarkeit von AGI mit Fokus auf Mathematik, Code-Generierung, Multimodalität und natürliches Sprachverständnis
- Ausblick:
- Die Verwirklichung von AGI wird in einem Zeitraum von 2 bis 10 Jahren für möglich gehalten, wobei Mathematik und Code als ideales Testfeld für AGI gelten
- Das Endgame großer Modelle besteht darin, dass spezialisierte Unternehmen, die Foundation-Modelle und Services bereitstellen, an jedem Knoten der Lieferkette eine weitreichende Spezialisierung erreichen
Sicht auf Open Source und Innovation
- Wert von Open Source: DeepSeek sieht seinen Wert nicht darin, technologische Überlegenheit in Closed Source zu suchen, sondern darin, das Technologie-Ökosystem aufzubauen und weiterzuentwickeln
- Vision für Chinas AI-Ökosystem: Man möchte dazu beitragen, dass China über Anwendungsinnovation hinaus technologische Innovation von 0 auf 1 erreicht
Fazit
- DeepSeek geht einen anderen Weg als traditionelle chinesische AI-Startups
- Statt kommerzieller Anwendungen konzentriert man sich auf technologische Innovation und die Verwirklichung von AGI und will Teil des globalen Stroms technologischer Innovation werden
- Dieser Ansatz dürfte die künftige Entwicklungsrichtung von Chinas AI maßgeblich beeinflussen
2 Kommentare
Deepseek V3 zeigte in Benchmarks zum Test auf Overfitting eine schwache Leistung
Hacker-News-Kommentare
Die GPU-Beschränkungen haben ein Umfeld geschaffen, in dem chinesische Entwickler innovativer sein und mit weniger Ressourcen mehr erreichen müssen
Das Lob für Deepseek ist interessant
Es besteht die Überzeugung, dass China mit seiner wirtschaftlichen Entwicklung auch zu einem Beitragenden werden sollte
Deepseek war seit letztem Jahr in der Open-Source-LLM-Community ein auffälliger Name
Es ist überraschend, dass es keine Erwähnung der Kombination aus klassischer symbolischer KI und modernen ML-Versionen gibt
China hat starke Anreize, Grundlagenforschung zu betreiben, um die GPU-Abhängigkeit zu durchbrechen
Einer der Gründe für die günstige API ist, dass angegeben wurde, API-Daten für das Training zu verwenden
Es besteht der Wunsch, dass der Wettbewerb zwischen AI-Unternehmen gesund weitergeht
Es ist beeindruckend, dass DeepSeek mit 10-mal weniger Ressourcen eine Leistung auf dem Niveau von o1 und Claude erreicht hat
Interessante (Fehl-)Verwendung des Wortes "catfish"