DeepSeek – der stille Riese, der Chinas AI-Wettbewerb anführt

(chinatalk.media)

6 Punkte von GN⁺ 2025-01-01 | 2 Kommentare | Auf WhatsApp teilen

DeepSeek ist ein chinesisches AI-Startup, dessen kürzlich vorgestelltes Modell R1 in mehreren Reasoning-Benchmarks OpenAIs o1-Modell übertrifft
Obwohl die Bekanntheit noch gering ist, hat sich das Unternehmen als bemerkenswertes AI-Labor etabliert

Hintergrund und Strategie von DeepSeek

CEO Liang Wenfeng ist Gründer von High-Flyer, einst einer der vier größten Hedgefonds Chinas, und DeepSeek erhält umfassende Unterstützung von diesem Unternehmen
Statt auf kommerzielle Anwendungen konzentriert man sich auf die Entwicklung grundlegender Technologien und verfolgt die Strategie, alle Modelle als Open Source zu veröffentlichen
Es hat Zugriff auf den Computing-Cluster von High-Flyer und verfügt über mehr als 50.000 Hopper-GPUs
Der Fokus liegt auf der Entwicklung von AGI (Artificial General Intelligence). Die Forschung konzentriert sich auf strukturelle und algorithmische Innovationen, die potenziell zum Game Changer werden können

Wichtige technische Innovationen

Verbesserungen der Modellarchitektur
- MLA (Multi-head Latent Attention): reduziert den Speicherverbrauch auf 5–13 % des bisherigen Niveaus
- DeepSeekMoE (Sparse Mixture of Experts): senkt die Rechenkosten deutlich
Auslöser eines Preiskriegs
- Das Modell DeepSeek V2 veranschlagt Inferenzkosten von 1 RMB pro 1 Million Tokens und löste damit vor allem unter großen Tech-Unternehmen in China einen groß angelegten Preiskrieg aus
Internationale Bewertung
- DeepSeeks Paper wurde als „eines der besten Papers des Jahres“ bezeichnet und auch im Silicon Valley sowie in der internationalen AI-Community gelobt

DeepSeeks Forschungsphilosophie und Organisationskultur

Technologischer Idealismus: DeepSeek verfolgt technologischen Idealismus und stellt „richtig und falsch“ über „Gewinn und Verlust“. Das ist in Chinas Technologiewelt eine seltene Stimme
Bedeutung von Innovation: DeepSeek ist überzeugt, dass China nicht nur in der Rolle des Nachahmers bleiben darf, sondern am globalen Strom technologischer Innovation teilnehmen sollte
Autonome Organisationskultur: Statt Top-down-Management setzt man auf eine autonome und kreative Atmosphäre. Forschende können frei nach ihren Ideen zusammenarbeiten und Ressourcen nutzen
Talentgewinnung: Statt traditioneller Kriterien zählen vor allem Neugier und Leidenschaft; der Großteil des Teams besteht aus Absolventen lokaler Universitäten und jungen Forschenden

Vision für AGI

Forschungsschwerpunkt: DeepSeek untersucht die Realisierbarkeit von AGI mit Fokus auf Mathematik, Code-Generierung, Multimodalität und natürliches Sprachverständnis
Ausblick:
- Die Verwirklichung von AGI wird in einem Zeitraum von 2 bis 10 Jahren für möglich gehalten, wobei Mathematik und Code als ideales Testfeld für AGI gelten
- Das Endgame großer Modelle besteht darin, dass spezialisierte Unternehmen, die Foundation-Modelle und Services bereitstellen, an jedem Knoten der Lieferkette eine weitreichende Spezialisierung erreichen

Sicht auf Open Source und Innovation

Wert von Open Source: DeepSeek sieht seinen Wert nicht darin, technologische Überlegenheit in Closed Source zu suchen, sondern darin, das Technologie-Ökosystem aufzubauen und weiterzuentwickeln
Vision für Chinas AI-Ökosystem: Man möchte dazu beitragen, dass China über Anwendungsinnovation hinaus technologische Innovation von 0 auf 1 erreicht

Fazit

DeepSeek geht einen anderen Weg als traditionelle chinesische AI-Startups
Statt kommerzieller Anwendungen konzentriert man sich auf technologische Innovation und die Verwirklichung von AGI und will Teil des globalen Stroms technologischer Innovation werden
Dieser Ansatz dürfte die künftige Entwicklungsrichtung von Chinas AI maßgeblich beeinflussen

2 Kommentare

xguru 2025-01-03

Deepseek V3 zeigte in Benchmarks zum Test auf Overfitting eine schwache Leistung

GN⁺ 2025-01-01

Hacker-News-Kommentare

Die GPU-Beschränkungen haben ein Umfeld geschaffen, in dem chinesische Entwickler innovativer sein und mit weniger Ressourcen mehr erreichen müssen
- Lob für das Deepseek-Team
Das Lob für Deepseek ist interessant
- Es gibt strukturelle und grundlegende Gründe, warum Deepseek andere Modelle nicht deutlich übertreffen kann
  - Der Handelskrieg zwischen den USA und China könnte die Verfügbarkeit von Rechenkapazität für Deepseek benachteiligen
  - Die chinesische Zensur schränkt Deepseeks Datensammlung und Ausgaben bis zu einem gewissen Grad ein
  - Da Deepseek Open Source ist, können andere Modelle es leicht kopieren
- Gemini, ChatGPT, Deepseek und Claudie werden regelmäßig genutzt, und Deepseek ist weder besonders besser noch schlechter als andere Modelle
- Es würde interessieren, warum manche glauben, dass Deepseek das LLM-Feld vollständig dominieren wird
Es besteht die Überzeugung, dass China mit seiner wirtschaftlichen Entwicklung auch zu einem Beitragenden werden sollte
- In den vergangenen 30 Jahren hat das Land sich nicht substanziell an IT-Innovationen beteiligt
- Skalierungsgesetze wurden so behandelt, als könne man sich auf Moores Gesetz verlassen und einfach auf bessere Hardware und Software warten
Deepseek war seit letztem Jahr in der Open-Source-LLM-Community ein auffälliger Name
- Im Vergleich zu anderen chinesischen LLM-Akteuren wurden weniger Marketingkosten eingesetzt
Es ist überraschend, dass es keine Erwähnung der Kombination aus klassischer symbolischer KI und modernen ML-Versionen gibt
China hat starke Anreize, Grundlagenforschung zu betreiben, um die GPU-Abhängigkeit zu durchbrechen
- Hoffentlich greifen dafür nicht gegenseitig Mathematiker im Namen der Wissenschaft an
Einer der Gründe für die günstige API ist, dass angegeben wurde, API-Daten für das Training zu verwenden
- OpenAI und Claude sagen, dass sie Daten bei Nutzung der API nicht für das Training verwenden
Es besteht der Wunsch, dass der Wettbewerb zwischen AI-Unternehmen gesund weitergeht
- Es wird gehofft, dass weiterhin Technik und Papers geteilt werden, damit sich insgesamt alles verbessert
Es ist beeindruckend, dass DeepSeek mit 10-mal weniger Ressourcen eine Leistung auf dem Niveau von o1 und Claude erreicht hat
- Für die nächste Stufe von ML sind bessere Algorithmen und Ansätze nötig
Interessante (Fehl-)Verwendung des Wortes "catfish"
- Anders als in der allgemein verstandenen Bedeutung

DeepSeek – der stille Riese, der Chinas AI-Wettbewerb anführt

Hintergrund und Strategie von DeepSeek

Wichtige technische Innovationen

DeepSeeks Forschungsphilosophie und Organisationskultur

Vision für AGI

Sicht auf Open Source und Innovation

Fazit

Verwandte Beiträge

2 Kommentare

Hacker-News-Kommentare