6 Punkte von GN⁺ 2025-01-01 | 2 Kommentare | Auf WhatsApp teilen
  • DeepSeek ist ein chinesisches AI-Startup, dessen kürzlich vorgestelltes Modell R1 in mehreren Reasoning-Benchmarks OpenAIs o1-Modell übertrifft
  • Obwohl die Bekanntheit noch gering ist, hat sich das Unternehmen als bemerkenswertes AI-Labor etabliert

Hintergrund und Strategie von DeepSeek

  • CEO Liang Wenfeng ist Gründer von High-Flyer, einst einer der vier größten Hedgefonds Chinas, und DeepSeek erhält umfassende Unterstützung von diesem Unternehmen
  • Statt auf kommerzielle Anwendungen konzentriert man sich auf die Entwicklung grundlegender Technologien und verfolgt die Strategie, alle Modelle als Open Source zu veröffentlichen
  • Es hat Zugriff auf den Computing-Cluster von High-Flyer und verfügt über mehr als 50.000 Hopper-GPUs
  • Der Fokus liegt auf der Entwicklung von AGI (Artificial General Intelligence). Die Forschung konzentriert sich auf strukturelle und algorithmische Innovationen, die potenziell zum Game Changer werden können

Wichtige technische Innovationen

  • Verbesserungen der Modellarchitektur
    • MLA (Multi-head Latent Attention): reduziert den Speicherverbrauch auf 5–13 % des bisherigen Niveaus
    • DeepSeekMoE (Sparse Mixture of Experts): senkt die Rechenkosten deutlich
  • Auslöser eines Preiskriegs
    • Das Modell DeepSeek V2 veranschlagt Inferenzkosten von 1 RMB pro 1 Million Tokens und löste damit vor allem unter großen Tech-Unternehmen in China einen groß angelegten Preiskrieg aus
  • Internationale Bewertung
    • DeepSeeks Paper wurde als „eines der besten Papers des Jahres“ bezeichnet und auch im Silicon Valley sowie in der internationalen AI-Community gelobt

DeepSeeks Forschungsphilosophie und Organisationskultur

  • Technologischer Idealismus: DeepSeek verfolgt technologischen Idealismus und stellt „richtig und falsch“ über „Gewinn und Verlust“. Das ist in Chinas Technologiewelt eine seltene Stimme
  • Bedeutung von Innovation: DeepSeek ist überzeugt, dass China nicht nur in der Rolle des Nachahmers bleiben darf, sondern am globalen Strom technologischer Innovation teilnehmen sollte
  • Autonome Organisationskultur: Statt Top-down-Management setzt man auf eine autonome und kreative Atmosphäre. Forschende können frei nach ihren Ideen zusammenarbeiten und Ressourcen nutzen
  • Talentgewinnung: Statt traditioneller Kriterien zählen vor allem Neugier und Leidenschaft; der Großteil des Teams besteht aus Absolventen lokaler Universitäten und jungen Forschenden

Vision für AGI

  • Forschungsschwerpunkt: DeepSeek untersucht die Realisierbarkeit von AGI mit Fokus auf Mathematik, Code-Generierung, Multimodalität und natürliches Sprachverständnis
  • Ausblick:
    • Die Verwirklichung von AGI wird in einem Zeitraum von 2 bis 10 Jahren für möglich gehalten, wobei Mathematik und Code als ideales Testfeld für AGI gelten
    • Das Endgame großer Modelle besteht darin, dass spezialisierte Unternehmen, die Foundation-Modelle und Services bereitstellen, an jedem Knoten der Lieferkette eine weitreichende Spezialisierung erreichen

Sicht auf Open Source und Innovation

  • Wert von Open Source: DeepSeek sieht seinen Wert nicht darin, technologische Überlegenheit in Closed Source zu suchen, sondern darin, das Technologie-Ökosystem aufzubauen und weiterzuentwickeln
  • Vision für Chinas AI-Ökosystem: Man möchte dazu beitragen, dass China über Anwendungsinnovation hinaus technologische Innovation von 0 auf 1 erreicht

Fazit

  • DeepSeek geht einen anderen Weg als traditionelle chinesische AI-Startups
  • Statt kommerzieller Anwendungen konzentriert man sich auf technologische Innovation und die Verwirklichung von AGI und will Teil des globalen Stroms technologischer Innovation werden
  • Dieser Ansatz dürfte die künftige Entwicklungsrichtung von Chinas AI maßgeblich beeinflussen

2 Kommentare

 
GN⁺ 2025-01-01
Hacker-News-Kommentare
  • Die GPU-Beschränkungen haben ein Umfeld geschaffen, in dem chinesische Entwickler innovativer sein und mit weniger Ressourcen mehr erreichen müssen

    • Lob für das Deepseek-Team
  • Das Lob für Deepseek ist interessant

    • Es gibt strukturelle und grundlegende Gründe, warum Deepseek andere Modelle nicht deutlich übertreffen kann
      • Der Handelskrieg zwischen den USA und China könnte die Verfügbarkeit von Rechenkapazität für Deepseek benachteiligen
      • Die chinesische Zensur schränkt Deepseeks Datensammlung und Ausgaben bis zu einem gewissen Grad ein
      • Da Deepseek Open Source ist, können andere Modelle es leicht kopieren
    • Gemini, ChatGPT, Deepseek und Claudie werden regelmäßig genutzt, und Deepseek ist weder besonders besser noch schlechter als andere Modelle
    • Es würde interessieren, warum manche glauben, dass Deepseek das LLM-Feld vollständig dominieren wird
  • Es besteht die Überzeugung, dass China mit seiner wirtschaftlichen Entwicklung auch zu einem Beitragenden werden sollte

    • In den vergangenen 30 Jahren hat das Land sich nicht substanziell an IT-Innovationen beteiligt
    • Skalierungsgesetze wurden so behandelt, als könne man sich auf Moores Gesetz verlassen und einfach auf bessere Hardware und Software warten
  • Deepseek war seit letztem Jahr in der Open-Source-LLM-Community ein auffälliger Name

    • Im Vergleich zu anderen chinesischen LLM-Akteuren wurden weniger Marketingkosten eingesetzt
  • Es ist überraschend, dass es keine Erwähnung der Kombination aus klassischer symbolischer KI und modernen ML-Versionen gibt

  • China hat starke Anreize, Grundlagenforschung zu betreiben, um die GPU-Abhängigkeit zu durchbrechen

    • Hoffentlich greifen dafür nicht gegenseitig Mathematiker im Namen der Wissenschaft an
  • Einer der Gründe für die günstige API ist, dass angegeben wurde, API-Daten für das Training zu verwenden

    • OpenAI und Claude sagen, dass sie Daten bei Nutzung der API nicht für das Training verwenden
  • Es besteht der Wunsch, dass der Wettbewerb zwischen AI-Unternehmen gesund weitergeht

    • Es wird gehofft, dass weiterhin Technik und Papers geteilt werden, damit sich insgesamt alles verbessert
  • Es ist beeindruckend, dass DeepSeek mit 10-mal weniger Ressourcen eine Leistung auf dem Niveau von o1 und Claude erreicht hat

    • Für die nächste Stufe von ML sind bessere Algorithmen und Ansätze nötig
  • Interessante (Fehl-)Verwendung des Wortes "catfish"

    • Anders als in der allgemein verstandenen Bedeutung