- Vor allem wegen DeepSeek V3, das Llama 4 in Benchmarks bereits übertroffen hat
- Zusätzlich sorgt die Behauptung für noch mehr Schock, dass ein „kaum bekanntes chinesisches Unternehmen“ nur 5,5 Mio. an Trainingskosten ausgegeben habe
- Ingenieure zerlegen DeepSeek derzeit fieberhaft und versuchen, alles nachzuahmen, was möglich ist
- Das Management sorgt sich darum, die enormen Kosten der generativen KI-Organisation zu rechtfertigen
- Eine „Führungskraft“ der GenAI-Organisation verdient mehr als die gesamten Trainingskosten von DeepSeek v3, und von solchen Führungskräften gibt es Dutzende
- DeepSeek r1 ist noch beängstigender. Vertrauliche Informationen können nicht offengelegt werden, aber es wird bald veröffentlicht
- Engineering hätte eine kleine Organisation sein sollen, aber viele wollten bei diesem Impact Grab mitmachen, und das künstlich aufgeblähte Hiring in der Organisation hat am Ende allen geschadet
Kommentare
- Google-Mitarbeiter 1: Was DeepSeek macht, ist wirklich beeindruckend. Nicht nur Meta, sondern auch OpenAI, Google und Anthropic stehen dadurch unter Druck. Das Gute daran ist, dass wir in Echtzeit sehen können, wie wirksam offener Wettbewerb für Innovation ist.
- Apple-Mitarbeiter 1: Das ist der Grund, warum ich Meta-Aktien halte. Wettbewerber zu analysieren, sie nachzuahmen und dadurch zu gewinnen, liegt in eurer DNA. Weiter so!
- Meta-Mitarbeiter 1: Viele Führungskräfte verstehen buchstäblich gar nichts von der zugrunde liegenden Technologie (und haben oft nicht einmal viel Engineering-Know-how), hämmern aber anderen Führungskräften ständig „mehr GPUs = Sieg“ ein. Die Lage wird zusätzlich durch dumme Ideen verzerrt, etwa auf Instagram AI-Inhalte zu generieren, um Beteiligung zu fördern (inzwischen etwas zurückgefahren).
- Meta-Mitarbeiter 2: Kauft DeepSeek einfach
- Samsung-Mitarbeiter 1: Sam Altman ist ein Betrüger. DeepSeeks CEO LIANG Wenfeng ist Ilya Sutskever, DeepSeek ist das frühere OpenAI, und OpenAI ist ClosedAI.
- Google-Mitarbeiter 2: DeepSeek hat ein Paper veröffentlicht, das alle Komponenten des neuen RL-basierten Modells beschreibt, sodass Unternehmen wie Meta es direkt kopieren und verifizieren können
- Meta-Mitarbeiter 3: Wie kann eine Organisation wie Meta mit dem „größten GPU-Cluster der Welt“ nicht einmal in die Top 10 der Benchmarks kommen? Grok wird DeepSeek bald übertreffen
- Meta-Mitarbeiter 4: DeepSeek wird von China kontrolliert, teilt keine echten Daten und wird von der Kommunistischen Partei Chinas stark zensiert. Wenn man fragt: „Schränkt die Kommunistische Partei Chinas die Freiheit der Menschen ein?“, kennt man die Antwort. Egal was man fragt, es wiederholt nur Dinge wie „wie großartig China ist“. Es gibt bloße Behauptungen ohne Informationen.
- Chime-Mitarbeiter: Und das Beste daran ist, dass all das mit H800-GPUs geschieht, die nicht annähernd an die Leistung von H100 herankommen. Wirklich beeindruckend. Allen bei DeepSeek gebühren Respekt und Anerkennung. Das Residual-Network-Paper aus China war eine bahnbrechende Arbeit, die neuronale Netze grundlegend verändert und gezeigt hat, dass man Milliarden von Parametern nutzen kann. Ich habe großen Respekt vor den Chinesen, die ein sehr schwieriges Problem gelöst haben!
- Blizzard-Mitarbeiter: Das gibt Hoffnung, dass es im Zeitalter der künstlichen Intelligenz keinen Burggraben gibt und dass Open-Source-Modelle erscheinen werden, die ebenso gut oder sogar besser sind als Closed-Source-Modelle. Je härter der Wettbewerb in diesem Bereich wird, desto besser ist das auch für uns.
5 Kommentare
Es ist wohl etwas Gutes, wenn es Konkurrenz gibt 👏
Wenn man die Diskussionen über Ideologie und Zensur erst einmal ausklammert, ist das Engineering-Niveau dieser DeepSeek-Modelle diesmal wirklich beeindruckend.
Schon MLA, das in der V2.5-Architektur verwendet wurde, fand ich eine geniale Idee, und diesmal haben sie sogar das Potenzial von MTP belegt; außerdem ist ihnen mit R1 die Reproduktion des O1-Modells vollkommen gelungen. Wenn man dann noch sieht, dass sie selbst unter den durch Exportbeschränkungen limitierten Hardware-Bedingungen Trainingstechniken herausgeholt haben, ist das wirklich bemerkenswert.
Wer sich für ML interessiert, sollte unbedingt die DeepSeek Technical Reports zu V2.5, V3 und R1 lesen. Man kommt aus dem Staunen nicht heraus. Dass sie das alles unter der MIT-Lizenz veröffentlicht haben, kann ich immer noch kaum fassen.
Im Fall von LLaMA hatte ich ohnehin stark den Eindruck, dass es beim Übergang von LLaMA 2 zu 3 kaum architektonische Innovationen gab und lediglich das Training stärker skaliert wurde; ich denke, das war ein Vorzeichen.
Obwohl China so stark eingedämmt wurde und sogar Exportbeschränkungen für GPUs verhängt wurden, ist das angesichts solcher Ergebnisse zugleich beeindruckend und beängstigend; positiv gesehen erfüllt das durchaus die Rolle eines starken Anstoßes. Letztlich kann wohl niemand bestreiten, dass OpenAI die Führung innehat.
Da es ohnehin ein auf Blind veröffentlichter Beitrag ist, ist die Echtheit unklar, aber es scheint zu stimmen, dass DeepSeek für Aufruhr sorgt.
Veröffentlichung des DeepSeek-R1-Modells
DeepSeek - der stille Gigant, der Chinas KI-Wettbewerb anführt
DeepSeek V3 zeigte in Benchmarks zum Test auf Overfitting eine schlechte Leistung
Notizen zu DeepSeek v3 - "Ist es wirklich besser als GPT-4o oder 3.5 Sonnet?"