Anthropic-CEO Dario Amodei: DeepSeek-Modelle sind nicht so erstaunlich
(darioamodei.com)Dario Amodei behauptet, dass die Wahrnehmung der DeepSeek-Modelle V3 und R1 übertrieben sei.
Drei Dynamiken der KI-Entwicklung (Three Dynamics of AI Development)
-
Scaling laws: Wenn alle anderen Faktoren gleich bleiben, steigt die Leistung von KI-Systemen mit zunehmender Skalierung. Beispielsweise löst ein Modell für 1 Million Dollar 20 % der Coding-Tasks, ein Modell für 10 Millionen Dollar 40 % und ein Modell für 100 Millionen Dollar 60 %.
-
Shifting the curve: Durch Verbesserungen der Modellarchitektur oder der Recheneffizienz verschiebt sich die Kosten-Leistungs-Kurve. Kleine Innovationen erhöhen die Kosteneffizienz um etwa das 1,2-Fache, mittelgroße um das 2-Fache und große um etwa das 10-Fache. Doch selbst wenn die Kosteneffizienz steigt, senken Unternehmen ihre Trainingskosten nicht, sondern investieren erneut in leistungsfähigere Modelle. Solche Innovationen summieren sich derzeit auf etwa eine Vervierfachung pro Jahr.
-
Shifting the paradigm: Bis 2023 waren mit riesigen Internet-Datensätzen trainierte pretrained models das Hauptziel der Skalierung. Seit 2024, beginnend mit o1, kommt jedoch Reinforcement Learning zum Einsatz. Dabei startet man mit einem gewöhnlichen pretrained model und fügt anschließend eine Reinforcement-Learning-Phase hinzu. Seit 2024 beginnt die Skalierung dieser Reinforcement-Learning-Phase, befindet sich aber noch in einem frühen Stadium, sodass bereits mit relativ geringem Investment große Leistungssteigerungen möglich sind.
DeepSeek-Modelle
DeepSeek veröffentlichte vor einem Monat das pretrained model DeepSeek-V3 und in der vergangenen Woche R1, das um eine Reinforcement-Learning-Phase erweitert wurde. DeepSeek-V3 erreichte eine Leistung nahe SOTA und verbesserte die Modelleffizienz deutlich.
- Das Gerücht, DeepSeek habe mit 6 Millionen Dollar eine Leistung auf dem Niveau von Modellen US-amerikanischer Unternehmen erzielt, in die Milliarden investiert wurden, ist jedoch übertrieben. Claude Sonnet 3.5 kostete im Training mehrere zehn Millionen Dollar und wurde bereits vor einem Jahr trainiert.
- Wenn man berücksichtigt, dass sich die Trainingseffizienz pro Jahr etwa vervierfacht und dass die Leistung von V3 noch nicht ganz SOTA erreicht (was auf der Kurve ungefähr einem Kostenunterschied um den Faktor 2 entspricht), dann liegt es im Rahmen des aktuellen Entwicklungstrends, dass V3 mit etwa achtmal geringeren Kosten trainiert wurde. Auch US-Unternehmen werden bald auf ihre jeweils eigene Weise eine ähnliche Effizienz erreichen.
- Das eigentliche Problem ist, dass ein Modell, das diesem Trend folgt, in China erschienen ist.
- DeepSeek verfügt über 50.000 Chips der Hopper-Generation. Das entspricht etwa 1/2 bis 1/3 des Niveaus von US-Unternehmen; berücksichtigt man das, ist der Kostenunterschied zu US-Unternehmen nicht besonders groß.
- Aus Engineering-Sicht ist R1 weniger interessant als V3. Da wir uns derzeit noch in einer frühen Phase der Reinforcement-Learning-Kurve befinden, konnte R1 mit geringen Kosten eine Leistung auf o1-Niveau zeigen. Mit fortschreitender Skalierung des Reinforcement Learning werden solche Fälle seltener werden.
Exportkontrollen
- Forschungsinstitute in den USA und in China investieren enorme Summen in die Entwicklung leistungsstarker KI, und das wird weitergehen, bis KI-Modelle entstehen, die in fast allen Bereichen fast allen Menschen überlegen sind. Geschätzt wird dies für 2026–2027.
- Dann könnte sich die Welt durch Exportkontrollen vollständig anders aufteilen.
- Falls China mehrere Millionen Chips sichern kann, entsteht eine bipolare Welt, in der die USA und China jeweils über leistungsstarke KI-Modelle verfügen und mit ihnen technologische Innovation vorantreiben.
- Falls China sich nicht mehrere Millionen Chips sichern kann, entsteht eine unipolare Welt, in der nur die USA und ihre Verbündeten über leistungsstarke Modelle verfügen. Da KI auch die Weiterentwicklung von KI beschleunigt, dürfte dieser Trend eine Zeit lang anhalten.
- Der Erfolg von DeepSeek bedeutet nicht, dass die Exportkontrollen gescheitert sind. Das Unternehmen hatte sich bereits vor Einführung der Exportkontrollen ausreichend Chips gesichert.
Zusätzlich wies Amodei auch das Gerücht zurück, dass 3.5 Sonnet eine distillierte Version eines nicht veröffentlichten Spitzenmodells (etwa 3.5 Opus) sei.
3 Kommentare
Das Problem ist, dass das Modell aus China kommt?
Wahrscheinlich eher, dass es ein Open Model ist…
Ich freue mich auf den Tag, an dem AGI kommt, aber er macht mir auch Angst.
So etwas ausgerechnet von Anthropic zu hören ... hm
Seit Monaten gibt es keine Neuigkeiten zu ihren Modellen, deshalb kommt inzwischen langsam die Frage auf, was Anthropic eigentlich macht.