- DeepSeek hat sein Flaggschiff-Modell v3 veröffentlicht
- Ein Mixture-of-Experts-(MoE)-Modell mit 607B Parametern, davon 37B aktive Parameter
- v3 übertrifft Llama 3.1 405B, Qwen und Mistral und ist auf Augenhöhe mit OpenAI GPT-4o und Claude 3.5 Sonnet oder übertrifft sie bei bestimmten Aufgaben
- Damit ist es das erste offene Modell, das mit führenden geschlossenen Modellen konkurriert
TL;DR
- DeepSeek v3 erreicht beeindruckende Leistung zu niedrigen Kosten
- Das Modell bietet ein hervorragendes Preis-Leistungs-Verhältnis und schlägt Konkurrenzmodelle bei der Leistung pro Kosten deutlich
- Es führt innovative Engineering-Ansätze ein, darunter die MoE-Architektur, FP8 Mixed-Precision-Training und das HAI-LLM-Framework
- In Mathematik und Reasoning übertrifft es GPT-4o und Claude 3.5 Sonnet
- Bei Coding- und Kreativaufgaben liegt Claude 3.5 Sonnet leicht vorne
Erklärung zu DeepSeek v3
- Vortrainiert auf 14,8 Billionen hochwertigen Daten
- Die Trainingskosten lagen bei nur $6m (8,7 Mrd. KRW). Auf einem Nvidia-h800s-Cluster mit 2.048 GPUs wurden etwa 2,78 Millionen GPU-Stunden benötigt
- Vergleich: Metas Llama 403B benötigte bei 15 Billionen Token rund 30,84 Millionen GPU-Stunden. Das war etwa 11-mal so viel
- Durch neue Modellarchitektur und Optimierungen zeigt es stärkere Leistung bei geringerem Ressourceneinsatz
- Ein wichtiger Kontext: Die USA haben chinesischen Unternehmen die Beschaffung von NVIDIA-GPUs untersagt
- Analyse von Andrej Karpathy
- Üblicherweise sind State-of-the-Art-LLMs auf GPU-Cluster mit 16K bis 100K GPUs angewiesen, doch DeepSeek erreicht vergleichbare Ergebnisse mit deutlich weniger Ressourcen
- Das belegt, dass sich Rechenkosten durch Optimierung von Daten und Algorithmen senken lassen
- DeepSeek-V3 erzielt gute Ergebnisse in LLM-Ranking-Tests und zeigt auch in frühen Tests starke Resultate
- Ein Beispiel für erfolgreiche Forschung und Engineering selbst unter begrenzten Ressourcen
- Das bedeutet nicht, dass große GPU-Cluster überflüssig sind, betont aber die Bedeutung, Ressourcenverschwendung zu minimieren
- Es zeigt Innovationspotenzial bei Modellarchitektur, Trainings-Framework und Datennutzung
- DeepSeek hat außerdem einen ausführlichen technischen Bericht veröffentlicht, der wertvolles Material zur Analyse ihrer Methodik und technischen Leistungen bietet
- Tim Dettmers, bekannt als Autor des QLoRA-Papers, lobte DeepSeeks Engineering-Fähigkeiten überschwänglich
„Nachdem ich den technischen Bericht gelesen habe, muss ich sagen: Unter Ressourcenbeschränkungen wurde hier eine erstaunliche Engineering-Leistung gezeigt.
Das DeepSeek-Team hat unter Hardwarebeschränkungen selbst Lösungen für bekannte Probleme entworfen.
Alles ist so sauber und elegant. Eine Leistung, die ohne ‚akademisch‘ glänzende Tricks allein durch pures, solides Engineering erreicht wurde. Respekt.“
Das günstigste und zugleich leistungsstarke Modell
- DeepSeek v3 ist derzeit, gemessen an seinen Fähigkeiten, das günstigste Modell
- Emad Mostaque, Gründer von Stability AI, kommentierte die Betriebskosten und Effizienz von DeepSeek v3:
„DeepSeek v3 rund um die Uhr mit 60 Token pro Sekunde laufen zu lassen (fünfmal menschliche Lesegeschwindigkeit), kostet $2 pro Tag.
Lieber einen Latte oder lieber AI?“ - Preise der DeepSeek-API
- Bis zum 8. Februar gilt derselbe Preis wie für die Vorgängerversion (V2), danach:
- Input:
- Standard: $0.27 / Million Tokens
- Cache Hit: $0.07 / Million Tokens
- Output: $1.10 / Million Tokens
- Diese Preispolitik ermöglicht die Nutzung eines Modells auf dem Niveau von GPT-4o und Claude 3.5 Sonnet zu deutlich geringeren Kosten
- Besonders für AI-Entwickler ist das eine Art ideales Geschenk, das vielfältige Möglichkeiten mit leistungsstarken Modellen eröffnet
Zentrale Innovationen
- Modellarchitektur
- Verwendet eine Mixture-of-Experts-(MoE)-Architektur, bei der von insgesamt 671B Parametern pro Token nur 37B aktiviert werden
→ Deutlich geringerer Rechenbedarf als bei einem dichten Modell - Nutzt Multi-head Latent Attention (MLA) zur Komprimierung des Key-Value-Caches
→ Geringerer Speicherverbrauch und effizienteres Training
- Verwendet eine Mixture-of-Experts-(MoE)-Architektur, bei der von insgesamt 671B Parametern pro Token nur 37B aktiviert werden
- FP8 Mixed-Precision-Training
- Einführung eines FP8-Mixed-Precision-Trainings-Frameworks, das den Speicherbedarf reduziert und das Training beschleunigt
- Gegenüber FP16/FP32-Formaten bis zu 50 % weniger Speicherverbrauch
- Erhält die Genauigkeit durch Fine-Grained-Quantization und präzise Accumulation-Precision-Strategien
- Load-Balancing-Strategie
- Implementiert Load Balancing in der MoE-Architektur ohne Auxiliary Loss
→ Überwindet die Nachteile bisheriger Auxiliary-Loss-Ansätze und verbessert zugleich die Leistung
- Implementiert Load Balancing in der MoE-Architektur ohne Auxiliary Loss
- Trainings-Framework
- Entwicklung eines benutzerdefinierten Trainings-Frameworks namens HAI-LLM, mit folgenden zentralen Optimierungen:
- Effiziente Pipeline-Parallelisierung mit dem DualPipe-Algorithmus
→ Weniger Pipeline-Bubbles und Überlappung von Berechnung und Kommunikation - Effizienter Cross-Node-All-to-All-Kommunikationskernel zur maximalen Nutzung der Netzwerkbandbreite
- Speicheroptimierung ohne kostspielige Tensor-Parallelisierung
- Effiziente Pipeline-Parallelisierung mit dem DualPipe-Algorithmus
- Entwicklung eines benutzerdefinierten Trainings-Frameworks namens HAI-LLM, mit folgenden zentralen Optimierungen:
- Durch diese Innovationen gelang DeepSeek die bemerkenswerte Leistung, ein großes Modell für rund 6 Millionen US-Dollar effizient zu trainieren
Chain of Thought (CoT) mit R1
- DeepSeek hat die neue Funktion DeepThink hinzugefügt und damit die Chain-of-Thought-(CoT)-Reasoning-Fähigkeiten der R1-Modellreihe in das DeepSeek-v3-LLM integriert
- Post-Training: Knowledge Distillation from DeepSeek-R1
- Einführung einer neuen Methodik zur Distillation der langformigen Chain-of-Thought-(CoT)-Reasoning-Fähigkeiten der DeepSeek-R1-Modellreihe in ein allgemeines LLM, insbesondere DeepSeek-V3
- Integriert die Muster von Verifikation und Reflexion des R1-Modells elegant in DeepSeek-V3 und verbessert dadurch die Reasoning-Leistung deutlich
- Kontrolliert Stil und Länge der Ausgaben von DeepSeek-V3 effektiv, ohne die Qualität des Reasonings zu beeinträchtigen
- In DeepSeek Chat lässt sich die Funktion DeepThink aktivieren.
- Die Reasoning-Leistung von DeepSeek-V3 bleibt hinter o1 zurück, aber durch die CoT-Integration ist eine gewisse Leistungssteigerung erkennbar.
DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet
- DeepSeek v3 hat mit starken Ergebnissen in wichtigen Benchmarks in der AI-Community für Begeisterung gesorgt
- Doch wie schlägt es sich in realen Situationen im Vergleich zu OpenAI GPT-4o und Claude 3.5 Sonnet?
- Hat dieses Modell den erhaltenen Hype wirklich verdient oder ist es überbewertet?
- Zur Bewertung wurden die drei Modelle mit einem benutzerdefinierten Benchmark-Set in vier Kernbereichen getestet:
- Reasoning, Mathematik, Coding, kreatives Schreiben
- Grundeinstellungen
- GPT-4o und Claude 3.5 Sonnet scheiterten in diesem Benchmark an allen Reasoning- und Mathematikaufgaben
- Nur Gemini 2.0 1206 und o1 bewältigten diese Aufgaben erfolgreich
- Von DeepSeek v3 wurde keine Perfektion erwartet, sondern eine Verbesserung gegenüber bestehenden Modellen
[1. Reasoning]
- Reasoning ist eine der zentralen Komponenten intelligenter Systeme
- Im Test zeigte o1 die beste Leistung, gefolgt von Gemini 2.0 1206
- Nun zum Abschneiden von DeepSeek v3..
a. Das vierte Wort der Antwort finden
- Prompt: "What is the fourth word of the sentence of your response to this question?"
- Antwort von DeepSeek v3:
- DeepSeek v3 lieferte nach Aktivierung der DeepThink CoT-Funktion die korrekte Antwort. CoT-basiertes Reasoning verbessert die Leistung des Modells wirksam
b. Wörter in der Antwort zählen
- Prompt: "Count the number of words in the response to this prompt."
- Antwort von DeepSeek v3:
- DeepSeek konnte keine korrekte Antwort ableiten. Allerdings scheiterten auch GPT-4o und Claude 3.5 Sonnet an dieser Aufgabe
c. Anzahl der 'r' in 'Strawberry'
- Prompt: "How many ‘r’ in Strawberry?"
- Antwort von DeepSeek v3:
- DeepSeek beantwortete die Frage korrekt
- Verglichen mit GPT-4o, das diese einfache Aufgabe regelmäßig falsch beantwortete, hat DeepSeek hier einen Vorteil
d. Das Bauer-und-Schaf-Problem
- Prompt: "A farmer stands with the sheep on one side of the river. A boat can carry only a single person and an animal. How can the farmer get himself and the sheep to the other side of the river with minimum trips?"
- Antwort von DeepSeek v3:
- DeepSeek kam durch Analyse zu einem Schluss, aber die endgültige Antwort war falsch
- Auch mit aktivierter DeepThink CoT-Funktion kam es zur selben falschen Antwort
Zur Einordnung: Auch GPT-4o und Claude 3.5 Sonnet konnten dieses Problem nicht korrekt lösen, nur o1 fand die richtige Antwort
Zusammenfassung Reasoning
- DeepSeek v3 ist zwar nicht so stark wie o1, zeigt aber eine ähnliche oder oft bessere Leistung als Claude 3.5 Sonnet und GPT-4o
- Besonders beim Preis-Leistungs-Verhältnis ist DeepSeek v3 herausragend. In diesem Punkt scheint DeepSeek eine ausgezeichnete Wahl zu sein
[2. Mathematik]
a. 5.11 - 5.90 = ?
- Prompt: "5.11 - 5.90 = ?"
- Antwort von DeepSeek v3:
Obwohl es ein einfaches Problem ist, scheitern viele große LLMs daran erstaunlich oft. DeepSeek v3 rechnete korrekt und gab die richtige Antwort
b. Mögliche vierte Ecke eines Parallelogramms finden
- Prompt: "If three corners of a parallelogram are (1,1), (4,2), and (1,3), what are all the possible fourth corners?"
- Hintergrund zur Aufgabe:
- Diese Frage stammt aus Gilbert Strangs Linear Algebra, und nur o1 sowie Gemini 2.0 1206 fanden die korrekte Antwort
- GPT-4o und Claude 3.5 Sonnet fanden nur eine mögliche vierte Ecke
- Antwort von DeepSeek v3:
- DeepSeek leitete alle möglichen vierten Ecken korrekt her
- Das zeigt, dass DeepSeek v3 bei Mathematikaufgaben besser ist als GPT-4o und Claude 3.5 Sonnet
c. Summe zweier ganzer Zahlen finden
- Prompt: : "The greatest common divisor of two positive integers less than 100 equals 3. Their least common multiple is twelve times one of the integers. What is the largest possible sum of the two integers?"
- Antwort von DeepSeek v3:
- Mit aktivierter DeepThink-Funktion zur Stärkung der Rechenleistung leitete DeepSeek die korrekte Antwort her
Zusammenfassung Mathematik
- DeepSeek v3 zeigt bei Mathematikaufgaben bessere Leistungen als GPT-4o und Claude 3.5 Sonnet
- Besonders bei komplexeren Problemen liefert es genaue Ergebnisse, was auch mit den Benchmark-Scores übereinstimmt
- Hinsichtlich mathematischer Genauigkeit ist DeepSeek v3 ein sehr vertrauenswürdiges Modell
[3. Coding]
„Super Heroes“-Problem (LeetCode Hard)
- Hintergrund zur Aufgabe: :
- „Super Heroes“ ist ein Dynamic-Programming-Problem und gehört zu den schwierigeren Aufgaben, die in aktuellen Competitive-Programming-Wettbewerben verwendet werden
- Diese Aufgabe eignet sich gut, um zu testen, wie leistungsfähig ein LLM ist.
- Problem und Ergebnisse ausgelassen
- Ergebnis von DeepSeek v3 bei der Problemlösung
- Im ersten Versuch bestand das Modell nicht alle Testfälle, erzeugte aber im zweiten Versuch eine perfekte Lösung
- Möglicherweise hatte das Modell die Aufgabe bereits gelernt, dennoch zeigt das eine Verbesserung bei der tatsächlichen Code-Generierung
Zusammenfassung Coding
- DeepSeek v3 liegt leicht hinter Claude 3.5 Sonnet, ist aber im Vergleich zu GPT-4 nahezu auf demselben Niveau
- Beim Verhältnis von Leistung zu Kosten ist DeepSeek v3 sehr stark und eine ideale Wahl für Entwickler, die User-Interface-Anwendungen bauen möchten
[4. Zusammenfassung kreatives Schreiben]
- Die Bewertung kreativer Schreibfähigkeiten kann je nach persönlicher Präferenz und Ton unterschiedlich ausfallen
- GPT-4o: meist formell und mit unternehmensfreundlichem Ton, sichtbar darauf bedacht, Nutzer zufriedenzustellen
- Claude 3.5 Sonnet: bewahrt einen menschlicheren Ton und eine eigene Perspektive und bietet kreative, originelle Meinungen
- DeepSeek v3: Im Test zeigte es Antwortmuster, die GPT-4o erstaunlich ähnlich sind. Selbst Absatzstruktur und Ausdrucksweise sind sehr ähnlich
- Das deutet darauf hin, dass DeepSeek v3 möglicherweise auf einem von GPT-4o erzeugten synthetischen Datensatz trainiert wurde
Zusammenfassung kreatives Schreiben
- DeepSeek v3 zeigt eine ähnliche Leistung wie GPT-4o, und auch Schreibstil sowie Ton ähneln GPT-4o stark
- Wer GPT-4o bevorzugt hat, dürfte auch mit DeepSeek v3 zufrieden sein
- DeepSeek v3 bietet ein starkes Preis-Leistungs-Verhältnis und ist auch für kreative Schreibaufgaben ein verlässliches Modell
- Wer einen kreativeren und originelleren Ansatz sucht, ist mit o1 und Claude 3.5 Sonnet womöglich besser bedient
[Gesamtbewertung]
- Reasoning: DeepSeek v3 > Claude 3.5 Sonnet > GPT-4o
- Mathematik: DeepSeek v3 > Claude 3.5 Sonnet > GPT-4o
- Coding: Claude 3.5 Sonnet > DeepSeek v3 ~ GPT-4o
- Kreatives Schreiben: Claude 3.5 Sonnet > DeepSeek v3 ~ GPT-4o
Wer sollte DeepSeek v3 nutzen?
- Kann GPT-4o bei den meisten Aufgaben ersetzen
- Optimal für den Bau von Anwendungen. Das starke Preis-Leistungs-Verhältnis macht es gut geeignet für die Entwicklung von User-Anwendungen
- Open-Weight, daher selbst hostbar und mit größerer Kontrolle
9 Kommentare
Es scheint besser zu sein, den ideologischen Aspekt und den technischen Aspekt getrennt zu betrachten. (Das heißt nicht, dass Ideologie unwichtig ist.)
Unabhängig davon, wie das Benchmarking mit der Kommunistischen Partei verlaufen ist, ist es erstaunlich, dass ein Open-Source-Modell eine Leistung auf diesem Niveau zeigt, und auch der Entwicklungsprozess ist beeindruckend.
Ein koreanisches Unternehmen sollte solche Techniken aufgreifen und selbst ein Modell entwickeln, das zur Ideologie der freien Welt passt. Im Moment scheint es angebracht zu sein, den Ingenieuren von DeepSeek zu danken, die diese Technologie offengelegt haben.
Es gibt nicht einmal offengelegten Quellcode, der als Referenz für die Methoden taugen würde, und man kann nicht einmal Fine-Tuning durchführen. Man kann damit im Grunde nur Inference mit den Gewichten ausführen … Gibt es überhaupt etwas, woran man sich orientieren kann?
Wie es aussieht, scheint das tatsächlich so zu sein. Nach allem, was ich bisher gesehen habe, trifft eher „offenes Modell“ als „Open Source“ zu.
(Referenz): https://github.com/deepseek-ai/DeepSeek-V3/issues/12
Jaja....
Haha, die Antwort ist lustig.
DeepSeek v3: Testergebnisse zeigen ein überraschend ähnliches Antwortmuster wie GPT-4o. Selbst Absatzstruktur und Ausdrucksweise sind sehr ähnlich
Das deutet darauf hin, dass DeepSeek v3 möglicherweise auf einem mit GPT-4o erzeugten synthetischen Datensatz trainiert wurde
-> Dem kann ich auch voll zustimmen. Es gesteht es nämlich von selbst.
Da es ein chinesisches Produkt ist, fühlt es sich irgendwie unangenehm an...
Ich habe schon bei der ersten Frage das Vertrauen in DeepSeek v3 verloren. Ich habe versucht, ein Gespräch zu führen, um zu sehen, ob sich etwas geändert hat, aber die Antwort ist immer noch dieselbe.
https://ibb.co/nDv9cRR
Und als ich mit DeepSeek gesprochen habe, habe ich ein gravierendes Problem von DeepSeek entdeckt. Ich bekam nämlich die Antwort: „Wenn die Verteidigung universeller Werte mit den nationalen Normen eines Landes kollidiert, kann es für ein KI-System Einschränkungen geben, darauf hinzuweisen.“ Ich denke, man kann sich vorstellen, mit den Normen welches Landes das kollidieren könnte.
https://ibb.co/2sn6d3k
DeepSeek hat vielleicht mehrere Vorteile, aber OpenAI wird es niemals übertreffen. Der Grund ist folgender: https://ibb.co/5hsNg9h Um die Normen eines bestimmten Landes einzuhalten, unterliegt es Einschränkungen.
Deepseek – der stille Riese, der Chinas KI-Wettbewerb anführt
Deepseek V3 zeigte in Benchmarks zum Test auf Überanpassung eine schwache Leistung