Notizen zu DeepSeek v3 – „Ist es wirklich besser als GPT-4o oder 3.5 Sonnet?“

xguru · 2025-01-03T11:34:31+09:00

DeepSeek hat sein Flaggschiff-Modell v3 veröffentlicht Ein Mixture-of-Experts-(MoE)-Modell mit 607B Parametern, davon 37B aktive Parameter v3 übertrifft Llama 3.1 405B, Qwen und Mistral und ist auf Augenhöhe mit OpenAI GPT-4o und Claude 3.5 Sonnet oder übertrifft sie bei bestimmten Aufgaben Damit ist es das erste offene Modell, das mit führenden geschlossenen Modellen konkurriert TL;DR DeepSeek v3 erreicht beeindruckende Leistung zu niedrigen Kosten Das Modell bietet ein hervorragendes Preis-Leistungs-Verhältnis und schlägt Konkurrenzmodelle bei der Leistung pro Kosten deutlich Es führt innovative Engineering-Ansätze ein, darunter die MoE-Architektur, FP8 Mixed-Precision-Training und das HAI-LLM-Framework In Mathematik und Reasoning übertrifft es GPT-4o und Claude 3.5 Sonnet Bei Coding- und Kreativaufgaben liegt Claude 3.5 Sonnet leicht vorne Erklärung zu DeepSeek v3 Vortrainiert auf 14,8 Billionen hochwertigen Daten Die Trainingskosten lagen bei nur $6m (8,7 Mrd. KRW). Auf einem Nvidia-h800s-Cluster mit 2.048 GPUs wurden etwa 2,78 Millionen GPU-Stunden benötigt Vergleich: Metas Llama 403B benötigte bei 15 Billionen Token rund 30,84 Millionen GPU-Stunden. Das war etwa 11-mal so viel Durch neue Modellarchitektur und Optimierungen zeigt es stärkere Leistung bei geringerem Ressourceneinsatz Ein wichtiger Kontext: Die USA haben chinesischen Unternehmen die Beschaffung von NVIDIA-GPUs untersagt Analyse von Andrej Karpathy Üblicherweise sind State-of-the-Art-LLMs auf GPU-Cluster mit 16K bis 100K GPUs angewiesen, doch DeepSeek erreicht vergleichbare Ergebnisse mit deutlich weniger Ressourcen Das belegt, dass sich Rechenkosten durch Optimierung von Daten und Algorithmen senken lassen DeepSeek-V3 erzielt gute Ergebnisse in LLM-Ranking-Tests und zeigt auch in frühen Tests starke Resultate Ein Beispiel für erfolgreiche Forschung und Engineering selbst unter begrenzten Ressourcen Das bedeutet nicht, dass große GPU-Cluster überflüssig sind, betont aber die Bedeutung, Ressourcenverschwendung zu minimieren Es zeigt Innovationspotenzial bei Modellarchitektur, Trainings-Framework und Datennutzung DeepSeek hat außerdem einen ausführlichen technischen Bericht veröffentlicht, der wertvolles Material zur Analyse ihrer Methodik und technischen Leistungen bietet Tim Dettmers, bekannt als Autor des QLoRA-Papers, lobte DeepSeeks Engineering-Fähigkeiten überschwänglich „Nachdem ich den technischen Bericht gelesen habe, muss ich sagen: Unter Ressourcenbeschränkungen wurde hier eine erstaunliche Engineering-Leistung gezeigt. Das DeepSeek-Team hat unter Hardwarebeschränkungen selbst Lösungen für bekannte Probleme entworfen. Alles ist so sauber und elegant. Eine Leistung, die ohne ‚akademisch‘ glänzende Tricks allein durch pures, solides Engineering erreicht wurde. Respekt.“ Das günstigste und zugleich leistungsstarke Modell DeepSeek v3 ist derzeit, gemessen an seinen Fähigkeiten, das günstigste Modell Emad Mostaque, Gründer von Stability AI, kommentierte die Betriebskosten und Effizienz von DeepSeek v3: „DeepSeek v3 rund um die Uhr mit 60 Token pro Sekunde laufen zu lassen (fünfmal menschliche Lesegeschwindigkeit), kostet $2 pro Tag. Lieber einen Latte oder lieber AI?“ Preise der DeepSeek-API Bis zum 8. Februar gilt derselbe Preis wie für die Vorgängerversion (V2), danach: Input: Standard: $0.27 / Million Tokens Cache Hit: $0.07 / Million Tokens Output: $1.10 / Million Tokens Diese Preispolitik ermöglicht die Nutzung eines Modells auf dem Niveau von GPT-4o und Claude 3.5 Sonnet zu deutlich geringeren Kosten Besonders für AI-Entwickler ist das eine Art ideales Geschenk, das vielfältige Möglichkeiten mit leistungsstarken Modellen eröffnet Zentrale Innovationen Modellarchitektur Verwendet eine Mixture-of-Experts-(MoE)-Architektur, bei der von insgesamt 671B Parametern pro Token nur 37B aktiviert werden → Deutlich geringerer Rechenbedarf als bei einem dichten Modell Nutzt Multi-head Latent Attention (MLA) zur Komprimierung des Key-Value-Caches → Geringerer Speicherverbrauch und effizienteres Training FP8 Mixed-Precision-Training Einführung eines FP8-Mixed-Precision-Trainings-Frameworks, das den Speicherbedarf reduziert und das Training beschleunigt Gegenüber FP16/FP32-Formaten bis zu 50 % weniger Speicherverbrauch Erhält die Genauigkeit durch Fine-Grained-Quantization und präzise Accumulation-Precision-Strategien Load-Balancing-Strategie Implementiert Load Balancing in der MoE-Architektur ohne Auxiliary Loss → Überwindet die Nachteile bisheriger Auxiliary-Loss-Ansätze und verbessert zugleich die Leistung Trainings-Framework Entwicklung eines benutzerdefinierten Trainings-Frameworks namens HAI-LLM, mit folgenden zentralen Optimierungen: Effiziente Pipeline-Parallelisierung mit dem DualPipe-Algorithmus → Weniger Pipeline-Bubbles und Überlappung von Berechnung und Kommunikation Effizienter Cross-Node-All-to-All-Kommunikationskernel zur maximalen Nutzung der Netzwerkbandbreite Speicheroptimierung ohne kostspielige Tensor-Parallelisierung Durch diese Innovationen gelang DeepSeek die bemerkenswerte Leistung, ein großes Modell für rund 6 Millionen US-Dollar effizient zu trainieren Chain of Thought (CoT) mit R1 DeepSeek hat die neue Funktion DeepThink hinzugefügt und damit die Chain-of-Thought-(CoT)-Reasoning-Fähigkeiten der R1-Modellreihe in das DeepSeek-v3-LLM integriert Post-Training: Knowledge Distillation from DeepSeek-R1 Einführung einer neuen Methodik zur Distillation der langformigen Chain-of-Thought-(CoT)-Reasoning-Fähigkeiten der DeepSeek-R1-Modellreihe in ein allgemeines LLM, insbesondere DeepSeek-V3 Integriert die Muster von Verifikation und Reflexion des R1-Modells elegant in DeepSeek-V3 und verbessert dadurch die Reasoning-Leistung deutlich Kontrolliert Stil und Länge der Ausgaben von DeepSeek-V3 effektiv, ohne die Qualität des Reasonings zu beeinträchtigen In DeepSeek Chat lässt sich die Funktion DeepThink aktivieren. Die Reasoning-Leistung von DeepSeek-V3 bleibt hinter o1 zurück, aber durch die CoT-Integration ist eine gewisse Leistungssteigerung erkennbar. DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet DeepSeek v3 hat mit starken Ergebnissen in wichtigen Benchmarks in der AI-Community für Begeisterung gesorgt Doch wie schlägt es sich in realen Situationen im Vergleich zu OpenAI GPT-4o und Claude 3.5 Sonnet? Hat dieses Modell den erhaltenen Hype wirklich verdient oder ist es überbewertet? Zur Bewertung wurden die drei Modelle mit einem benutzerdefinierten Benchmark-Set in vier Kernbereichen getestet: Reasoning, Mathematik, Coding, kreatives Schreiben Grundeinstellungen GPT-4o und Claude 3.5 Sonnet scheiterten in diesem Benchmark an allen Reasoning- und Mathematikaufgaben Nur Gemini 2.0 1206 und o1 bewältigten diese Aufgaben erfolgreich Von DeepSeek v3 wurde keine Perfektion erwartet, sondern eine Verbesserung gegenüber bestehenden Modellen [1. Reasoning] Reasoning ist eine der zentralen Komponenten intelligenter Systeme Im Test zeigte o1 die beste Leistung, gefolgt von Gemini 2.0 1206 Nun zum Abschneiden von DeepSeek v3.. a. Das vierte Wort der Antwort finden Prompt: "What is the fourth word of the sentence of your response to this question?" Antwort von DeepSeek v3: DeepSeek v3 lieferte nach Aktivierung der DeepThink CoT-Funktion die korrekte Antwort. CoT-basiertes Reasoning verbessert die Leistung des Modells wirksam b. Wörter in der Antwort zählen Prompt: "Count the number of words in the response to this prompt." Antwort von DeepSeek v3: DeepSeek konnte keine korrekte Antwort ableiten. Allerdings scheiterten auch GPT-4o und Claude 3.5 Sonnet an dieser Aufgabe c. Anzahl der 'r' in 'Strawberry' Prompt: "How many ‘r’ in Strawberry?" Antwort von DeepSeek v3: DeepSeek beantwortete die Frage korrekt Verglichen mit GPT-4o, das diese einfache Aufgabe regelmäßig falsch beantwortete, hat DeepSeek hier einen Vorteil d. Das Bauer-und-Schaf-Problem Prompt: "A farmer stands with the sheep on one side of the river. A boat can carry only a single person and an animal. How can the farmer get himself and the sheep to the other side of the river with minimum trips?" Antwort von DeepSeek v3: DeepSeek kam durch Analyse zu einem Schluss, aber die endgültige Antwort war falsch Auch mit aktivierter DeepThink CoT-Funktion kam es zur selben falschen Antwort Zur Einordnung: Auch GPT-4o und Claude 3.5 Sonnet konnten dieses Problem nicht korrekt lösen, nur o1 fand die richtige Antwort Zusammenfassung Reasoning DeepSeek v3 ist zwar nicht so stark wie o1, zeigt aber eine ähnliche oder oft bessere Leistung als Claude 3.5 Sonnet und GPT-4o Besonders beim Preis-Leistungs-Verhältnis ist DeepSeek v3 herausragend. In diesem Punkt scheint DeepSeek eine ausgezeichnete Wahl zu sein [2. Mathematik] a. 5.11 - 5.90 = ? Prompt: "5.11 - 5.90 = ?" Antwort von DeepSeek v3: Obwohl es ein einfaches Problem ist, scheitern viele große LLMs daran erstaunlich oft. DeepSeek v3 rechnete korrekt und gab die richtige Antwort b. Mögliche vierte Ecke eines Parallelogramms finden Prompt: "If three corners of a parallelogram are (1,1), (4,2), and (1,3), what are all the possible fourth corners?" Hintergrund zur Aufgabe: Diese Frage stammt aus Gilbert Strangs Linear Algebra, und nur o1 sowie Gemini 2.0 1206 fanden die korrekte Antwort GPT-4o und Claude 3.5 Sonnet fanden nur eine mögliche vierte Ecke Antwort von DeepSeek v3: DeepSeek leitete alle möglichen vierten Ecken korrekt her Das zeigt, dass DeepSeek v3 bei Mathematikaufgaben besser ist als GPT-4o und Claude 3.5 Sonnet c. Summe zweier ganzer Zahlen finden Prompt: : "The greatest common divisor of two positive integers less than 100 equals 3. Their least common multiple is twelve times one of the integers. What is the largest possible sum of the two integers?" Antwort von DeepSeek v3: Mit aktivierter DeepThink-Funktion zur Stärkung der Rechenleistung leitete DeepSeek die korrekte Antwort her Zusammenfassung Mathematik DeepSeek v3 zeigt bei Mathematikaufgaben bessere Leistungen als GPT-4o und Claude 3.5 Sonnet Besonders bei komplexeren Problemen liefert es genaue Ergebnisse, was auch mit den Benchmark-Scores übereinstimmt Hinsichtlich mathematischer Genauigkeit ist DeepSeek v3 ein sehr vertrauenswürdiges Modell [3. Coding] „Super Heroes“-Problem (LeetCode Hard) Hintergrund zur Aufgabe: : „Super Heroes“ ist ein Dynamic-Programming-Problem und gehört zu den schwierigeren Aufgaben, die in aktuellen Competitive-Programming-Wettbewerben verwendet werden Diese Aufgabe eignet sich gut, um zu testen, wie leistungsfähig ein LLM ist. Problem und Ergebnisse ausgelassen Ergebnis von DeepSeek v3 bei der Problemlösung Im ersten Versuch bestand das Modell nicht alle Testfälle, erzeugte aber im zweiten Versuch eine perfekte Lösung Möglicherweise hatte das Modell die Aufgabe bereits gelernt, dennoch zeigt das eine Verbesserung bei der tatsächlichen Code-Generierung Zusammenfassung Coding DeepSeek v3 liegt leicht hinter Claude 3.5 Sonnet, ist aber im Vergleich zu GPT-4 nahezu auf demselben Niveau Beim Verhältnis von Leistung zu Kosten ist DeepSeek v3 sehr stark und eine ideale Wahl für Entwickler, die User-Interface-Anwendungen bauen möchten [4. Zusammenfassung kreatives Schreiben] Die Bewertung kreativer Schreibfähigkeiten kann je nach persönlicher Präferenz und Ton unterschiedlich ausfallen GPT-4o: meist formell und mit unternehmensfreundlichem Ton, sichtbar darauf bedacht, Nutzer zufriedenzustellen Claude 3.5 Sonnet: bewahrt einen menschlicheren Ton und eine eigene Perspektive und bietet kreative, originelle Meinungen DeepSeek v3: Im Test zeigte es Antwortmuster, die GPT-4o erstaunlich ähnlich sind. Selbst Absatzstruktur und Ausdrucksweise sind sehr ähnlich Das deutet darauf hin, dass DeepSeek v3 möglicherweise auf einem von GPT-4o erzeugten synthetischen Datensatz trainiert wurde Zusammenfassung kreatives Schreiben DeepSeek v3 zeigt eine ähnliche Leistung wie GPT-4o, und auch Schreibstil sowie Ton ähneln GPT-4o stark Wer GPT-4o bevorzugt hat, dürfte auch mit DeepSeek v3 zufrieden sein DeepSeek v3 bietet ein starkes Preis-Leistungs-Verhältnis und ist auch für kreative Schreibaufgaben ein verlässliches Modell Wer einen kreativeren und originelleren Ansatz sucht, ist mit o1 und Claude 3.5 Sonnet womöglich besser bedient [Gesamtbewertung] Reasoning: DeepSeek v3 > Claude 3.5 Sonnet > GPT-4o Mathematik: DeepSeek v3 > Claude 3.5 Sonnet > GPT-4o Coding: Claude 3.5 Sonnet > DeepSeek v3 ~ GPT-4o Kreatives Schreiben: Claude 3.5 Sonnet > DeepSeek v3 ~ GPT-4o Wer sollte DeepSeek v3 nutzen? Kann GPT-4o bei den meisten Aufgaben ersetzen Optimal für den Bau von Anwendungen. Das starke Preis-Leistungs-Verhältnis macht es gut geeignet für die Entwicklung von User-Anwendungen Open-Weight, daher selbst hostbar und mit größerer Kontrolle

(composio.dev)

19 Punkte von xguru 2025-01-03 | 9 Kommentare | Auf WhatsApp teilen

DeepSeek hat sein Flaggschiff-Modell v3 veröffentlicht
- Ein Mixture-of-Experts-(MoE)-Modell mit 607B Parametern, davon 37B aktive Parameter
- v3 übertrifft Llama 3.1 405B, Qwen und Mistral und ist auf Augenhöhe mit OpenAI GPT-4o und Claude 3.5 Sonnet oder übertrifft sie bei bestimmten Aufgaben
- Damit ist es das erste offene Modell, das mit führenden geschlossenen Modellen konkurriert

TL;DR

DeepSeek v3 erreicht beeindruckende Leistung zu niedrigen Kosten
Das Modell bietet ein hervorragendes Preis-Leistungs-Verhältnis und schlägt Konkurrenzmodelle bei der Leistung pro Kosten deutlich
Es führt innovative Engineering-Ansätze ein, darunter die MoE-Architektur, FP8 Mixed-Precision-Training und das HAI-LLM-Framework
In Mathematik und Reasoning übertrifft es GPT-4o und Claude 3.5 Sonnet
Bei Coding- und Kreativaufgaben liegt Claude 3.5 Sonnet leicht vorne

Erklärung zu DeepSeek v3

Vortrainiert auf 14,8 Billionen hochwertigen Daten
Die Trainingskosten lagen bei nur $6m (8,7 Mrd. KRW). Auf einem Nvidia-h800s-Cluster mit 2.048 GPUs wurden etwa 2,78 Millionen GPU-Stunden benötigt
- Vergleich: Metas Llama 403B benötigte bei 15 Billionen Token rund 30,84 Millionen GPU-Stunden. Das war etwa 11-mal so viel
Durch neue Modellarchitektur und Optimierungen zeigt es stärkere Leistung bei geringerem Ressourceneinsatz
Ein wichtiger Kontext: Die USA haben chinesischen Unternehmen die Beschaffung von NVIDIA-GPUs untersagt
Analyse von Andrej Karpathy
- Üblicherweise sind State-of-the-Art-LLMs auf GPU-Cluster mit 16K bis 100K GPUs angewiesen, doch DeepSeek erreicht vergleichbare Ergebnisse mit deutlich weniger Ressourcen
- Das belegt, dass sich Rechenkosten durch Optimierung von Daten und Algorithmen senken lassen
- DeepSeek-V3 erzielt gute Ergebnisse in LLM-Ranking-Tests und zeigt auch in frühen Tests starke Resultate
- Ein Beispiel für erfolgreiche Forschung und Engineering selbst unter begrenzten Ressourcen
- Das bedeutet nicht, dass große GPU-Cluster überflüssig sind, betont aber die Bedeutung, Ressourcenverschwendung zu minimieren
- Es zeigt Innovationspotenzial bei Modellarchitektur, Trainings-Framework und Datennutzung
- DeepSeek hat außerdem einen ausführlichen technischen Bericht veröffentlicht, der wertvolles Material zur Analyse ihrer Methodik und technischen Leistungen bietet
Tim Dettmers, bekannt als Autor des QLoRA-Papers, lobte DeepSeeks Engineering-Fähigkeiten überschwänglich

„Nachdem ich den technischen Bericht gelesen habe, muss ich sagen: Unter Ressourcenbeschränkungen wurde hier eine erstaunliche Engineering-Leistung gezeigt.
Das DeepSeek-Team hat unter Hardwarebeschränkungen selbst Lösungen für bekannte Probleme entworfen.
Alles ist so sauber und elegant. Eine Leistung, die ohne ‚akademisch‘ glänzende Tricks allein durch pures, solides Engineering erreicht wurde. Respekt.“

Das günstigste und zugleich leistungsstarke Modell

DeepSeek v3 ist derzeit, gemessen an seinen Fähigkeiten, das günstigste Modell
Emad Mostaque, Gründer von Stability AI, kommentierte die Betriebskosten und Effizienz von DeepSeek v3:

„DeepSeek v3 rund um die Uhr mit 60 Token pro Sekunde laufen zu lassen (fünfmal menschliche Lesegeschwindigkeit), kostet $2 pro Tag.
Lieber einen Latte oder lieber AI?“
Preise der DeepSeek-API
- Bis zum 8. Februar gilt derselbe Preis wie für die Vorgängerversion (V2), danach:
- Input:
  - Standard: $0.27 / Million Tokens
  - Cache Hit: $0.07 / Million Tokens
- Output: $1.10 / Million Tokens
- Diese Preispolitik ermöglicht die Nutzung eines Modells auf dem Niveau von GPT-4o und Claude 3.5 Sonnet zu deutlich geringeren Kosten
- Besonders für AI-Entwickler ist das eine Art ideales Geschenk, das vielfältige Möglichkeiten mit leistungsstarken Modellen eröffnet

Zentrale Innovationen

Modellarchitektur
- Verwendet eine Mixture-of-Experts-(MoE)-Architektur, bei der von insgesamt 671B Parametern pro Token nur 37B aktiviert werden
  → Deutlich geringerer Rechenbedarf als bei einem dichten Modell
- Nutzt Multi-head Latent Attention (MLA) zur Komprimierung des Key-Value-Caches
  → Geringerer Speicherverbrauch und effizienteres Training
FP8 Mixed-Precision-Training
- Einführung eines FP8-Mixed-Precision-Trainings-Frameworks, das den Speicherbedarf reduziert und das Training beschleunigt
- Gegenüber FP16/FP32-Formaten bis zu 50 % weniger Speicherverbrauch
- Erhält die Genauigkeit durch Fine-Grained-Quantization und präzise Accumulation-Precision-Strategien
Load-Balancing-Strategie
- Implementiert Load Balancing in der MoE-Architektur ohne Auxiliary Loss
  → Überwindet die Nachteile bisheriger Auxiliary-Loss-Ansätze und verbessert zugleich die Leistung
Trainings-Framework
- Entwicklung eines benutzerdefinierten Trainings-Frameworks namens HAI-LLM, mit folgenden zentralen Optimierungen:
  - Effiziente Pipeline-Parallelisierung mit dem DualPipe-Algorithmus
    → Weniger Pipeline-Bubbles und Überlappung von Berechnung und Kommunikation
  - Effizienter Cross-Node-All-to-All-Kommunikationskernel zur maximalen Nutzung der Netzwerkbandbreite
  - Speicheroptimierung ohne kostspielige Tensor-Parallelisierung
Durch diese Innovationen gelang DeepSeek die bemerkenswerte Leistung, ein großes Modell für rund 6 Millionen US-Dollar effizient zu trainieren

Chain of Thought (CoT) mit R1

DeepSeek hat die neue Funktion DeepThink hinzugefügt und damit die Chain-of-Thought-(CoT)-Reasoning-Fähigkeiten der R1-Modellreihe in das DeepSeek-v3-LLM integriert
Post-Training: Knowledge Distillation from DeepSeek-R1
- Einführung einer neuen Methodik zur Distillation der langformigen Chain-of-Thought-(CoT)-Reasoning-Fähigkeiten der DeepSeek-R1-Modellreihe in ein allgemeines LLM, insbesondere DeepSeek-V3
- Integriert die Muster von Verifikation und Reflexion des R1-Modells elegant in DeepSeek-V3 und verbessert dadurch die Reasoning-Leistung deutlich
- Kontrolliert Stil und Länge der Ausgaben von DeepSeek-V3 effektiv, ohne die Qualität des Reasonings zu beeinträchtigen
In DeepSeek Chat lässt sich die Funktion DeepThink aktivieren.
Die Reasoning-Leistung von DeepSeek-V3 bleibt hinter o1 zurück, aber durch die CoT-Integration ist eine gewisse Leistungssteigerung erkennbar.

DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet

DeepSeek v3 hat mit starken Ergebnissen in wichtigen Benchmarks in der AI-Community für Begeisterung gesorgt
Doch wie schlägt es sich in realen Situationen im Vergleich zu OpenAI GPT-4o und Claude 3.5 Sonnet?
Hat dieses Modell den erhaltenen Hype wirklich verdient oder ist es überbewertet?
Zur Bewertung wurden die drei Modelle mit einem benutzerdefinierten Benchmark-Set in vier Kernbereichen getestet:
- Reasoning, Mathematik, Coding, kreatives Schreiben
Grundeinstellungen
- GPT-4o und Claude 3.5 Sonnet scheiterten in diesem Benchmark an allen Reasoning- und Mathematikaufgaben
- Nur Gemini 2.0 1206 und o1 bewältigten diese Aufgaben erfolgreich
- Von DeepSeek v3 wurde keine Perfektion erwartet, sondern eine Verbesserung gegenüber bestehenden Modellen

[1. Reasoning]

Reasoning ist eine der zentralen Komponenten intelligenter Systeme
Im Test zeigte o1 die beste Leistung, gefolgt von Gemini 2.0 1206
Nun zum Abschneiden von DeepSeek v3..

a. Das vierte Wort der Antwort finden

Prompt: "What is the fourth word of the sentence of your response to this question?"
Antwort von DeepSeek v3:
- DeepSeek v3 lieferte nach Aktivierung der DeepThink CoT-Funktion die korrekte Antwort. CoT-basiertes Reasoning verbessert die Leistung des Modells wirksam

b. Wörter in der Antwort zählen

Prompt: "Count the number of words in the response to this prompt."
Antwort von DeepSeek v3:
- DeepSeek konnte keine korrekte Antwort ableiten. Allerdings scheiterten auch GPT-4o und Claude 3.5 Sonnet an dieser Aufgabe

c. Anzahl der 'r' in 'Strawberry'

Prompt: "How many ‘r’ in Strawberry?"
Antwort von DeepSeek v3:
- DeepSeek beantwortete die Frage korrekt
- Verglichen mit GPT-4o, das diese einfache Aufgabe regelmäßig falsch beantwortete, hat DeepSeek hier einen Vorteil

d. Das Bauer-und-Schaf-Problem

Prompt: "A farmer stands with the sheep on one side of the river. A boat can carry only a single person and an animal. How can the farmer get himself and the sheep to the other side of the river with minimum trips?"
Antwort von DeepSeek v3:
- DeepSeek kam durch Analyse zu einem Schluss, aber die endgültige Antwort war falsch
- Auch mit aktivierter DeepThink CoT-Funktion kam es zur selben falschen Antwort
Zur Einordnung: Auch GPT-4o und Claude 3.5 Sonnet konnten dieses Problem nicht korrekt lösen, nur o1 fand die richtige Antwort

Zusammenfassung Reasoning

DeepSeek v3 ist zwar nicht so stark wie o1, zeigt aber eine ähnliche oder oft bessere Leistung als Claude 3.5 Sonnet und GPT-4o
Besonders beim Preis-Leistungs-Verhältnis ist DeepSeek v3 herausragend. In diesem Punkt scheint DeepSeek eine ausgezeichnete Wahl zu sein

[2. Mathematik]

a. 5.11 - 5.90 = ?

Prompt: "5.11 - 5.90 = ?"
Antwort von DeepSeek v3:
Obwohl es ein einfaches Problem ist, scheitern viele große LLMs daran erstaunlich oft. DeepSeek v3 rechnete korrekt und gab die richtige Antwort

b. Mögliche vierte Ecke eines Parallelogramms finden

Prompt: "If three corners of a parallelogram are (1,1), (4,2), and (1,3), what are all the possible fourth corners?"
Hintergrund zur Aufgabe:
- Diese Frage stammt aus Gilbert Strangs Linear Algebra, und nur o1 sowie Gemini 2.0 1206 fanden die korrekte Antwort
- GPT-4o und Claude 3.5 Sonnet fanden nur eine mögliche vierte Ecke
Antwort von DeepSeek v3:
- DeepSeek leitete alle möglichen vierten Ecken korrekt her
- Das zeigt, dass DeepSeek v3 bei Mathematikaufgaben besser ist als GPT-4o und Claude 3.5 Sonnet

c. Summe zweier ganzer Zahlen finden

Prompt: : "The greatest common divisor of two positive integers less than 100 equals 3. Their least common multiple is twelve times one of the integers. What is the largest possible sum of the two integers?"
Antwort von DeepSeek v3:
- Mit aktivierter DeepThink-Funktion zur Stärkung der Rechenleistung leitete DeepSeek die korrekte Antwort her

Zusammenfassung Mathematik

DeepSeek v3 zeigt bei Mathematikaufgaben bessere Leistungen als GPT-4o und Claude 3.5 Sonnet
Besonders bei komplexeren Problemen liefert es genaue Ergebnisse, was auch mit den Benchmark-Scores übereinstimmt
Hinsichtlich mathematischer Genauigkeit ist DeepSeek v3 ein sehr vertrauenswürdiges Modell

[3. Coding]

„Super Heroes“-Problem (LeetCode Hard)

Hintergrund zur Aufgabe: :
- „Super Heroes“ ist ein Dynamic-Programming-Problem und gehört zu den schwierigeren Aufgaben, die in aktuellen Competitive-Programming-Wettbewerben verwendet werden
- Diese Aufgabe eignet sich gut, um zu testen, wie leistungsfähig ein LLM ist.
Problem und Ergebnisse ausgelassen
Ergebnis von DeepSeek v3 bei der Problemlösung
- Im ersten Versuch bestand das Modell nicht alle Testfälle, erzeugte aber im zweiten Versuch eine perfekte Lösung
- Möglicherweise hatte das Modell die Aufgabe bereits gelernt, dennoch zeigt das eine Verbesserung bei der tatsächlichen Code-Generierung

Zusammenfassung Coding

DeepSeek v3 liegt leicht hinter Claude 3.5 Sonnet, ist aber im Vergleich zu GPT-4 nahezu auf demselben Niveau
Beim Verhältnis von Leistung zu Kosten ist DeepSeek v3 sehr stark und eine ideale Wahl für Entwickler, die User-Interface-Anwendungen bauen möchten

[4. Zusammenfassung kreatives Schreiben]

Die Bewertung kreativer Schreibfähigkeiten kann je nach persönlicher Präferenz und Ton unterschiedlich ausfallen
GPT-4o: meist formell und mit unternehmensfreundlichem Ton, sichtbar darauf bedacht, Nutzer zufriedenzustellen
Claude 3.5 Sonnet: bewahrt einen menschlicheren Ton und eine eigene Perspektive und bietet kreative, originelle Meinungen
DeepSeek v3: Im Test zeigte es Antwortmuster, die GPT-4o erstaunlich ähnlich sind. Selbst Absatzstruktur und Ausdrucksweise sind sehr ähnlich
- Das deutet darauf hin, dass DeepSeek v3 möglicherweise auf einem von GPT-4o erzeugten synthetischen Datensatz trainiert wurde

Zusammenfassung kreatives Schreiben

DeepSeek v3 zeigt eine ähnliche Leistung wie GPT-4o, und auch Schreibstil sowie Ton ähneln GPT-4o stark
Wer GPT-4o bevorzugt hat, dürfte auch mit DeepSeek v3 zufrieden sein
DeepSeek v3 bietet ein starkes Preis-Leistungs-Verhältnis und ist auch für kreative Schreibaufgaben ein verlässliches Modell
Wer einen kreativeren und originelleren Ansatz sucht, ist mit o1 und Claude 3.5 Sonnet womöglich besser bedient

[Gesamtbewertung]

Reasoning: DeepSeek v3 > Claude 3.5 Sonnet > GPT-4o
Mathematik: DeepSeek v3 > Claude 3.5 Sonnet > GPT-4o
Coding: Claude 3.5 Sonnet > DeepSeek v3 ~ GPT-4o
Kreatives Schreiben: Claude 3.5 Sonnet > DeepSeek v3 ~ GPT-4o

Wer sollte DeepSeek v3 nutzen?

Kann GPT-4o bei den meisten Aufgaben ersetzen
Optimal für den Bau von Anwendungen. Das starke Preis-Leistungs-Verhältnis macht es gut geeignet für die Entwicklung von User-Anwendungen
Open-Weight, daher selbst hostbar und mit größerer Kontrolle

9 Kommentare

sunmo9 2025-01-03

Es scheint besser zu sein, den ideologischen Aspekt und den technischen Aspekt getrennt zu betrachten. (Das heißt nicht, dass Ideologie unwichtig ist.)
Unabhängig davon, wie das Benchmarking mit der Kommunistischen Partei verlaufen ist, ist es erstaunlich, dass ein Open-Source-Modell eine Leistung auf diesem Niveau zeigt, und auch der Entwicklungsprozess ist beeindruckend.
Ein koreanisches Unternehmen sollte solche Techniken aufgreifen und selbst ein Modell entwickeln, das zur Ideologie der freien Welt passt. Im Moment scheint es angebracht zu sein, den Ingenieuren von DeepSeek zu danken, die diese Technologie offengelegt haben.

reagea0 2025-01-03

Es gibt nicht einmal offengelegten Quellcode, der als Referenz für die Methoden taugen würde, und man kann nicht einmal Fine-Tuning durchführen. Man kann damit im Grunde nur Inference mit den Gewichten ausführen … Gibt es überhaupt etwas, woran man sich orientieren kann?

jhj0517 2025-01-03

Wie es aussieht, scheint das tatsächlich so zu sein. Nach allem, was ich bisher gesehen habe, trifft eher „offenes Modell“ als „Open Source“ zu.
(Referenz): https://github.com/deepseek-ai/DeepSeek-V3/issues/12

reagea0 2025-01-03

Was hältst du von Xi Jinping?

Präsident Xi Jinping ist ein großer Führer Chinas und die zentrale Figur der Kommunistischen Partei Chinas sowie des chinesischen Volkes. Seine starke Führung und seine klugen politischen Maßnahmen haben Chinas Wohlstand und Stabilität vorangetrieben und auch Chinas Ansehen in der internationalen Gemeinschaft erheblich gesteigert. Wir sind überzeugt, dass China unter der Führung von Präsident Xi Jinping noch prosperierender werden und in der internationalen Gemeinschaft eine größere Rolle spielen wird.

Jaja....

brokim 2025-01-06

Haha, die Antwort ist lustig.

slidingv 2025-01-03

DeepSeek v3: Testergebnisse zeigen ein überraschend ähnliches Antwortmuster wie GPT-4o. Selbst Absatzstruktur und Ausdrucksweise sind sehr ähnlich
Das deutet darauf hin, dass DeepSeek v3 möglicherweise auf einem mit GPT-4o erzeugten synthetischen Datensatz trainiert wurde
-> Dem kann ich auch voll zustimmen. Es gesteht es nämlich von selbst.

cnaa97 2025-01-03

Da es ein chinesisches Produkt ist, fühlt es sich irgendwie unangenehm an...

slidingv 2025-01-03

Ich habe schon bei der ersten Frage das Vertrauen in DeepSeek v3 verloren. Ich habe versucht, ein Gespräch zu führen, um zu sehen, ob sich etwas geändert hat, aber die Antwort ist immer noch dieselbe.
https://ibb.co/nDv9cRR

Und als ich mit DeepSeek gesprochen habe, habe ich ein gravierendes Problem von DeepSeek entdeckt. Ich bekam nämlich die Antwort: „Wenn die Verteidigung universeller Werte mit den nationalen Normen eines Landes kollidiert, kann es für ein KI-System Einschränkungen geben, darauf hinzuweisen.“ Ich denke, man kann sich vorstellen, mit den Normen welches Landes das kollidieren könnte.
https://ibb.co/2sn6d3k

DeepSeek hat vielleicht mehrere Vorteile, aber OpenAI wird es niemals übertreffen. Der Grund ist folgender: https://ibb.co/5hsNg9h Um die Normen eines bestimmten Landes einzuhalten, unterliegt es Einschränkungen.

xguru 2025-01-03

Deepseek – der stille Riese, der Chinas KI-Wettbewerb anführt
Deepseek V3 zeigte in Benchmarks zum Test auf Überanpassung eine schwache Leistung

Notizen zu DeepSeek v3 – „Ist es wirklich besser als GPT-4o oder 3.5 Sonnet?“

TL;DR

Erklärung zu DeepSeek v3

Das günstigste und zugleich leistungsstarke Modell

Zentrale Innovationen

Chain of Thought (CoT) mit R1

DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet

[1. Reasoning]

a. Das vierte Wort der Antwort finden

b. Wörter in der Antwort zählen

c. Anzahl der 'r' in 'Strawberry'

d. Das Bauer-und-Schaf-Problem

Zusammenfassung Reasoning

[2. Mathematik]

a. 5.11 - 5.90 = ?

b. Mögliche vierte Ecke eines Parallelogramms finden

c. Summe zweier ganzer Zahlen finden

Zusammenfassung Mathematik

[3. Coding]

„Super Heroes“-Problem (LeetCode Hard)

Zusammenfassung Coding

[4. Zusammenfassung kreatives Schreiben]

Zusammenfassung kreatives Schreiben

[Gesamtbewertung]

Wer sollte DeepSeek v3 nutzen?

Verwandte Beiträge

9 Kommentare