DeepSeek-R1-Modelle veröffentlicht
(github.com/deepseek-ai)- DeepSeek hat die Inferenzmodelle der ersten Generation, DeepSeek-R1-Zero und DeepSeek-R1, veröffentlicht
- DeepSeek-R1-Zero wurde ausschließlich mit groß angelegtem Reinforcement Learning (RL) trainiert und hat dabei selbstständig verschiedene Inferenzfähigkeiten erworben
- Dabei traten jedoch Probleme mit Wiederholungen/Lesbarkeit sowie Sprachmischung auf; um diese zu beheben und die Leistung zu steigern, wurde DeepSeek-R1 mit einem zusätzlichen SFT-Schritt vorgestellt
- DeepSeek-R1 erreicht bei Mathematik-, Code- und Inferenzaufgaben ein Leistungsniveau auf Höhe von OpenAI-o1
- Zur Unterstützung der Research-Community werden DeepSeek-R1-Zero, DeepSeek-R1 sowie Distillation-Modelle veröffentlicht, die aus diesen Modellen Inferenzmuster übertragen haben
- Insbesondere das Modell DeepSeek-R1-Distill-Qwen-32B erzielt eine Leistung, die OpenAI-o1-mini übertrifft
Modellübersicht
-
Post-Training: Groß angelegtes Reinforcement Learning für das Basismodell
- DeepSeek-R1-Zero ist ein Modell der ersten Generation, auf das ohne SFT nur RL angewendet wurde
- Im RL-Prozess wurden verschiedene Inferenzmuster erlernt, darunter Chain-of-thought-Erkundung, Selbstüberprüfung und Reflexion (reflection)
- Dies zeigt, dass „auch ohne SFT große Modelle allein mit RL starke Inferenzfähigkeiten erlangen können“
- DeepSeek-R1 baut auf diesem Prozess auf und stärkt durch ein zwischengeschaltetes SFT sowohl die Inferenzfähigkeit als auch die allgemeine Sprachverwendung weiter
-
Distillation: Auch kleine Modelle können leistungsstark sein
- Es wurde demonstriert, dass sich die von großen Modellen gelernten Inferenzmuster auch auf kleinere Modelle übertragen lassen
- Mit von DeepSeek-R1 erzeugten Daten wurde Fine-Tuning für Reihen wie Qwen und Llama durchgeführt, wobei auch kleine Dense-Modelle starke Leistung zeigten
- Es werden verschiedene Distill-Modelle in Größen von 1.5B, 7B, 8B, 14B, 32B und 70B veröffentlicht
Modelldownload
DeepSeek-R1 Models
- DeepSeek-R1-Zero / DeepSeek-R1
- Parameter: insgesamt 671B (tatsächlich aktive Parameter: 37B)
- Kontextlänge 128K
- Download über HuggingFace möglich; trainiert wurde mit einem RL-Ansatz auf Basis des Modells DeepSeek-V3-Base
DeepSeek-R1-Distill Models
- Distillation auf Basis der Reihen Qwen2.5 und Llama3
- Verschiedene Parametergrößen von 1.5B bis 70B verfügbar
- Fine-Tuning mit hochwertigen, von DeepSeek-R1 erzeugten Inferenzdaten
- Einige Einstellungen (
tokenizer,config) wurden geändert, daher sollten die angegebenen Konfigurationen verwendet werden
Evaluationsergebnisse
DeepSeek-R1-Evaluation
- DeepSeek-R1 erreicht hohe Werte in Englisch (MMLU, DROP usw.), Code (Codeforces, LiveCodeBench usw.), Mathematik (AIME, MATH-500 usw.) und Chinesisch (C-Eval usw.)
- Insbesondere in Mathematik verzeichnet es bei AIME und MATH-500 hohe
pass@1-Werte - Im Vergleich mit OpenAI-o1-mini, Claude, GPT-4 usw. zeigt es in mehreren Kategorien wettbewerbsfähige Leistung
Distilled Model Evaluation
- Auch die Distillation-Modelle zeigen hervorragende Ergebnisse in Benchmarks für Mathematik (AIME, MATH usw.) und Code (Codeforces usw.)
- DeepSeek-R1-Distill-Qwen-32B und DeepSeek-R1-Distill-Llama-70B zeigen hohe
pass@1-Werte und starke Leistungen beim Lösen von Code-Aufgaben, was das Potenzial kleinerer Modelle nahelegt
Chat-Website & API-Plattform
- Auf chat.deepseek.com kann DeepSeek-R1 im Dialog ausprobiert werden
- Zudem wird die OpenAI-kompatible API-Plattform platform.deepseek.com angeboten
Lokale Ausführung
DeepSeek-R1 Models
- Unter Bezug auf das DeepSeek-V3-Repository kann das Modell nach Prüfung von Details wie der maximalen Länge von 128K Tokens lokal ausgeführt werden
DeepSeek-R1-Distill Models
- Kann auf die gleiche Weise wie Qwen- und Llama-Modelle verwendet werden
- Beispiel: schnelles Serving mit vLLM oder SGLang
- Empfohlen wird eine Temperatur (
temperature) von etwa 0.5 bis 0.7
Lizenz
- Die DeepSeek-R1-Serie wird unter der MIT-Lizenz verteilt
- Zu beachten ist jedoch, dass Qwen-basierte Modelle Apache 2.0 und Llama-basierte Modelle die Lizenz llama3.x verwenden
- Die Lizenzpolitik ist flexibel und erlaubt unter anderem kommerzielle Nutzung sowie das Erstellen modifizierter und abgeleiteter Modelle
5 Kommentare
Deepseek – der stille Gigant, der Chinas AI-Wettbewerb anführt
Deepseek V3 zeigte in Benchmarks, die auf Overfitting testen, eine schlechte Leistung
Notizen zu DeepSeek v3 – „Ist es wirklich besser als GPT-4o oder 3.5 Sonnet?“
Ich habe gesehen, dass manche in den Kommentaren schön formatierte Links setzen oder den Haupttext zitieren. Gibt es vielleicht irgendwo eine Übersicht über die Syntax, die man in Kommentaren verwenden kann?
Nachdem ich ein paar Tage mitgelesen habe, gefällt mir die Seite immer besser, sodass ich nun auch Kommentare schreiben möchte.
https://news.hada.io/guidelines
> Markdown wird unterstützt
> Sowohl im Haupttext als auch in Kommentaren.
> Grundsätzlich wird die CommonMark-Spezifikation befolgt.
> Bilder werden nicht unterstützt.
Danke. Ich wollte ein Zitat in einem anderen Kommentar ausprobieren, aber weil ich es nicht mehr bearbeiten konnte, habe ich es sicherheitshalber nicht verwendet. Also war das Markdown doch richtig.
Ich werde es nützlich einsetzen, haha
Hacker-News-Kommentare
Es werden Experimente mit einer quantisierten Version von Llama 3 durchgeführt. Das Modell wird mit Ollama und dem Plugin llm-ollama ausgeführt und protokolliert. Nach dem Laden des Modells können mit
uvxverschiedene Prompts getestet werden. Die Versuchsergebnisse wurden in einem Blogbeitrag festgehalten.DeepSeek-R1-Zero hatte Probleme mit Wiederholungen, Lesbarkeit und Sprachmischung. Um das zu beheben, wurde DeepSeek-R1 eingeführt. In Experimenten mit OpenAI o1 und QwQ-32B-Preview neigte QwQ dazu, in Wiederholungsschleifen zu geraten. DeepSeek-R1 behebt diese Probleme. Es wird unter der MIT-Lizenz bereitgestellt, sodass mehr Menschen es bewerten können.
Bei der Frage nach der Anzahl der
rin "strawberry" zeigt das Modell, wie es mit sich selbst diskutiert und dabei die richtige Antwort findet. Dieser Prozess wird als unterhaltsam beschrieben.Ein Vergleich von ChatGPT o1, DeepSeeks DeepThink und Gemini 2.0 Flash Thinking Experimental ergab, dass ChatGPT o1 am besten abschnitt und DeepSeek am schwächsten war. Tests mit DeepSeek-R1 zeigten eine bessere Leistung als zuvor. Für den eigenen Anwendungsfall wurde ein LLM als nützlicher empfunden.
Benchmark-Ergebnisse zeigen, dass das Llama-8B-Modell leistungsfähiger ist als Claude 3.5 Sonnet. Es wird Überraschung darüber geäußert, dass ein kleines Modell eine so starke Leistung zeigt.
Es wird als erstaunlich bezeichnet, dass ein kleines Unternehmen, das vor einem Jahr gegründet wurde, mit OpenAI konkurrieren kann. China liege im Bereich KI vor den USA, und weil die Modelle als Open Source bereitgestellt werden, werde das Unternehmen als die eigentliche "Open AI"-Firma bewertet.
Es gab anfangs Erwartungen an DS3, aber dann wurden Probleme wie Funktionsaufrufe, nachlassende Antwortqualität und mangelnder Support festgestellt. Dadurch nahm jedoch der Traffic auf andere APIs ab, was die Latenz verbesserte.
Es wird Verwirrung über den Unterschied zwischen den Versionen 7b und 8b ausgedrückt. Außerdem wird mitgeteilt, dass die Qwen-7B-Version auf Ollama hochgeladen wurde.