8 Punkte von GN⁺ 2025-01-21 | 5 Kommentare | Auf WhatsApp teilen
  • DeepSeek hat die Inferenzmodelle der ersten Generation, DeepSeek-R1-Zero und DeepSeek-R1, veröffentlicht
  • DeepSeek-R1-Zero wurde ausschließlich mit groß angelegtem Reinforcement Learning (RL) trainiert und hat dabei selbstständig verschiedene Inferenzfähigkeiten erworben
  • Dabei traten jedoch Probleme mit Wiederholungen/Lesbarkeit sowie Sprachmischung auf; um diese zu beheben und die Leistung zu steigern, wurde DeepSeek-R1 mit einem zusätzlichen SFT-Schritt vorgestellt
  • DeepSeek-R1 erreicht bei Mathematik-, Code- und Inferenzaufgaben ein Leistungsniveau auf Höhe von OpenAI-o1
  • Zur Unterstützung der Research-Community werden DeepSeek-R1-Zero, DeepSeek-R1 sowie Distillation-Modelle veröffentlicht, die aus diesen Modellen Inferenzmuster übertragen haben
  • Insbesondere das Modell DeepSeek-R1-Distill-Qwen-32B erzielt eine Leistung, die OpenAI-o1-mini übertrifft

Modellübersicht

  • Post-Training: Groß angelegtes Reinforcement Learning für das Basismodell

    • DeepSeek-R1-Zero ist ein Modell der ersten Generation, auf das ohne SFT nur RL angewendet wurde
    • Im RL-Prozess wurden verschiedene Inferenzmuster erlernt, darunter Chain-of-thought-Erkundung, Selbstüberprüfung und Reflexion (reflection)
    • Dies zeigt, dass „auch ohne SFT große Modelle allein mit RL starke Inferenzfähigkeiten erlangen können“
    • DeepSeek-R1 baut auf diesem Prozess auf und stärkt durch ein zwischengeschaltetes SFT sowohl die Inferenzfähigkeit als auch die allgemeine Sprachverwendung weiter
  • Distillation: Auch kleine Modelle können leistungsstark sein

    • Es wurde demonstriert, dass sich die von großen Modellen gelernten Inferenzmuster auch auf kleinere Modelle übertragen lassen
    • Mit von DeepSeek-R1 erzeugten Daten wurde Fine-Tuning für Reihen wie Qwen und Llama durchgeführt, wobei auch kleine Dense-Modelle starke Leistung zeigten
    • Es werden verschiedene Distill-Modelle in Größen von 1.5B, 7B, 8B, 14B, 32B und 70B veröffentlicht

Modelldownload

DeepSeek-R1 Models

  • DeepSeek-R1-Zero / DeepSeek-R1
    • Parameter: insgesamt 671B (tatsächlich aktive Parameter: 37B)
    • Kontextlänge 128K
    • Download über HuggingFace möglich; trainiert wurde mit einem RL-Ansatz auf Basis des Modells DeepSeek-V3-Base

DeepSeek-R1-Distill Models

  • Distillation auf Basis der Reihen Qwen2.5 und Llama3
  • Verschiedene Parametergrößen von 1.5B bis 70B verfügbar
  • Fine-Tuning mit hochwertigen, von DeepSeek-R1 erzeugten Inferenzdaten
  • Einige Einstellungen (tokenizer, config) wurden geändert, daher sollten die angegebenen Konfigurationen verwendet werden

Evaluationsergebnisse

DeepSeek-R1-Evaluation

  • DeepSeek-R1 erreicht hohe Werte in Englisch (MMLU, DROP usw.), Code (Codeforces, LiveCodeBench usw.), Mathematik (AIME, MATH-500 usw.) und Chinesisch (C-Eval usw.)
  • Insbesondere in Mathematik verzeichnet es bei AIME und MATH-500 hohe pass@1-Werte
  • Im Vergleich mit OpenAI-o1-mini, Claude, GPT-4 usw. zeigt es in mehreren Kategorien wettbewerbsfähige Leistung

Distilled Model Evaluation

  • Auch die Distillation-Modelle zeigen hervorragende Ergebnisse in Benchmarks für Mathematik (AIME, MATH usw.) und Code (Codeforces usw.)
  • DeepSeek-R1-Distill-Qwen-32B und DeepSeek-R1-Distill-Llama-70B zeigen hohe pass@1-Werte und starke Leistungen beim Lösen von Code-Aufgaben, was das Potenzial kleinerer Modelle nahelegt

Chat-Website & API-Plattform

Lokale Ausführung

DeepSeek-R1 Models

  • Unter Bezug auf das DeepSeek-V3-Repository kann das Modell nach Prüfung von Details wie der maximalen Länge von 128K Tokens lokal ausgeführt werden

DeepSeek-R1-Distill Models

  • Kann auf die gleiche Weise wie Qwen- und Llama-Modelle verwendet werden
  • Beispiel: schnelles Serving mit vLLM oder SGLang
  • Empfohlen wird eine Temperatur (temperature) von etwa 0.5 bis 0.7

Lizenz

  • Die DeepSeek-R1-Serie wird unter der MIT-Lizenz verteilt
  • Zu beachten ist jedoch, dass Qwen-basierte Modelle Apache 2.0 und Llama-basierte Modelle die Lizenz llama3.x verwenden
  • Die Lizenzpolitik ist flexibel und erlaubt unter anderem kommerzielle Nutzung sowie das Erstellen modifizierter und abgeleiteter Modelle

5 Kommentare

 
crawler 2025-01-21

Ich habe gesehen, dass manche in den Kommentaren schön formatierte Links setzen oder den Haupttext zitieren. Gibt es vielleicht irgendwo eine Übersicht über die Syntax, die man in Kommentaren verwenden kann?
Nachdem ich ein paar Tage mitgelesen habe, gefällt mir die Seite immer besser, sodass ich nun auch Kommentare schreiben möchte.

 
savvykang 2025-01-21

https://news.hada.io/guidelines

> Markdown wird unterstützt
> Sowohl im Haupttext als auch in Kommentaren.
> Grundsätzlich wird die CommonMark-Spezifikation befolgt.
> Bilder werden nicht unterstützt.

 
crawler 2025-01-21

Danke. Ich wollte ein Zitat in einem anderen Kommentar ausprobieren, aber weil ich es nicht mehr bearbeiten konnte, habe ich es sicherheitshalber nicht verwendet. Also war das Markdown doch richtig.
Ich werde es nützlich einsetzen, haha

 
GN⁺ 2025-01-21
Hacker-News-Kommentare
  • Es werden Experimente mit einer quantisierten Version von Llama 3 durchgeführt. Das Modell wird mit Ollama und dem Plugin llm-ollama ausgeführt und protokolliert. Nach dem Laden des Modells können mit uvx verschiedene Prompts getestet werden. Die Versuchsergebnisse wurden in einem Blogbeitrag festgehalten.

  • DeepSeek-R1-Zero hatte Probleme mit Wiederholungen, Lesbarkeit und Sprachmischung. Um das zu beheben, wurde DeepSeek-R1 eingeführt. In Experimenten mit OpenAI o1 und QwQ-32B-Preview neigte QwQ dazu, in Wiederholungsschleifen zu geraten. DeepSeek-R1 behebt diese Probleme. Es wird unter der MIT-Lizenz bereitgestellt, sodass mehr Menschen es bewerten können.

  • Bei der Frage nach der Anzahl der r in "strawberry" zeigt das Modell, wie es mit sich selbst diskutiert und dabei die richtige Antwort findet. Dieser Prozess wird als unterhaltsam beschrieben.

  • Ein Vergleich von ChatGPT o1, DeepSeeks DeepThink und Gemini 2.0 Flash Thinking Experimental ergab, dass ChatGPT o1 am besten abschnitt und DeepSeek am schwächsten war. Tests mit DeepSeek-R1 zeigten eine bessere Leistung als zuvor. Für den eigenen Anwendungsfall wurde ein LLM als nützlicher empfunden.

  • Benchmark-Ergebnisse zeigen, dass das Llama-8B-Modell leistungsfähiger ist als Claude 3.5 Sonnet. Es wird Überraschung darüber geäußert, dass ein kleines Modell eine so starke Leistung zeigt.

  • Es wird als erstaunlich bezeichnet, dass ein kleines Unternehmen, das vor einem Jahr gegründet wurde, mit OpenAI konkurrieren kann. China liege im Bereich KI vor den USA, und weil die Modelle als Open Source bereitgestellt werden, werde das Unternehmen als die eigentliche "Open AI"-Firma bewertet.

  • Es gab anfangs Erwartungen an DS3, aber dann wurden Probleme wie Funktionsaufrufe, nachlassende Antwortqualität und mangelnder Support festgestellt. Dadurch nahm jedoch der Traffic auf andere APIs ab, was die Latenz verbesserte.

  • Es wird Verwirrung über den Unterschied zwischen den Versionen 7b und 8b ausgedrückt. Außerdem wird mitgeteilt, dass die Qwen-7B-Version auf Ollama hochgeladen wurde.