-
DeepSeek-R1: Stärkung der Inferenzfähigkeiten von LLMs
- Vorstellung der Inferenzmodelle der ersten Generation DeepSeek-R1-Zero und DeepSeek-R1
- DeepSeek-R1-Zero wurde durch groß angelegtes Reinforcement Learning trainiert und zeigt auch ohne überwachtes Fine-Tuning hervorragende Inferenzfähigkeiten
- Es steht jedoch vor Herausforderungen wie Lesbarkeitsproblemen und Sprachmischung
- Um diese Probleme zu lösen und die Inferenzleistung zu verbessern, wird DeepSeek-R1 eingeführt, einschließlich mehrstufigen Trainings und der Nutzung anfänglicher Daten vor dem Reinforcement Learning
- DeepSeek-R1 erreicht eine Leistung, die mit OpenAI-o1-1217 vergleichbar ist
- Zur Unterstützung der Forschungsgemeinschaft werden DeepSeek-R1-Zero, DeepSeek-R1 sowie sechs auf Qwen und Llama basierende destillierte Dense-Modelle (1.5B, 7B, 8B, 14B, 32B, 70B) als Open Source bereitgestellt
-
Themen und Zitation
- Themen: Computation and Language (cs.CL); Künstliche Intelligenz (cs.AI); Maschinelles Lernen (cs.LG)
- Zitation: arXiv:2501.12948 [cs.CL]
-
Einreichungsverlauf
- Eingereicht von: Wenfeng Liang
- Einreichungsdatum: 22. Januar 2025
-
Zugriffsmöglichkeiten
- Zugriff auf das Paper in verschiedenen Formaten wie PDF, HTML und TeX-Quelltext
-
Literatur- und Zitationswerkzeuge
- Verschiedene Literatur- und Zitationswerkzeuge verfügbar
-
Code, Daten, Medien
- Zugehöriger Code und Daten verfügbar
-
Informationen zu arXivLabs
- Beschreibung und Unterstützungsinformationen zu arXivLabs
1 Kommentare
Hacker-News-Kommentare
Das DeepSeek-V3-Paper gilt als Pflichtlektüre im Vorfeld
Beim Ausprobieren des
r1-14b-Modells von Ollama erinnerte es daran, wie ein Mensch in Echtzeit verschiedene Ansätze ausprobiert und Alternativen auswähltDeepSeek V3 kam genau zur richtigen Zeit, als Claude Sonnet Probleme hatte
Die Chat-Funktion von DeepSeek ist einfacher zu nutzen als ChatGPT Pro
Überraschend ist, dass der Denkprozess des GPT-O1-Modells intern im Modell abläuft
Nicht nur die Leistung von DeepSeek R1, sondern auch die kleineren destillierten Modelle sind beeindruckend
Larry Ellison und Masayoshi Son verfolgen über ASI das Ziel der Unsterblichkeit
Auf arXiv veröffentlicht ein Team mit mehr als 100 Autorinnen und Autoren Papers unter einem Teamnamen