3 Punkte von GN⁺ 2025-01-26 | 1 Kommentare | Auf WhatsApp teilen
  • DeepSeek-R1: Stärkung der Inferenzfähigkeiten von LLMs

    • Vorstellung der Inferenzmodelle der ersten Generation DeepSeek-R1-Zero und DeepSeek-R1
    • DeepSeek-R1-Zero wurde durch groß angelegtes Reinforcement Learning trainiert und zeigt auch ohne überwachtes Fine-Tuning hervorragende Inferenzfähigkeiten
    • Es steht jedoch vor Herausforderungen wie Lesbarkeitsproblemen und Sprachmischung
    • Um diese Probleme zu lösen und die Inferenzleistung zu verbessern, wird DeepSeek-R1 eingeführt, einschließlich mehrstufigen Trainings und der Nutzung anfänglicher Daten vor dem Reinforcement Learning
    • DeepSeek-R1 erreicht eine Leistung, die mit OpenAI-o1-1217 vergleichbar ist
    • Zur Unterstützung der Forschungsgemeinschaft werden DeepSeek-R1-Zero, DeepSeek-R1 sowie sechs auf Qwen und Llama basierende destillierte Dense-Modelle (1.5B, 7B, 8B, 14B, 32B, 70B) als Open Source bereitgestellt
  • Themen und Zitation

    • Themen: Computation and Language (cs.CL); Künstliche Intelligenz (cs.AI); Maschinelles Lernen (cs.LG)
    • Zitation: arXiv:2501.12948 [cs.CL]
  • Einreichungsverlauf

    • Eingereicht von: Wenfeng Liang
    • Einreichungsdatum: 22. Januar 2025
  • Zugriffsmöglichkeiten

    • Zugriff auf das Paper in verschiedenen Formaten wie PDF, HTML und TeX-Quelltext
  • Literatur- und Zitationswerkzeuge

    • Verschiedene Literatur- und Zitationswerkzeuge verfügbar
  • Code, Daten, Medien

    • Zugehöriger Code und Daten verfügbar
  • Informationen zu arXivLabs

    • Beschreibung und Unterstützungsinformationen zu arXivLabs

1 Kommentare

 
GN⁺ 2025-01-26
Hacker-News-Kommentare
  • Das DeepSeek-V3-Paper gilt als Pflichtlektüre im Vorfeld

    • Die Kombination aus R1 + Sonnet ist anderen Kombinationen überlegen
    • Unabhängige Reproduktionsstudien laufen an mehreren Stellen
    • R1-Destillation ist sehr einfach und wird daher häufig vorkommen
    • DeepSeek-R1 sorgt im Silicon Valley für großes Aufsehen
  • Beim Ausprobieren des r1-14b-Modells von Ollama erinnerte es daran, wie ein Mensch in Echtzeit verschiedene Ansätze ausprobiert und Alternativen auswählt

  • DeepSeek V3 kam genau zur richtigen Zeit, als Claude Sonnet Probleme hatte

    • Der sehr niedrige Preis von DeepSeek ist ein großer Vorteil
    • Vollständig von Aider und Cursor auf DeepSeek umgestiegen
  • Die Chat-Funktion von DeepSeek ist einfacher zu nutzen als ChatGPT Pro

    • Man kann den Denkprozess des Modells lesen, was das Debugging erleichtert
  • Überraschend ist, dass der Denkprozess des GPT-O1-Modells intern im Modell abläuft

    • Ich frage mich, ob OpenAI den Denkprozess von O1 offenlegen wird
  • Nicht nur die Leistung von DeepSeek R1, sondern auch die kleineren destillierten Modelle sind beeindruckend

    • Auch das auf Qwen basierende destillierte 7b-Modell ist hervorragend
    • Das destillierte 32b-Modell wird als Standardmodell auf dem Heimserver verwendet
  • Larry Ellison und Masayoshi Son verfolgen über ASI das Ziel der Unsterblichkeit

    • Dafür tätigen sie massive Investitionen in die Entwicklung von ASI
  • Auf arXiv veröffentlicht ein Team mit mehr als 100 Autorinnen und Autoren Papers unter einem Teamnamen

    • Das trägt dazu bei, Teamarbeit und Moral zu stärken