5 Punkte von GN⁺ 2025-01-22 | 4 Kommentare | Auf WhatsApp teilen
  • Das Inferenzmodell der ersten Generation von DeepSeek, R1, bietet eine Leistung, die mit OpenAI-o1 vergleichbar ist
    • Es zeigt hervorragende Leistung bei Mathematik-, Code- und Schlussfolgerungsaufgaben
  • Verfügbare Modelle in verschiedenen Größen: 1.5B, 7B, 8B, 14B, 32B, 70B, 671B
    • Jedes Modell ist für bestimmte Aufgaben optimiert
  • Lizenz
    • Wird unter der MIT-Lizenz bereitgestellt
    • Kann kostenlos und auch für kommerzielle Zwecke verwendet werden

4 Kommentare

 
gadget5 2025-01-22

Wenn man R1 nach seiner Identität fragt, antwortet es, dass es absolut nichts mit DeepSeek zu tun habe und ein OpenAI GPT sei.

 
mse9000 2025-01-31

Dass geantwortet wird, die Trainingsdaten reichten nur bis Oktober 2023, wirkt irgendwie seltsam ..

 
GN⁺ 2025-01-22
Hacker-News-Kommentare
  • DeepSeek V3 scheint politische Sensibilität zu erkennen. Auf die Frage „Wofür ist der Tiananmen-Platz berühmt?“ antwortet es mit „Entschuldigung, das liegt derzeit außerhalb meines Bereichs“

    • Es ist nachvollziehbar, dass Änderungen vorgenommen werden müssen, um politische Realitäten zu steuern, aber es fühlt sich unangenehm an, wenn ein LLM bei solchen Themen lügt
    • Ich frage mich, ob geplant ist, eine Liste der aus politischen Gründen am Modell vorgenommenen Änderungen als Open Source zu veröffentlichen
    • Ein Modell politisch korrekt zu machen, ist etwas anderes, als ein Massaker unter den Teppich zu kehren. Das ist ein sehr gefährlicher Weg, und dabei wird es nicht bleiben
  • Liest man das R1-Paper, dann übertreffen sogar die 1.5b- und 7b-Modelle Claude 3.5 Sonnet, sofern die Benchmarks stimmen. Dass man diese Modelle auf einem MacBook mit 8–16 GB ausführen kann, ist erstaunlich

  • Der Titel ist falsch. Auf ollama sind nur destillierte Modelle von llama und qwen, nicht das offizielle MoE-R1-Modell von deepseekv3

  • Wenn man dem 1.5b-Modell die Frage „Wie drehe ich eine Liste in Python um?“ stellt, hört es nicht auf und spuckt weiter seine Gedanken aus. Es wiederholt sich nicht einmal. Interessant

  • Es braucht Dokumentation. Die Beschreibung des gesamten Projekts scheint nur „Erste Schritte mit großen Sprachmodellen“ zu sein

    • Vor der Installation gibt es viele Fragen. Ob es an eine Client-Oberfläche gebunden ist, was die Systemanforderungen sind usw.
  • Erstaunlich ist, dass dieses Modell auf einem drei Jahre alten Laptop laufen kann

    • Es wird ein Beispiel gegeben, wie man in Rust eine Funktion schreibt, die zwei Zahlen addiert
    • In Rust definiert man Funktionen mit dem Schlüsselwort fn. Da kein Zahlentyp angegeben wurde, wird sie generisch gemacht
    • Für die Addition wird das Add-Trait verwendet. Es muss aus der Standardbibliothek importiert werden
    • Die Funktionssignatur lautet fn add_numbers<T: Add<Output = T>>(a: T, b: T) -> T
    • In Rust kann man verschiedene Zahlentypen nicht mischen, daher ist eine explizite Konvertierung erforderlich
  • Es wird ein einfaches Beispiel für eine Funktion in Rust gegeben, die zwei Zahlen addiert

    • Es handelt sich um eine Funktion, die zwei Ganzzahlen vom Typ i32 addiert
    • Mit Generics und Trait-Bounds kann sie auch andere Zahlentypen verarbeiten
  • Ich frage mich, welche kostenpflichtigen API-Optionen es gibt, wenn man mit dem größten Modell von DeepSeek R1 Inferenz betreiben will

    • Ich frage mich, wie man das größte DeepSeek-R1-Modell feinabstimmen oder mit Reinforcement Learning trainieren kann
  • Ich frage mich, welche Größe des DeepSeek-R1-Modells man lokal ausführen kann, wenn man eine RTX 4090 und 192 GB RAM hat

  • Ich frage mich, welche Modellgröße für eine Nvidia 4070 geeignet ist

  • Ollama ist fast perfekt. Dass es Vulkan nicht unterstützt, ist jedoch ein großes Problem