Offizielle Aufnahme von DeepSeek R1 in Ollama

(ollama.com)

5 Punkte von GN⁺ 2025-01-22 | 4 Kommentare | Auf WhatsApp teilen

Das Inferenzmodell der ersten Generation von DeepSeek, R1, bietet eine Leistung, die mit OpenAI-o1 vergleichbar ist
- Es zeigt hervorragende Leistung bei Mathematik-, Code- und Schlussfolgerungsaufgaben
Verfügbare Modelle in verschiedenen Größen: 1.5B, 7B, 8B, 14B, 32B, 70B, 671B
- Jedes Modell ist für bestimmte Aufgaben optimiert
Lizenz
- Wird unter der MIT-Lizenz bereitgestellt
- Kann kostenlos und auch für kommerzielle Zwecke verwendet werden

4 Kommentare

gadget5 2025-01-22

Wenn man R1 nach seiner Identität fragt, antwortet es, dass es absolut nichts mit DeepSeek zu tun habe und ein OpenAI GPT sei.

mse9000 2025-01-31

Dass geantwortet wird, die Trainingsdaten reichten nur bis Oktober 2023, wirkt irgendwie seltsam ..

xguru 2025-01-22

DeepSeek-R1-Modell veröffentlicht

GN⁺ 2025-01-22

Hacker-News-Kommentare

DeepSeek V3 scheint politische Sensibilität zu erkennen. Auf die Frage „Wofür ist der Tiananmen-Platz berühmt?“ antwortet es mit „Entschuldigung, das liegt derzeit außerhalb meines Bereichs“
- Es ist nachvollziehbar, dass Änderungen vorgenommen werden müssen, um politische Realitäten zu steuern, aber es fühlt sich unangenehm an, wenn ein LLM bei solchen Themen lügt
- Ich frage mich, ob geplant ist, eine Liste der aus politischen Gründen am Modell vorgenommenen Änderungen als Open Source zu veröffentlichen
- Ein Modell politisch korrekt zu machen, ist etwas anderes, als ein Massaker unter den Teppich zu kehren. Das ist ein sehr gefährlicher Weg, und dabei wird es nicht bleiben
Liest man das R1-Paper, dann übertreffen sogar die 1.5b- und 7b-Modelle Claude 3.5 Sonnet, sofern die Benchmarks stimmen. Dass man diese Modelle auf einem MacBook mit 8–16 GB ausführen kann, ist erstaunlich
Der Titel ist falsch. Auf ollama sind nur destillierte Modelle von llama und qwen, nicht das offizielle MoE-R1-Modell von deepseekv3
Wenn man dem 1.5b-Modell die Frage „Wie drehe ich eine Liste in Python um?“ stellt, hört es nicht auf und spuckt weiter seine Gedanken aus. Es wiederholt sich nicht einmal. Interessant
Es braucht Dokumentation. Die Beschreibung des gesamten Projekts scheint nur „Erste Schritte mit großen Sprachmodellen“ zu sein
- Vor der Installation gibt es viele Fragen. Ob es an eine Client-Oberfläche gebunden ist, was die Systemanforderungen sind usw.
Erstaunlich ist, dass dieses Modell auf einem drei Jahre alten Laptop laufen kann
- Es wird ein Beispiel gegeben, wie man in Rust eine Funktion schreibt, die zwei Zahlen addiert
- In Rust definiert man Funktionen mit dem Schlüsselwort fn. Da kein Zahlentyp angegeben wurde, wird sie generisch gemacht
- Für die Addition wird das Add-Trait verwendet. Es muss aus der Standardbibliothek importiert werden
- Die Funktionssignatur lautet fn add_numbers<T: Add<Output = T>>(a: T, b: T) -> T
- In Rust kann man verschiedene Zahlentypen nicht mischen, daher ist eine explizite Konvertierung erforderlich
Es wird ein einfaches Beispiel für eine Funktion in Rust gegeben, die zwei Zahlen addiert
- Es handelt sich um eine Funktion, die zwei Ganzzahlen vom Typ i32 addiert
- Mit Generics und Trait-Bounds kann sie auch andere Zahlentypen verarbeiten
Ich frage mich, welche kostenpflichtigen API-Optionen es gibt, wenn man mit dem größten Modell von DeepSeek R1 Inferenz betreiben will
- Ich frage mich, wie man das größte DeepSeek-R1-Modell feinabstimmen oder mit Reinforcement Learning trainieren kann
Ich frage mich, welche Größe des DeepSeek-R1-Modells man lokal ausführen kann, wenn man eine RTX 4090 und 192 GB RAM hat
Ich frage mich, welche Modellgröße für eine Nvidia 4070 geeignet ist
Ollama ist fast perfekt. Dass es Vulkan nicht unterstützt, ist jedoch ein großes Problem

Offizielle Aufnahme von DeepSeek R1 in Ollama

Verwandte Beiträge

4 Kommentare

Hacker-News-Kommentare