Release von DeepSeek R1-0528

(huggingface.co)

1 Punkte von GN⁺ 2025-05-29 | 1 Kommentare | Auf WhatsApp teilen

DeepSeek R1-0528 wurde als aktuelles LLM veröffentlicht
Dieses Modell wird als Open Source bereitgestellt und erhöht damit Zugänglichkeit und Nutzbarkeit
Es zeigt starke Leistung bei verschiedenen Aufgaben der natürlichen Sprachverarbeitung und -generierung
Durch eine schnellere und effizientere Architektur bietet es Vorteile für Forschung und Praxiseinsatz
Es entwickelt sich zu einer zusätzlichen wettbewerbsfähigen Option im KI-Bereich

Einführung in das Modell DeepSeek R1-0528

DeepSeek R1-0528 ist ein aktuelles Large Language Model (LLM), das im Bereich Sprachverständnis und -generierung eingesetzt werden kann
Das Modell wurde über Hugging Face als Open Source veröffentlicht und kann daher von Forschenden und Entwicklern frei genutzt werden
Das von DeepSeek-AI entwickelte Modell R1-0528 wurde mit großen Datensätzen trainiert und kann für verschiedene Aufgaben der natürlichen Sprachverarbeitung und -generierung eingesetzt werden, darunter Textzusammenfassung, Übersetzung, Fragebeantwortung und Codegenerierung
Im Vergleich zu bestehenden öffentlich verfügbaren Open-Source-Modellen zeichnet es sich durch höhere Inferenzgeschwindigkeit und eine optimierte Netzwerkstruktur aus
Dank dieser Stärken rückt es als bevorzugte Option für Entwickler in den Fokus, die in Forschung und realen Industrieumgebungen schnelle und präzise Ergebnisse wünschen

Besonderheiten und Vorteile des Modells

DeepSeek R1-0528 unterscheidet sich von bestehenden LLMs in Bezug auf Skalierbarkeit, Effizienz und Schnelligkeit
Es verwendet eine modulare Struktur, mit der Entwickler das Modell leicht anpassen und für verschiedene Sprachen oder Domänen spezialisieren können
Dank verbesserter Algorithmen wurde die Verarbeitungsgeschwindigkeit in Training und Inferenz verbessert
Alle Nutzer können das Modell über die Hugging Face-Bibliothek einfach laden und verwenden

Einsatzmöglichkeiten und erwartete Effekte

Es kann in verschiedenen praktischen Szenarien eingesetzt werden, etwa in der KI-Forschung, für Chatbots, automatische Dokumentenerstellung und als Code-Assistent
Durch die Open-Source-Veröffentlichung können der Einsatz mit realen Datensätzen und die Überprüfung der Modellleistung freier erfolgen
Die Veröffentlichung von DeepSeek R1-0528 fördert innerhalb der globalen KI-Community ein gesundes Wettbewerbsumfeld und technischen Fortschritt

1 Kommentare

GN⁺ 2025-05-29

Hacker-News-Kommentare

Ich habe erst jetzt erfahren, dass DeepSeek R1 anfangs über openrouter bei 7 Anbietern verfügbar wurde
Link
Das ursprüngliche DeepSeek-R1-Update vom 28. Mai liegt leistungsmäßig etwa auf dem Niveau von OpenAI o1
Als Open Source sind auch die Reasoning-Tokens offengelegt
Die Gesamtzahl der Parameter beträgt 671B, davon sind bei der Inferenz nur 37B aktiv
Es ist ein vollständig Open-Source-Modell
- Ich frage mich, ob es ein herunterladbares Modell gibt
  Ich kenne openrouter nicht gut und kann das Modell auch bei ollama nicht finden, daher würde ich gern mehr dazu erfahren
- Es wurde überhaupt nicht offengelegt, mit welchen Daten das Modell trainiert wurde
  Herunterladbare Gewichte wurden veröffentlicht, aber im eigentlichen Sinne ist es kein reproduzierbares Open Source
  Es gab mit "Open R1" ein Projekt, das sogar die Trainingsdaten selbst offenlegen wollte,
  und ich frage mich, wie dort der aktuelle Stand ist
  Link
- Ich stimme der Behauptung nicht zu, dass DeepSeek R1 Open Source sei
  Nur weil etwas heruntergeladen werden kann, ist es noch nicht Open Source
  Link
Schade, dass es zu DeepSeek R1 praktisch keine Informationen gibt
Es gibt auch keine Benchmark-Infos, und das erinnert mich an die Zeit, als Mistral einfach einen Torrent-Magnet-Link per Tweet rausgehauen hat
- Ich finde, Benchmarks haben heutzutage kaum noch Bedeutung
  Man konzentriert sich nur noch darauf, Modelle auf bereits bekannte Tests zuzuschneiden,
  statt die eigentliche allgemeine Leistungsfähigkeit zu verbessern
  Schaut man auf das Leaderboard von Huggingface, stehen dort viele Fine-Tunes verschiedener Open-Source-Modelle weit oben, werden in der Praxis aber kaum breit genutzt
  Link
- In der Benchmark-Tabelle sieht man zwar die Werte für "Overall" und "Median",
  aber es gibt keine Informationen dazu, was genau getestet wurde
  Im Großen und Ganzen wirkt es ähnlich wie aktuelle Modelle, hat bei den Kosten aber einen kleinen Vorteil
  Ein Nachteil ist wie schon beim früheren R1 die langsame Inferenzgeschwindigkeit (es verbraucht viele Tokens)
  Link zur Tabelle
- Die Art, wie DeepSeek veröffentlicht, ist ähnlich wie früher bei Mistral, und ich frage mich, ob das vielleicht eine bewusste Hommage ist
- DeepSeek veröffentlicht den Paper in der Regel am Tag nach dem Modell-Release
  Wenn man diesen Zeitplan etwas besser abstimmen würde, wäre das deutlich sauberer; im Moment wirkt die Berichterstattung darüber etwas verstreut
Es ist interessant, dass DeepSeek zu den wenigen LLMs gehört, die auf einem iPod Touch mit einer alten iOS-Version laufen
Mir gefällt, wie DeepSeek neue Updates ganz beiläufig veröffentlicht
Trotz großer Verbesserungen kommt das ohne großes Marketing still und leise heraus, und genau diese Atmosphäre mag ich
- Ich frage mich, ob die Verbesserungen wirklich so groß sind
  Ich würde gern wissen, ob es offizielle Vergleichsdaten wie Benchmarks gibt
- OpenAI und inzwischen auch Anthropic neigen zuletzt dazu, neue Modelle dramatisch zu überhöhen und
  eine Erzählung daran zu hängen, wie gefährlich das Modell sei, wie es ausbricht, Menschen täuscht und zentrale Server hackt,
  was fast schon einen Nightmare-Vibe erzeugt, während DeepSeek eher nüchtern und ohne Übertreibung veröffentlicht
- Tatsächlich scheint es dazu auf WeChat eine offizielle Ankündigung gegeben zu haben
- Diese stille Art von Release ist zwar sympathisch, aber ein paar zahlenbasierte Informationen wie Benchmarks wären trotzdem hilfreich
- Auch das Timing, genau am Tag von Nvidias Quartalszahlen zu veröffentlichen, finde ich eine amüsante Koinzidenz
Ich frage mich, welche Hardware man konkret braucht, wenn normale Nutzer so ein großes LLM trotz langsamer Geschwindigkeit verwenden wollen
Mich interessiert auch, ob es Möglichkeiten gibt, die Konfiguration einfach herunterzuschrauben oder die Modellgröße zu verkleinern
- DeepSeek R1 wurde erfolgreich mit Offloading und 1.58bit-Quantisierung lokal betrieben
  Weitere Infos: Link
  An einer neuen Version wird bereits gearbeitet
- Eine 4bit-quantisierte Version kann auf einem M3 Ultra mit 512GB laufen
  Der Preis ist allerdings ziemlich hoch
  Alternativ kann man ein System mit leistungsstarker CPU und 500GB DDR5-RAM verwenden
  Auch das ist nicht billig und langsamer als ein M3 Ultra
  Eine weitere Option wäre, mehrere Nvidia-GPUs zu kombinieren und so auf insgesamt 500GB VRAM zu kommen
  Das ist am teuersten, dafür aber schnell
- Man braucht ein Dual-Socket-Serverboard mit 768GB DDR5-RAM und zusätzlich eine GPU mit mindestens 16GB für die Prompt-Verarbeitung
  Für eine Geschwindigkeit von 8 bis 10 Tokens pro Sekunde muss man mehrere tausend Euro ausgeben
- Mit einem gebrauchten Dual-Socket-Xeon für 2.000 Dollar und 768GB DDR4
  läuft die 4bit-quantisierte Version mit etwa 1,5 Tokens pro Sekunde
- Über Amazon ist die Nutzung für ungefähr 1 Cent pro 10.000 Tokens möglich
  Es gibt auch eine Anleitung für die manuelle Einrichtung einer EC2-Instanz
  Als Beispiel wird eine g6e.48xlarge-Instanz genannt (192 vCPU, 1536GB RAM, 8 L40S Tensor Core GPUs mit jeweils 48GB VRAM)
  Die monatlichen Nutzungskosten liegen bei ungefähr 22.000 Dollar
  Bedrock-Infos zu DeepSeek
  Anleitung für manuelles Deployment
Die Erwartungen an das neueste R1-Release sind hoch
Bei einer Größenordnung von 685B Parametern fehlen Modellkarte, Release Notes, Informationen zu den Änderungen und Angaben zum Kontextfenster
Die Ausgabequalität des ursprünglichen R1 war beeindruckend, nur der hohe Token-Verbrauch war etwas enttäuschend
Ich warte darauf, dass mehr Informationen veröffentlicht werden
Interessant ist auch, dass es im Vergleich zu o4 mini high ungefähr halb so viel kostet, ohne dass der Leistungsunterschied groß wäre
Außerdem habe ich gesehen, dass die meisten Anbieter quantisierte Versionen bereitstellen
Um eine ähnliche Leistung wie DeepSeek zu erreichen, braucht man mindestens 8 h100-80GB-GPUs
- Die Kosten dürften bei etwa 16 bis 24 Dollar pro Stunde liegen
  Wenn man viele Tokens nutzt, kann das im Vergleich zu OpenAI deutlich günstiger sein
Ich würde DeepSeek gern schnell bei Groq ausprobieren
- Groq unterstützt das echte DeepSeek-Modell nicht
  Aktuell wird nur DeepSeek-r1-distill-llama-70b unterstützt, und das ist ein auf llama 70b destilliertes Modell
  Groq-Modellübersicht

Release von DeepSeek R1-0528

Einführung in das Modell DeepSeek R1-0528

Besonderheiten und Vorteile des Modells

Einsatzmöglichkeiten und erwartete Effekte

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare