1 Punkte von GN⁺ 2025-05-29 | 1 Kommentare | Auf WhatsApp teilen
  • DeepSeek R1-0528 wurde als aktuelles LLM veröffentlicht
  • Dieses Modell wird als Open Source bereitgestellt und erhöht damit Zugänglichkeit und Nutzbarkeit
  • Es zeigt starke Leistung bei verschiedenen Aufgaben der natürlichen Sprachverarbeitung und -generierung
  • Durch eine schnellere und effizientere Architektur bietet es Vorteile für Forschung und Praxiseinsatz
  • Es entwickelt sich zu einer zusätzlichen wettbewerbsfähigen Option im KI-Bereich

Einführung in das Modell DeepSeek R1-0528

  • DeepSeek R1-0528 ist ein aktuelles Large Language Model (LLM), das im Bereich Sprachverständnis und -generierung eingesetzt werden kann
  • Das Modell wurde über Hugging Face als Open Source veröffentlicht und kann daher von Forschenden und Entwicklern frei genutzt werden
  • Das von DeepSeek-AI entwickelte Modell R1-0528 wurde mit großen Datensätzen trainiert und kann für verschiedene Aufgaben der natürlichen Sprachverarbeitung und -generierung eingesetzt werden, darunter Textzusammenfassung, Übersetzung, Fragebeantwortung und Codegenerierung
  • Im Vergleich zu bestehenden öffentlich verfügbaren Open-Source-Modellen zeichnet es sich durch höhere Inferenzgeschwindigkeit und eine optimierte Netzwerkstruktur aus
  • Dank dieser Stärken rückt es als bevorzugte Option für Entwickler in den Fokus, die in Forschung und realen Industrieumgebungen schnelle und präzise Ergebnisse wünschen

Besonderheiten und Vorteile des Modells

  • DeepSeek R1-0528 unterscheidet sich von bestehenden LLMs in Bezug auf Skalierbarkeit, Effizienz und Schnelligkeit
  • Es verwendet eine modulare Struktur, mit der Entwickler das Modell leicht anpassen und für verschiedene Sprachen oder Domänen spezialisieren können
  • Dank verbesserter Algorithmen wurde die Verarbeitungsgeschwindigkeit in Training und Inferenz verbessert
  • Alle Nutzer können das Modell über die Hugging Face-Bibliothek einfach laden und verwenden

Einsatzmöglichkeiten und erwartete Effekte

  • Es kann in verschiedenen praktischen Szenarien eingesetzt werden, etwa in der KI-Forschung, für Chatbots, automatische Dokumentenerstellung und als Code-Assistent
  • Durch die Open-Source-Veröffentlichung können der Einsatz mit realen Datensätzen und die Überprüfung der Modellleistung freier erfolgen
  • Die Veröffentlichung von DeepSeek R1-0528 fördert innerhalb der globalen KI-Community ein gesundes Wettbewerbsumfeld und technischen Fortschritt

1 Kommentare

 
GN⁺ 2025-05-29
Hacker-News-Kommentare
  • Ich habe erst jetzt erfahren, dass DeepSeek R1 anfangs über openrouter bei 7 Anbietern verfügbar wurde
    Link
    Das ursprüngliche DeepSeek-R1-Update vom 28. Mai liegt leistungsmäßig etwa auf dem Niveau von OpenAI o1
    Als Open Source sind auch die Reasoning-Tokens offengelegt
    Die Gesamtzahl der Parameter beträgt 671B, davon sind bei der Inferenz nur 37B aktiv
    Es ist ein vollständig Open-Source-Modell

    • Ich frage mich, ob es ein herunterladbares Modell gibt
      Ich kenne openrouter nicht gut und kann das Modell auch bei ollama nicht finden, daher würde ich gern mehr dazu erfahren

    • Es wurde überhaupt nicht offengelegt, mit welchen Daten das Modell trainiert wurde
      Herunterladbare Gewichte wurden veröffentlicht, aber im eigentlichen Sinne ist es kein reproduzierbares Open Source
      Es gab mit "Open R1" ein Projekt, das sogar die Trainingsdaten selbst offenlegen wollte,
      und ich frage mich, wie dort der aktuelle Stand ist
      Link

    • Ich stimme der Behauptung nicht zu, dass DeepSeek R1 Open Source sei
      Nur weil etwas heruntergeladen werden kann, ist es noch nicht Open Source
      Link

  • Schade, dass es zu DeepSeek R1 praktisch keine Informationen gibt
    Es gibt auch keine Benchmark-Infos, und das erinnert mich an die Zeit, als Mistral einfach einen Torrent-Magnet-Link per Tweet rausgehauen hat

    • Ich finde, Benchmarks haben heutzutage kaum noch Bedeutung
      Man konzentriert sich nur noch darauf, Modelle auf bereits bekannte Tests zuzuschneiden,
      statt die eigentliche allgemeine Leistungsfähigkeit zu verbessern
      Schaut man auf das Leaderboard von Huggingface, stehen dort viele Fine-Tunes verschiedener Open-Source-Modelle weit oben, werden in der Praxis aber kaum breit genutzt
      Link

    • In der Benchmark-Tabelle sieht man zwar die Werte für "Overall" und "Median",
      aber es gibt keine Informationen dazu, was genau getestet wurde
      Im Großen und Ganzen wirkt es ähnlich wie aktuelle Modelle, hat bei den Kosten aber einen kleinen Vorteil
      Ein Nachteil ist wie schon beim früheren R1 die langsame Inferenzgeschwindigkeit (es verbraucht viele Tokens)
      Link zur Tabelle

    • Die Art, wie DeepSeek veröffentlicht, ist ähnlich wie früher bei Mistral, und ich frage mich, ob das vielleicht eine bewusste Hommage ist

    • DeepSeek veröffentlicht den Paper in der Regel am Tag nach dem Modell-Release
      Wenn man diesen Zeitplan etwas besser abstimmen würde, wäre das deutlich sauberer; im Moment wirkt die Berichterstattung darüber etwas verstreut

  • Es ist interessant, dass DeepSeek zu den wenigen LLMs gehört, die auf einem iPod Touch mit einer alten iOS-Version laufen

  • Mir gefällt, wie DeepSeek neue Updates ganz beiläufig veröffentlicht
    Trotz großer Verbesserungen kommt das ohne großes Marketing still und leise heraus, und genau diese Atmosphäre mag ich

    • Ich frage mich, ob die Verbesserungen wirklich so groß sind
      Ich würde gern wissen, ob es offizielle Vergleichsdaten wie Benchmarks gibt

    • OpenAI und inzwischen auch Anthropic neigen zuletzt dazu, neue Modelle dramatisch zu überhöhen und
      eine Erzählung daran zu hängen, wie gefährlich das Modell sei, wie es ausbricht, Menschen täuscht und zentrale Server hackt,
      was fast schon einen Nightmare-Vibe erzeugt, während DeepSeek eher nüchtern und ohne Übertreibung veröffentlicht

    • Tatsächlich scheint es dazu auf WeChat eine offizielle Ankündigung gegeben zu haben

    • Diese stille Art von Release ist zwar sympathisch, aber ein paar zahlenbasierte Informationen wie Benchmarks wären trotzdem hilfreich

    • Auch das Timing, genau am Tag von Nvidias Quartalszahlen zu veröffentlichen, finde ich eine amüsante Koinzidenz

  • Ich frage mich, welche Hardware man konkret braucht, wenn normale Nutzer so ein großes LLM trotz langsamer Geschwindigkeit verwenden wollen
    Mich interessiert auch, ob es Möglichkeiten gibt, die Konfiguration einfach herunterzuschrauben oder die Modellgröße zu verkleinern

    • DeepSeek R1 wurde erfolgreich mit Offloading und 1.58bit-Quantisierung lokal betrieben
      Weitere Infos: Link
      An einer neuen Version wird bereits gearbeitet

    • Eine 4bit-quantisierte Version kann auf einem M3 Ultra mit 512GB laufen
      Der Preis ist allerdings ziemlich hoch
      Alternativ kann man ein System mit leistungsstarker CPU und 500GB DDR5-RAM verwenden
      Auch das ist nicht billig und langsamer als ein M3 Ultra
      Eine weitere Option wäre, mehrere Nvidia-GPUs zu kombinieren und so auf insgesamt 500GB VRAM zu kommen
      Das ist am teuersten, dafür aber schnell

    • Man braucht ein Dual-Socket-Serverboard mit 768GB DDR5-RAM und zusätzlich eine GPU mit mindestens 16GB für die Prompt-Verarbeitung
      Für eine Geschwindigkeit von 8 bis 10 Tokens pro Sekunde muss man mehrere tausend Euro ausgeben

    • Mit einem gebrauchten Dual-Socket-Xeon für 2.000 Dollar und 768GB DDR4
      läuft die 4bit-quantisierte Version mit etwa 1,5 Tokens pro Sekunde

    • Über Amazon ist die Nutzung für ungefähr 1 Cent pro 10.000 Tokens möglich
      Es gibt auch eine Anleitung für die manuelle Einrichtung einer EC2-Instanz
      Als Beispiel wird eine g6e.48xlarge-Instanz genannt (192 vCPU, 1536GB RAM, 8 L40S Tensor Core GPUs mit jeweils 48GB VRAM)
      Die monatlichen Nutzungskosten liegen bei ungefähr 22.000 Dollar
      Bedrock-Infos zu DeepSeek
      Anleitung für manuelles Deployment

  • Die Erwartungen an das neueste R1-Release sind hoch
    Bei einer Größenordnung von 685B Parametern fehlen Modellkarte, Release Notes, Informationen zu den Änderungen und Angaben zum Kontextfenster
    Die Ausgabequalität des ursprünglichen R1 war beeindruckend, nur der hohe Token-Verbrauch war etwas enttäuschend
    Ich warte darauf, dass mehr Informationen veröffentlicht werden

  • Interessant ist auch, dass es im Vergleich zu o4 mini high ungefähr halb so viel kostet, ohne dass der Leistungsunterschied groß wäre
    Außerdem habe ich gesehen, dass die meisten Anbieter quantisierte Versionen bereitstellen

  • Um eine ähnliche Leistung wie DeepSeek zu erreichen, braucht man mindestens 8 h100-80GB-GPUs

    • Die Kosten dürften bei etwa 16 bis 24 Dollar pro Stunde liegen
      Wenn man viele Tokens nutzt, kann das im Vergleich zu OpenAI deutlich günstiger sein
  • Ich würde DeepSeek gern schnell bei Groq ausprobieren

    • Groq unterstützt das echte DeepSeek-Modell nicht
      Aktuell wird nur DeepSeek-r1-distill-llama-70b unterstützt, und das ist ein auf llama 70b destilliertes Modell
      Groq-Modellübersicht