17 Punkte von GN⁺ 2025-01-29 | 1 Kommentare | Auf WhatsApp teilen
  • DeepSeek-R1 ist ein Open-Source-Modell, dessen Leistung mit dem O1-Reasoning-Modell von OpenAI verglichen wird
  • Das ursprünglich 720 GB große Modell wurde auf 131 GB verkleinert und erreicht damit eine Größenreduktion von 80 %
  • Mithilfe dynamischer Quantisierung werden einige Layer mit höherer Bitbreite (z. B. 4 Bit) beibehalten, während die meisten MoE-(Mixture of Experts)-Layer mit 1,58 Bit verarbeitet werden

Hauptmerkmale

  • Mindestanforderungen: Ausführung auf einer CPU mit 20 GB RAM möglich, jedoch langsam
  • Optimale Leistung: Summe aus VRAM und RAM von mindestens 80 GB erforderlich, empfohlener VRAM 160 GB (2× H100 80GB GPU)
  • Dynamisch quantisierte Versionen (131 GB~212 GB) sind auf Hugging Face verfügbar: DeepSeek-R1-GGUF

Arten dynamisch quantisierter Modelle

  • Insgesamt werden 4 Quantisierungsversionen angeboten:
    • 131 GB, 158 GB, 183 GB, 212 GB (normales 2 Bit)
  • Die Quantisierung wird mithilfe einer Wichtigkeitsmatrix (imatrix) optimiert
  • Quantisierungsmethode und Hardware-Anforderungen unterscheiden sich je nach Modell

Benchmarks und Leistungstests

  • Anhand von 10 Bewertungskriterien auf Basis der Erzeugung des Spiels Flappy Bird (pass@3) wurden Punktzahlen gemessen
  • Die Punktzahlen des 1,58-Bit-Modells mit dynamischer Quantisierung sind wie folgt:
    • Modell mit 131 GB: 6,92
    • Modell mit 158 GB: 9,08
    • Modell mit 183 GB: 9,17
  • Nicht dynamisch quantisierte Modelle erzeugen Wiederholungsfehler oder fehlerhafte Ergebnisse

Nutzung der DeepSeek-R1-Architektur

  • Durch die Analyse der DeepSeek-R1-Architektur werden quantisierungssensitive Teile in hoher Auflösung beibehalten
    • Die ersten 3 dichten (dense) Layer bleiben bei 4~6 Bit
    • Die meisten MoE-Layer werden auf 1,58 Bit quantisiert
    • Das MLA-(Memory Layers Attention)-Modul und der down_proj-Teil bleiben in hoher Präzision erhalten
  • Rund 88 % der Gewichte wurden auf 1,58 Bit quantisiert, um die Modellgröße zu reduzieren

Behebung von Problemen mit Chat-Templates und Token-Verarbeitung

  • In allen Versionen werden in den Chat-Templates die Tokens <|begin_of_sentence|> und <|end_of_sentence|> verwendet
  • Das EOS-Token war falsch gesetzt, was zu unendlicher Generierung führte, wurde jedoch korrigiert

1 Kommentare

 
GN⁺ 2025-01-29
Hacker-News-Kommentare
  • Eine Größenreduktion um 80 % ist eine erstaunliche Leistung, und dass die 1,58-Bit-Version auf einem Dual-H100 mit 140 Token/s läuft, ist beeindruckend. Ob das für die meisten Menschen jedoch praktisch ist, ist fraglich. Man kann sie mit 24 GB VRAM oder 20 GB RAM betreiben, aber dann ist sie zu langsam. Es gibt auch Wiederholungsprobleme. Die Wiederholungen bei Pygame schmälern die Bedeutung der Quantisierung. Es gibt Lösungen, aber sie beheben nicht das grundlegende Problem. Dass es über Hugging Face zugänglich gemacht wurde, und der Ansatz der dynamischen Quantisierung sind großartig. Das ist vorteilhaft für kleine Teams. Allerdings ist teure Hardware nötig.

  • Als DeepSeek auf einer RTX 4090 ausgeführt wurde, musste das Modell zwar in den VRAM passen, war aber langsam. Apples Architektur mit gemeinsam genutztem Speicher ist im Vorteil. Ein 192-GB-Mx-Ultra kann große Modelle effizient verarbeiten. Es ist Zeit, das OpenAI-Abonnement zu kündigen.

  • Die Größenreduktion von DeepSeek-R1 um 80 % ist erstaunlich. Große Modelle werden für mehr Menschen zugänglich. Die Geschwindigkeit von 140 Token/s auf einem Dual-H100 mit 1,58-Bit-Quantisierung ist beeindruckend. Kleine oder mittelgroße Unternehmen könnten es für lokale Anwendungen nutzen. Für Agenten-Workloads, die geringe Latenz benötigen, ist das ein großer Vorteil.

  • Die Summe aus VRAM + RAM sollte mindestens 80 GB betragen, um optimale Leistung zu erzielen. Man kann es auf einem stromsparenden/kostengünstigen Server versuchen. Ein System mit Ryzen 5500 + 64 GB RAM + 7x RTX 3060 12 GB lässt sich für 1600 Euro aufbauen. Der Stromverbrauch liegt bei etwa 520 Watt. Beginnend mit einem AM4-Board und gebrauchten RTX 3060 12 GB. Zusätzliche GPUs werden über PCIe-Riser/-Extender angeschlossen. Gut, um zu lernen und Erfahrungen zu sammeln.

  • Wenn alle Layer auf 1,58 Bit quantisiert werden, kommt es zu endlosen Wiederholungen. Es ist interessant, wie die Autoren dieses Blogposts bestimmte Seeds gefunden haben. Gute Arbeit.

  • Die Einschätzung zu R1 ist noch nicht eindeutig. Die Behauptung, dass es mit $5M trainiert wurde, hat großen Einfluss auf den Markt. Ich frage mich, ob das verifiziert wurde.

  • Wenn man in eine 100x-Maschine investiert hat, obwohl auch eine 10x-Maschine ausreichen würde, verstehe ich nicht, warum man dann nicht einfach zehn 10x-Maschinen besitzt. Man könnte Hardware und Daten wiederverwenden, um mehrere effizientere Modellinstanzen zu bauen.

  • Die Arbeit von Danielhanchen ist beeindruckend. Unsloth ist großartig, und die Fähigkeit, sich schnell an neue Modelle anzupassen und Bugs in der Standardimplementierung zu beheben, ist erstaunlich. Ein ernstzunehmendes Labor sollte ein paar Stunden Vorsprung einräumen.

  • Die Verkleinerung des Modells bei gleichbleibender Konsistenz ist erstaunlich. Allerdings ist fraglich, wie stark die Wirkung erhalten blieb. Flappy Bird ist ein bekanntes Spiel, aber ein besserer Test wäre, ob R1 und o1 Probleme lösen können, an denen andere Modelle scheitern.

  • Es wäre gut, wenn die nächste Generation von Basismodellen so entworfen würde, dass Inferenz mit 8-Bit-Quantisierung auf 128 GB VRAM möglich ist. Zum Beispiel könnte eine leistungsstarke MoE-Basis mit 16 Milliarden aktiven Parametern und 6–7 Experten auf einem MacBook mit 128 GB RAM laufen.