3 Punkte von GN⁺ 2025-02-17 | 1 Kommentare | Auf WhatsApp teilen
  • Dieses Projekt teilt Ergebnisse dazu, wie das Modell Deepseek R1 Distill 8B Q40 auf Raspberry Pi 5 8GB-Geräten ausgeführt werden kann.
  • Die Leistung des Modells wurde mithilfe mehrerer Raspberry Pi bewertet und die Inferenz gemessen.
  • Bewertungs- und Inferenzergebnisse
    • 2 x Raspberry Pi 5 8GB
      • Bewertung: 7,70 Token pro Sekunde
      • Inferenz: 3,54 Token pro Sekunde
    • 4 x Raspberry Pi 5 8GB
      • Bewertung: 11,68 Token pro Sekunde
      • Inferenz: 6,43 Token pro Sekunde
  • Weitere Informationen
    • Der Test wurde in einer abgeschotteten Netzwerkumgebung durchgeführt.
    • Die Leistung in einer Cluster-Umgebung mit mehreren Geräten wurde überprüft.

1 Kommentare

 
GN⁺ 2025-02-17
Hacker-News-Kommentar
  • Ankündigungen, dass auf dem Raspberry Pi „Deepseek R1“ läuft, folgen immer demselben Muster: Es wird ein durch Deepseeks Distillation modifiziertes llama oder qwen ausgeführt
    • Die Demo zeigt, dass Fragen bei weniger als 500 Tokens „gelöst“ werden
    • Man sollte beachten, dass sich diese Geschwindigkeiten bei einer in der Praxis nützlichen Kontextlänge (8–16k Tokens) mit einem „Reasoning“-Modell nicht erreichen lassen
    • Selbst ein epyc mit vielen Kanälen fällt nach einer Kontextlänge von etwa 4096 auf 2–4 t/s zurück
  • Für 320 £ kann man vier Pi 5 kaufen, aber wenn man eine gebrauchte 12GB 3080 findet, bekommt man wahrscheinlich mehr als die 10-fache Token-Geschwindigkeit
  • Das Interessante hier ist, dass man llama-Inferenz verteilt über mehrere Computer ausführen kann
    • Das ist ein moderner Beowulf-Cluster
  • Ich habe nicht verstanden, wie mehrere Raspberry Pis hier parallel eingesetzt werden. Ich hoffe, jemand kann mich in diese Richtung führen
  • Wenn du dieses Modell auf dem Mac ausprobieren möchtest, kannst du es mit dem neuen llm-mlx-Plugin so ausführen
    • brew install llm oder pipx install llm oder uv tool install llm
    • llm install llm-mlx
    • llm mlx download-model mlx-community/DeepSeek-R1-Distill-Llama-8B
    • llm -m mlx-community/DeepSeek-R1-Distill-Llama-8B 'poem about an otter'
    • Als ich es gerade ausgeführt habe, kam ich auf 22 Tokens pro Sekunde
  • Ich frage mich, wann man all diese neue AI-Technik per „apt-get install“ installieren kann
  • Ich frage mich, ob zusätzlicher Speicher hilft. Kürzlich wurde ein RPi 5 mit 16 GB RAM veröffentlicht
  • Ein auf LLM basierendes Produkt müsste ein lokal laufendes LLM statt einer Cloud-Anbindung haben, ähnlich wie Alexa oder Google Home. Ich weiß nicht, warum es das noch nicht gibt oder warum niemand daran arbeitet