Petals – 100B+-Sprachmodelle zu Hause im BitTorrent-Stil betreiben

xguru · 2023-01-03T10:56:19+09:00

Extrem große Sprachmodelle wie BLOOM-176B "gemeinsam" ausführen Die eigene GPU mit Petals verbinden Jede Person lädt einen Teil des Modells und führt zusammen mit anderen Inferenz und Fine-Tuning aus Die Inferenz ist mit etwa 1 Sekunde pro Schritt (Token) rund 10-mal schneller als Offloading und damit ausreichend für Chatbots und andere interaktive Apps Parallele Inferenz ermöglicht Hunderte von Tokens pro Sekunde Es wird daran gearbeitet, explizite Anreize (Bloom Points) für Personen einzuführen, die GPU-Zeit bereitstellen

Extrem große Sprachmodelle wie BLOOM-176B "gemeinsam" ausführen
- Die eigene GPU mit Petals verbinden
- Jede Person lädt einen Teil des Modells und führt zusammen mit anderen Inferenz und Fine-Tuning aus
Die Inferenz ist mit etwa 1 Sekunde pro Schritt (Token) rund 10-mal schneller als Offloading und damit ausreichend für Chatbots und andere interaktive Apps
- Parallele Inferenz ermöglicht Hunderte von Tokens pro Sekunde
Es wird daran gearbeitet, explizite Anreize (Bloom Points) für Personen einzuführen, die GPU-Zeit bereitstellen

3 Kommentare

won9497 2023-01-03

Hm, das ist nicht dieser Beitrag...

xguru 2023-01-03

Selbst die deutlich kleinere BLOOM-7B-Version soll, wenn man sie lokal direkt ausführt, auf einem Ryzen (16 Kerne) + 32 GB RAM etwa 90 Sekunden brauchen.
Wenn es wie behauptet sauber läuft, wäre das schon ziemlich gut ... aber irgendwie hat das so einen Blockchain-Vibe ...
(Laut dem Entwickler wird allerdings keine Blockchain verwendet)

Petals – 100B+-Sprachmodelle zu Hause im BitTorrent-Stil betreiben

Verwandte Beiträge

3 Kommentare