- Extrem große Sprachmodelle wie BLOOM-176B "gemeinsam" ausführen
- Die eigene GPU mit Petals verbinden
- Jede Person lädt einen Teil des Modells und führt zusammen mit anderen Inferenz und Fine-Tuning aus
- Die Inferenz ist mit etwa 1 Sekunde pro Schritt (Token) rund 10-mal schneller als Offloading und damit ausreichend für Chatbots und andere interaktive Apps
- Parallele Inferenz ermöglicht Hunderte von Tokens pro Sekunde
- Es wird daran gearbeitet, explizite Anreize (Bloom Points) für Personen einzuführen, die GPU-Zeit bereitstellen
3 Kommentare
gut!!
Hm, das ist nicht dieser Beitrag...
Selbst die deutlich kleinere BLOOM-7B-Version soll, wenn man sie lokal direkt ausführt, auf einem Ryzen (16 Kerne) + 32 GB RAM etwa 90 Sekunden brauchen.
Wenn es wie behauptet sauber läuft, wäre das schon ziemlich gut ... aber irgendwie hat das so einen Blockchain-Vibe ...
(Laut dem Entwickler wird allerdings keine Blockchain verwendet)