4 Punkte von xguru 2023-01-03 | 3 Kommentare | Auf WhatsApp teilen
  • Extrem große Sprachmodelle wie BLOOM-176B "gemeinsam" ausführen
    • Die eigene GPU mit Petals verbinden
    • Jede Person lädt einen Teil des Modells und führt zusammen mit anderen Inferenz und Fine-Tuning aus
  • Die Inferenz ist mit etwa 1 Sekunde pro Schritt (Token) rund 10-mal schneller als Offloading und damit ausreichend für Chatbots und andere interaktive Apps
    • Parallele Inferenz ermöglicht Hunderte von Tokens pro Sekunde
  • Es wird daran gearbeitet, explizite Anreize (Bloom Points) für Personen einzuführen, die GPU-Zeit bereitstellen

3 Kommentare

 
won9497 2023-01-03

gut!!

 
won9497 2023-01-03

Hm, das ist nicht dieser Beitrag...

 
xguru 2023-01-03

Selbst die deutlich kleinere BLOOM-7B-Version soll, wenn man sie lokal direkt ausführt, auf einem Ryzen (16 Kerne) + 32 GB RAM etwa 90 Sekunden brauchen.
Wenn es wie behauptet sauber läuft, wäre das schon ziemlich gut ... aber irgendwie hat das so einen Blockchain-Vibe ...
(Laut dem Entwickler wird allerdings keine Blockchain verwendet)