- Der Artikel stellt Petals vor, eine neue Technologie, die es Nutzerinnen und Nutzern ermöglicht, große Sprachmodelle (LLMs) zu Hause auf ähnliche Weise wie bei BitTorrent auszuführen.
- Petals unterstützt mehrere LLMs und deren Ableger, darunter Llama 2 (70B), Falcon (180B), BLOOM (176B).
- Die Technologie funktioniert, indem ein Teil des Modells auf das Gerät der Nutzer geladen wird und anschließend eine Verbindung zu einem Netzwerk anderer Nutzer hergestellt wird, die den restlichen Teil bereitstellen.
- Für Llama 2 bietet es 6 Token/s, für Falcon 4 Token/s bei der Inferenz mit einzelner Batch. Diese Geschwindigkeit ist ausreichend für Chatbots und interaktive Apps.
- Petals geht über klassische LLM-APIs hinaus, indem es Nutzerinnen und Nutzern erlaubt, beliebige Fine-Tuning- und Sampling-Methoden zu verwenden, benutzerdefinierte Pfade durch das Modell auszuführen oder Hidden States einzusehen.
- Petals kombiniert die Flexibilität von PyTorch und 🤗 Transformers mit dem Komfort einer API.
- Nutzerinnen und Nutzer können Petals in Google Colab ausprobieren und die Dokumentation auf GitHub einsehen.
- Der Artikel listet die wichtigsten Mitwirkenden am Projekt auf und bietet einen Link, über den GPUs beigesteuert werden können.
- Nutzerinnen und Nutzer können die Entwicklung von Petals über Discord oder ein E-Mail-Abonnement verfolgen.
- Das Projekt ist Teil des BigScience Research Workshop.
1 Kommentare
Hacker-News-Kommentare