2 Punkte von GN⁺ 2023-09-18 | 1 Kommentare | Auf WhatsApp teilen
  • Der Artikel stellt Petals vor, eine neue Technologie, die es Nutzerinnen und Nutzern ermöglicht, große Sprachmodelle (LLMs) zu Hause auf ähnliche Weise wie bei BitTorrent auszuführen.
  • Petals unterstützt mehrere LLMs und deren Ableger, darunter Llama 2 (70B), Falcon (180B), BLOOM (176B).
  • Die Technologie funktioniert, indem ein Teil des Modells auf das Gerät der Nutzer geladen wird und anschließend eine Verbindung zu einem Netzwerk anderer Nutzer hergestellt wird, die den restlichen Teil bereitstellen.
  • Für Llama 2 bietet es 6 Token/s, für Falcon 4 Token/s bei der Inferenz mit einzelner Batch. Diese Geschwindigkeit ist ausreichend für Chatbots und interaktive Apps.
  • Petals geht über klassische LLM-APIs hinaus, indem es Nutzerinnen und Nutzern erlaubt, beliebige Fine-Tuning- und Sampling-Methoden zu verwenden, benutzerdefinierte Pfade durch das Modell auszuführen oder Hidden States einzusehen.
  • Petals kombiniert die Flexibilität von PyTorch und 🤗 Transformers mit dem Komfort einer API.
  • Nutzerinnen und Nutzer können Petals in Google Colab ausprobieren und die Dokumentation auf GitHub einsehen.
  • Der Artikel listet die wichtigsten Mitwirkenden am Projekt auf und bietet einen Link, über den GPUs beigesteuert werden können.
  • Nutzerinnen und Nutzer können die Entwicklung von Petals über Discord oder ein E-Mail-Abonnement verfolgen.
  • Das Projekt ist Teil des BigScience Research Workshop.

1 Kommentare

 
GN⁺ 2023-09-18
Hacker-News-Kommentare
  • Ein Artikel über eine neue Methode, große Sprachmodelle (LLMs) zu Hause auf eine BitTorrent-ähnliche Weise auszuführen
  • Modellgewichte werden schichtweise auf mehrere Maschinen verteilt, die gemeinsam Inferenz oder Fine-Tuning durchführen
  • Ein Projekt namens Ollama ist in Entwicklung und hostet Modellgewichte in einer Docker-Registry, um sicherzustellen, dass jedes Mal die richtigen Gewichte heruntergeladen werden
  • Durch den Einsatz von Quantisierung/QLORA können große Modelle auf Consumer-Hardware mit akzeptabler Geschwindigkeit laufen, wobei Latenzen durch Parallelität über verschiedene Server hinweg vermieden werden
  • Das Fine-Tuning großer Modelle wie 70B ist herausfordernd und erfordert teure Ressourcen; vorgeschlagen wird ein kollektiver Beitrag in Form einer „llama training horde“
  • Es gibt Bedenken hinsichtlich der Verwundbarkeit des Systems, da böswillige Teilnehmer die Ausgaben verändern oder unbrauchbare Ergebnisse zurückgeben und so das System stören könnten
  • Petals, ein Teil des Projekts, ermöglicht es Nutzern, ihre GPU zu teilen und Code beizusteuern, und bietet damit eine typische Coding-Erfahrung
  • Das System kann eine bestimmte Anzahl verteilter Tokens bereitstellen und dadurch Nutzern von Geräten mit geringer Leistung Vorteile verschaffen
  • Das Projekt wirkt wie ein potenzieller Gamechanger und könnte mehr Entwicklern in diesem Bereich Zugang verschaffen
  • Petals betreibt ein zentralisiertes Anreizsystem ähnlich den AI-Horde-Kudos, ist in anderen Aspekten jedoch ein verteiltes System. Die Anreize können nicht in Geld umgetauscht werden und sind zur Nutzung innerhalb des Systems gedacht
  • Einige Nutzer hatten beim Versuch, ihre GPU zu teilen, Probleme mit Abhängigkeitsversionen
  • Vorgeschlagen wird die Verwendung von „Tokens“ für GPU-Zyklen sowie die Idee, der Sonne zu folgen, um die Nutzung von Solar-PV-Energie zu maximieren