- Vergiss teure NVIDIA-GPUs und nutze vorhandene Geräte wie iPhone, iPad, Android, Mac oder Linux gebündelt als eine leistungsstarke GPU
- Unterstützung für LLaMA und verschiedene weitere Modelle
- „Dynamische Modellpartitionierung“ teilt Modelle optimal auf Basis der aktuellen Netzwerktopologie und der verfügbaren Geräte-Ressourcen auf
- Dadurch lassen sich Modelle ausführen, die größer sind als das, was auf einem einzelnen Gerät laufen kann
- Findet andere Geräte per automatischer Geräteerkennung
- Bietet eine ChatGPT-kompatible API
- Die Geräte sind nicht in einer Master-Worker-Struktur verbunden, sondern per P2P (die Standard-Partitionierungsstrategie ist ring memory weighted partitioning)
- Unterstützung für Inference-Engines:
- ✅ MLX
- ✅ tinygrad
- 🚧 llama.cpp
- Unterstützung für Netzwerkmodule:
- ✅ GRPC
- 🚧 Radio
- 🚧 Bluetooth
- Bekannte Probleme
- Da sich die Bibliothek schnell weiterentwickelt, hinkt die iOS-Implementierung der Python-Version hinterher
- Langfristig ist ein integrierter Ansatz geplant, damit keine separaten Implementierungen gepflegt werden müssen
Zusammenfassung von GN⁺
- exo ist experimentelle Software, die verschiedene Geräte zu einem leistungsstarken AI-Cluster zusammenführen kann
- Mit Funktionen wie automatischer Geräteerkennung und dynamischer Modellpartitionierung lassen sich größere Modelle als auf einem Einzelgerät ausführen
- Über die ChatGPT-kompatible API lassen sich Modelle einfach ausführen
- Um das Problem der hinterherhinkenden iOS-Implementierung zu lösen, wird derzeit ein integrierter Ansatz vorangetrieben
1 Kommentare
Hacker-News-Kommentare
mlx, eine Bibliothek ausschließlich für Apple Silicon. Es heißt, sie laufe auf "iPhone, iPad, Android, Mac, Linux, pretty much any device", aber ich bezweifle, dass das tatsächlich getestet wurdepaddlervon GitHub unter Windows auf zwei Geräten für Load Balancing zum Laufen gebracht. Das wäre nützlich, um Llama 400B auf mehreren Geräten auszuführen. Aber Windows-Unterstützung gibt es noch nicht