Ausführen eines 400B-LLM auf dem iPhone 17 Pro
(twitter.com/anemll)- Auf dem iPhone 17 Pro läuft ein LLM mit 400 Milliarden Parametern, mit einer Geschwindigkeit von etwa 0,6 Token pro Sekunde
- Das Modell verwendet eine Mixture-of-Experts-(MoE)-Struktur, wobei tatsächlich nur etwa 5 Milliarden Parameter aktiviert werden
- Es wurde als 4-Bit-quantisierte Version rekonstruiert, ist aber sehr langsam
- Verwendet werden GPU-/CPU-RAM gemeinsam sowie Streaming-Laden von der SSD
- Flash-Moe wurde geforkt und unter Anemll/flash-moe (iOS-App-Branch) veröffentlicht
1 Kommentare
Hacker-News-Kommentare
Ich frage mich, ob der Ansatz, direkt von der SSD zur GPU zu streamen, auf Apples Paper LLM in a Flash von 2023 basiert
Ich habe geträumt, dass alle eine superintelligente KI in der Tasche mit sich herumtragen, aber am Ende nur doomscrolling und catfishing betreiben, bis die Welt untergeht
Mein iPad Air (M2) kann lokale LLMs ziemlich gut ausführen, aber nach ein paar Sekunden überhitzt es und wird sofort gedrosselt
Qwen3.5-397B-A17B verhält sich in der Praxis wie ein 17B-Modell. Den MoE-Teil im Titel wegzulassen, ist bloß irreführendes Marketing.
Auch Quantisierung ist eine Art Cheatcode, also könnte irgendwann jemand sogar ein 1-Bit-quantisiertes Modell als „großes Modell“ bezeichnen
Es gibt die Frage: „Wenn es ein 400B-Modell ist, wie viele Parameter sind bei einer MoE-Architektur tatsächlich aktiv?“
Diese Nachricht erinnert an die Zeit, als llama.c gerade erst erschienen war und alle begeistert waren, dass lokales Ausführen möglich wurde
Ich habe auf einem alten Android-Smartphone (LineageOS) Termux installiert und darin Ollama mit einem kleinen Modell laufen lassen. Die Performance war furchtbar, aber es läuft
Bei den MoE-Modellen von Qwen sinkt die Leistung stark ab, wenn der aktive Zustand auf etwa 2B fällt. Wenn bei der tatsächlichen Inferenz nur ein Bruchteil der Parameter verwendet wird, ist es bedeutungslos, das ein 400B-Modell zu nennen
Es gibt die Frage: „Wie lange wird es dauern, bis ein Modell dieser Leistung mit 100 Token pro Sekunde läuft?“
Falls du anemll nicht folgst: Er hat auch eine lauffähige Version von OpenClaw für das iPhone veröffentlicht.
Mit fortschreitender Hardware- und Modellentwicklung sieht die Zukunft mobiler KI ziemlich vielversprechend aus