6 Punkte von GN⁺ 2026-03-24 | 1 Kommentare | Auf WhatsApp teilen
  • Auf dem iPhone 17 Pro läuft ein LLM mit 400 Milliarden Parametern, mit einer Geschwindigkeit von etwa 0,6 Token pro Sekunde
  • Das Modell verwendet eine Mixture-of-Experts-(MoE)-Struktur, wobei tatsächlich nur etwa 5 Milliarden Parameter aktiviert werden
  • Es wurde als 4-Bit-quantisierte Version rekonstruiert, ist aber sehr langsam
  • Verwendet werden GPU-/CPU-RAM gemeinsam sowie Streaming-Laden von der SSD
  • Flash-Moe wurde geforkt und unter Anemll/flash-moe (iOS-App-Branch) veröffentlicht

1 Kommentare

 
GN⁺ 2026-03-24
Hacker-News-Kommentare
  • Ich frage mich, ob der Ansatz, direkt von der SSD zur GPU zu streamen, auf Apples Paper LLM in a Flash von 2023 basiert

    • Ja. Ich habe die relevanten Details in meinem Blogbeitrag zusammengefasst
    • Ein ähnlicher Ansatz wurde kürzlich auch in diesem HN-Thread vorgestellt. Allerdings ist das iPhone Pro auf 12 GB RAM begrenzt, was nicht ausreicht, um den aktiven Teil des Modells zu halten. Man könnte zwar langlebigen Storage wie Intel Optane verwenden, aber der Stromverbrauch ist zu hoch und damit für mobile Geräte ungeeignet
    • Dieser Ansatz unterscheidet sich strukturell nicht besonders davon, wie Cerebus Gewichte streamt
  • Ich habe geträumt, dass alle eine superintelligente KI in der Tasche mit sich herumtragen, aber am Ende nur doomscrolling und catfishing betreiben, bis die Welt untergeht

    • Das klingt wie ein moderner Nostradamus
  • Mein iPad Air (M2) kann lokale LLMs ziemlich gut ausführen, aber nach ein paar Sekunden überhitzt es und wird sofort gedrosselt

    • Ich frage mich, ob jemals jemand ein Flüssigkühlsystem für iPads oder Smartphones gebaut hat. So etwas wie ein geschlossenes Gerät, das auf der Rückseite anliegt und Kühlmittel zirkulieren lässt
  • Qwen3.5-397B-A17B verhält sich in der Praxis wie ein 17B-Modell. Den MoE-Teil im Titel wegzulassen, ist bloß irreführendes Marketing.
    Auch Quantisierung ist eine Art Cheatcode, also könnte irgendwann jemand sogar ein 1-Bit-quantisiertes Modell als „großes Modell“ bezeichnen

    • Tatsächlich verhält es sich eher wie ein 80B-Modell, und das Weltwissen liegt näher an einem 400B-Modell. Von der Modellarchitektur über die Quantisierung bis zur Time to First Token ist alles offengelegt, daher gibt es wenig Spielraum für Missverständnisse. Solche Versuche sind weniger für normale Nutzer gedacht als vielmehr technische Experimente, fast wie Code Golf
  • Es gibt die Frage: „Wenn es ein 400B-Modell ist, wie viele Parameter sind bei einer MoE-Architektur tatsächlich aktiv?“

    • Bei Qwen3.5-397B-A17B sind 17B Parameter aktiv. Den zugehörigen Code findet man im flash-moe iOS-App-Repository
    • Heutzutage setzen die meisten Unternehmen auf eine MoE-Architektur
  • Diese Nachricht erinnert an die Zeit, als llama.c gerade erst erschienen war und alle begeistert waren, dass lokales Ausführen möglich wurde

  • Ich habe auf einem alten Android-Smartphone (LineageOS) Termux installiert und darin Ollama mit einem kleinen Modell laufen lassen. Die Performance war furchtbar, aber es läuft

    • Ich erinnere mich, wie ich früher auf einem Galaxy Note mit Linux Deploy selbst einen Bitcoin-Miner gebaut und ausgeführt habe. Die Leistung war miserabel, aber es fühlte sich an, als hätte ich einen vollwertigen Computer in der Tasche. Zu Nokia-Zeiten konnte man außer Browser-JS praktisch nichts ausführen, aber Android war wirklich eine hackbare Plattform
    • Zur Einordnung: Mein Pixel 8 schafft Qwen3.5 4B mit 2 Token pro Sekunde. In der PocketPal-App lief es gut, aber die Cactus-App funktionierte nicht
  • Bei den MoE-Modellen von Qwen sinkt die Leistung stark ab, wenn der aktive Zustand auf etwa 2B fällt. Wenn bei der tatsächlichen Inferenz nur ein Bruchteil der Parameter verwendet wird, ist es bedeutungslos, das ein 400B-Modell zu nennen

  • Es gibt die Frage: „Wie lange wird es dauern, bis ein Modell dieser Leistung mit 100 Token pro Sekunde läuft?“

    • Der einzige Weg ist, das Modell direkt in Hardware einzubetten. Tatsächlich wird in diesem Blogbeitrag ein solcher Chip vorgestellt, aber er ist zu groß für ein Smartphone
    • Auf Smartphones lohnt es sich nicht, solche großen Modelle auszuführen. Es ist schneller und genauer, kleine Modelle für bestimmte Anwendungsfälle feinzujustieren
    • Das Apollo-(LFM2)-Modell von Liquid AI läuft auch auf Smartphones recht schnell und ist nützlich für Aufgaben wie das Zusammenfassen von Suchergebnissen oder das Lösen von Mathematikaufgaben
    • Realistisch gesehen halte ich das für unmöglich. Es gibt keine technische Lösung
    • Vermutlich wird es noch 15 bis 20 Jahre dauern. Dass dieses Modell heute auf einem Smartphone „läuft“, ist nur in einem sehr technischen Sinn korrekt. In Wirklichkeit reichen RAM-Kapazität und Speicherbandbreite bei weitem nicht aus. Eine Demo mit SSD ist möglich, aber nicht praktikabel. Am Ende braucht es neue Algorithmen und maßgeschneiderte Chip-Designs. Mit der heutigen Transformer-Architektur sind die Grenzen klar erkennbar
  • Falls du anemll nicht folgst: Er hat auch eine lauffähige Version von OpenClaw für das iPhone veröffentlicht.
    Mit fortschreitender Hardware- und Modellentwicklung sieht die Zukunft mobiler KI ziemlich vielversprechend aus