- Googles Open-Source-Modell Gemma 4 läuft auf dem iPhone nativ ohne Internetverbindung und ermöglicht vollständige Offline-Inferenz
- Das 31B-Modell von Gemma 4 zeigt eine ähnliche Leistung wie das 27B-Modell von Qwen 3.5, hat dabei aber rund 4 Milliarden mehr Parameter
- Die E2B- und E4B-Varianten sind für mobile Geräte optimierte Modelle, die auf Geschwindigkeit und Wärmekontrolle ausgelegt sind; die Google-App empfiehlt standardmäßig die Nutzung von E2B
- Nutzer können über die App Google AI Edge Gallery ein Modell auswählen und Inferenz auf dem Gerät ohne API oder Cloud ausführen
- Diese Umsetzung zeigt, dass der Wechsel zu On-Device-AI Realität wird, und gilt als wichtiger Meilenstein für den Ausbau des Edge-AI-Ökosystems
Google Gemma 4 läuft On-Device auf dem iPhone
- Googles Open-Source-Modell Gemma 4 unterstützt auf dem iPhone vollständige Offline-Inferenz und läuft nativ
- Lokale Inferenz ist ohne Internetverbindung möglich
- Die Bereitstellung von Edge AI wandelt sich von einer Zukunftsaufgabe zu einer bereits laufenden technologischen Realität
- Beim Leistungsvergleich wird die 31B-Variante von Gemma 4 als ähnlich stark wie das 27B-Modell von Qwen 3.5 eingeschätzt
- Gemma verfügt über rund 4 Milliarden mehr Parameter
- Beide Modelle haben je nach Aufgabe unterschiedliche Stärken, einen absoluten Vorsprung gibt es nicht
- Im Fokus stehen die mobil optimierten Modelle E2B und E4B
- Mit Blick auf Effizienz sind sie bei Geschwindigkeit, geringem Ressourcenbedarf und Wärmekontrolle im Vorteil
- Googles App empfiehlt standardmäßig die Nutzung von E2B
- Die App Google AI Edge Gallery kann aus dem App Store heruntergeladen und sofort genutzt werden
- Nutzer wählen eine Modellvariante aus und führen Inferenz direkt auf dem Gerät aus
- Keine API-Aufrufe und keine Cloud-Abhängigkeit
- Die App geht über eine einfache Textoberfläche hinaus und umfasst Bilderkennung, Sprachinteraktion und ein erweiterbares Skills-Framework
- Sie ist als Experimentierplattform für On-Device-AI konzipiert und kann von Entwicklern und fortgeschrittenen Nutzern verwendet werden
Technische Struktur und Leistung
- Gemma 4 nutzt einen Inferenzpfad über die GPU des iPhone
- Die Antwortlatenz ist sehr gering und belegt, dass sich hochleistungsfähige KI-Workloads auch auf Consumer-Hardware verarbeiten lassen
- Das gilt als zentrales Beispiel für das Kommerzialisierungspotenzial lokaler KI-Bereitstellung
- Die Offline-Funktionalität erweitert die Einsatzmöglichkeiten in Unternehmensumgebungen erheblich
- Einsatz ist ohne Cloud-Abhängigkeit in Außendienst, medizinischen Umgebungen und Bereichen mit hohen Anforderungen an den Datenschutz möglich
Bedeutung und Ausblick
- Dass Gemma 4 auf dem iPhone läuft, ist nicht nur eine Technikdemo, sondern symbolisiert den Beginn des On-Device-AI-Zeitalters
- Google treibt mit Gemma den Ausbau des Edge-AI-Ökosystems nun ernsthaft voran
- Wie die Formulierung „Gemma ist aus der Flasche“ andeutet, hat der Übergang zu lokal ausgeführter AI bereits begonnen
1 Kommentare
Hacker-News-Kommentare
Der Schreibstil des Artikels wirkte, als hätte ihn ein LLM geschrieben
Muster wie „It’s not mere X — it’s Y“ würden sich mehrfach wiederholen
Es wurde festgestellt, dass die Inferenz über die GPU und nicht über die Apple Neural Engine läuft
Offenbar hätten Googles Ingenieure das Kompilieren benutzerdefinierter Kernel für Apples proprietäre Tensor-Blöcke aufgegeben. Metal sei zwar leicht portierbar, verbrauche aber viel Akku. Bis das ANE-Backend neu geschrieben werde, sei das eher eine technische Demo
Mit Gemma 4 wurde eine Offline-Coding-App (pucky) gebaut und auf dem iPhone ausgeführt
Siehe GitHub-Link. Auch das 4B-Modell funktioniere, aber wegen Speicherbeschränkungen laufe standardmäßig das 2B-Modell. Es erzeuge eine einzelne TypeScript-Datei und kompiliere sie mit
oxc. Durch die App-Store-Prüfung komme es wohl kaum, daher müsse man sie direkt mit Xcode bauenApple scheint lokale LLMs im App Store einzuschränken. Beim Versuch, eine eigene App zu veröffentlichen, sei man an Klausel 2.5.2 gescheitert
Als verwandter Thread wurde Gemma 4 on iPhone geteilt
Auf dem iPhone 16 Plus sei die Geschwindigkeit sehr hoch, bei langen Nachrichten werde es jedoch drastisch langsamer. Wegen thermischem Throttling sei das nicht. Man würde gern Diagnosedaten sehen
Man hatte auf eine Edge-Gallery-iOS-App mit Gemma 4 gehofft, fand sie aber wegen beschränktem Zugriff auf Intents und der Notwendigkeit benutzerdefinierter Plugins für die Websuche umständlich. ChatMCP sei API-basiert und daher noch am ehesten brauchbar
Auf einem iPhone 16 Pro wurde Google AI Edge Gallery installiert und ein Benchmark ausgeführt
Es wurden Ergebnisse von Prefill 231t/s, Decode 16t/s, 1,16 Sekunden bis zum ersten Token und 20 Sekunden Initialisierung auf der GPU geteilt
Bei kleinen Modellen ist Vorsicht geboten
Auf die Frage, ob ein Hund Avocado essen könne, antwortete das Modell selbstbewusst mit „Yes“. Man müsse die Grenzen des Modells kennen
Trotz Offline-Betrieb wurde vermutet, dass Google Eingabedaten oder Geräteinformationen sammeln könnte