Google Gemma 4 unterstützt vollständig offline laufende KI-Inferenz auf dem iPhone

(gizmoweek.com)

3 Punkte von GN⁺ 13 일 전 | 1 Kommentare | Auf WhatsApp teilen

Googles Open-Source-Modell Gemma 4 läuft auf dem iPhone nativ ohne Internetverbindung und ermöglicht vollständige Offline-Inferenz
Das 31B-Modell von Gemma 4 zeigt eine ähnliche Leistung wie das 27B-Modell von Qwen 3.5, hat dabei aber rund 4 Milliarden mehr Parameter
Die E2B- und E4B-Varianten sind für mobile Geräte optimierte Modelle, die auf Geschwindigkeit und Wärmekontrolle ausgelegt sind; die Google-App empfiehlt standardmäßig die Nutzung von E2B
Nutzer können über die App Google AI Edge Gallery ein Modell auswählen und Inferenz auf dem Gerät ohne API oder Cloud ausführen
Diese Umsetzung zeigt, dass der Wechsel zu On-Device-AI Realität wird, und gilt als wichtiger Meilenstein für den Ausbau des Edge-AI-Ökosystems

Google Gemma 4 läuft On-Device auf dem iPhone

Googles Open-Source-Modell Gemma 4 unterstützt auf dem iPhone vollständige Offline-Inferenz und läuft nativ
- Lokale Inferenz ist ohne Internetverbindung möglich
- Die Bereitstellung von Edge AI wandelt sich von einer Zukunftsaufgabe zu einer bereits laufenden technologischen Realität
Beim Leistungsvergleich wird die 31B-Variante von Gemma 4 als ähnlich stark wie das 27B-Modell von Qwen 3.5 eingeschätzt
- Gemma verfügt über rund 4 Milliarden mehr Parameter
- Beide Modelle haben je nach Aufgabe unterschiedliche Stärken, einen absoluten Vorsprung gibt es nicht
Im Fokus stehen die mobil optimierten Modelle E2B und E4B
- Mit Blick auf Effizienz sind sie bei Geschwindigkeit, geringem Ressourcenbedarf und Wärmekontrolle im Vorteil
- Googles App empfiehlt standardmäßig die Nutzung von E2B
Die App Google AI Edge Gallery kann aus dem App Store heruntergeladen und sofort genutzt werden
- Nutzer wählen eine Modellvariante aus und führen Inferenz direkt auf dem Gerät aus
- Keine API-Aufrufe und keine Cloud-Abhängigkeit
Die App geht über eine einfache Textoberfläche hinaus und umfasst Bilderkennung, Sprachinteraktion und ein erweiterbares Skills-Framework
- Sie ist als Experimentierplattform für On-Device-AI konzipiert und kann von Entwicklern und fortgeschrittenen Nutzern verwendet werden

Technische Struktur und Leistung

Gemma 4 nutzt einen Inferenzpfad über die GPU des iPhone
- Die Antwortlatenz ist sehr gering und belegt, dass sich hochleistungsfähige KI-Workloads auch auf Consumer-Hardware verarbeiten lassen
- Das gilt als zentrales Beispiel für das Kommerzialisierungspotenzial lokaler KI-Bereitstellung
Die Offline-Funktionalität erweitert die Einsatzmöglichkeiten in Unternehmensumgebungen erheblich
- Einsatz ist ohne Cloud-Abhängigkeit in Außendienst, medizinischen Umgebungen und Bereichen mit hohen Anforderungen an den Datenschutz möglich

Bedeutung und Ausblick

Dass Gemma 4 auf dem iPhone läuft, ist nicht nur eine Technikdemo, sondern symbolisiert den Beginn des On-Device-AI-Zeitalters
- Google treibt mit Gemma den Ausbau des Edge-AI-Ökosystems nun ernsthaft voran
- Wie die Formulierung „Gemma ist aus der Flasche“ andeutet, hat der Übergang zu lokal ausgeführter AI bereits begonnen

1 Kommentare

GN⁺ 13 일 전

Hacker-News-Kommentare

Der Schreibstil des Artikels wirkte, als hätte ihn ein LLM geschrieben
Muster wie „It’s not mere X — it’s Y“ würden sich mehrfach wiederholen
- Es wurde gescherzt, dass man kaum glauben könne, ausgerechnet die moralischen Standards von „gizmoweek dot com“ infrage zu stellen
- Ob der Autor ein Mensch oder ein LLM sei, spiele keine Rolle. Das Problem sei der Mangel an Details. Es gebe keine Benchmarks für iPhone-Modelle, und der Inhalt sei fast leer
- Man habe es mit verschiedenen Modellen wie Claude und Grok geprüft, und alle hätten die typischen Probleme von Content-Farmen angesprochen, darunter fehlende Quellen und sich wiederholende Sätze. Nicht einmal die Existenz des Autors lasse sich belegen
- Das Emoticon ":v" habe Freude ausgelöst, als hätte man nach langer Zeit wieder einen Millennial entdeckt
- Es fühle sich an, als würde AI uns darauf trainieren, bestimmte Sprachmuster zu vermeiden. Man wolle nicht zur Geisel schwacher Sprache werden
Es wurde festgestellt, dass die Inferenz über die GPU und nicht über die Apple Neural Engine läuft
Offenbar hätten Googles Ingenieure das Kompilieren benutzerdefinierter Kernel für Apples proprietäre Tensor-Blöcke aufgegeben. Metal sei zwar leicht portierbar, verbrauche aber viel Akku. Bis das ANE-Backend neu geschrieben werde, sei das eher eine technische Demo
- Die ANE sei für das Ausführen von LLMs praktisch nicht wirklich geeignet. Das LLM-Ökosystem sei auf CPU/GPU ausgerichtet standardisiert, und selbst Apples MLX unterstütze die ANE nicht
- Unter Verweis auf einen 9to5mac-Artikel, laut dem in einigen Monaten auf der WWDC ein Core-AI-Framework als Ersatz für CoreML angekündigt werden soll, wurde Vorfreude geäußert
- Die ANE arbeite effizient erst mit Blöcken von mindestens 128 Vektoren. Für die Token-Generierung sei das ineffizient, aber dank aktueller Techniken wie Flash-MoE oder DFlash sei man optimistischer als früher
- Der Stromverbrauch sei in Ordnung, aber Funktionen wie 24/7-Hintergrundlauschen seien wegen der Kontrolle über die Privatsphäre nicht wünschenswert
- Auch die AI Edge Gallery App auf Android nutze nur die GPU. Das wirke weniger wie ein Problem von Apples Tensor-Blöcken als vielmehr so, als hätte Google sich insgesamt nicht besonders darum gekümmert
Mit Gemma 4 wurde eine Offline-Coding-App (pucky) gebaut und auf dem iPhone ausgeführt
Siehe GitHub-Link. Auch das 4B-Modell funktioniere, aber wegen Speicherbeschränkungen laufe standardmäßig das 2B-Modell. Es erzeuge eine einzelne TypeScript-Datei und kompiliere sie mit oxc. Durch die App-Store-Prüfung komme es wohl kaum, daher müsse man sie direkt mit Xcode bauen
- Mit Verweis auf einen früheren HN-Thread wurde vorgeschlagen, statt React Native einmal Swift auszuprobieren
Apple scheint lokale LLMs im App Store einzuschränken. Beim Versuch, eine eigene App zu veröffentlichen, sei man an Klausel 2.5.2 gescheitert
- Es wurde prognostiziert, dass Apple die Regulierung rund um LLMs weiter verschärfen wird. Wenn Nutzer ihre Apps selbst bauen könnten, wäre Apples Geschäftsmodell bedroht
- Allerdings seien die Regeln nicht konsistent. Auf dem eigenen Telefon liefen Google Edge Gallery und Locally AI bereits problemlos
- Unter Verweis auf den vollständigen Text der App-Store-Richtlinie 2.5.2 wurde infrage gestellt, warum lokale LLMs darunter fallen sollten
- Die eigene App habe ein ANE-optimiertes LLM enthalten, vollständig offline funktioniert und die Prüfung innerhalb eines Tages bestanden. Möglicherweise wolle Apple damit AI-Spam-Apps herausfiltern. Erwähnt wurde auch ein MacRumors-Artikel
- Es wurde gefragt, ob Apps rund um Cactus Compute dasselbe Problem hätten
Als verwandter Thread wurde Gemma 4 on iPhone geteilt
- Außerdem wurde ein Beitrag von vor 22 Tagen erwähnt, in dem ein iPhone 17 Pro ein 400B-LLM ausgeführt hat
Auf dem iPhone 16 Plus sei die Geschwindigkeit sehr hoch, bei langen Nachrichten werde es jedoch drastisch langsamer. Wegen thermischem Throttling sei das nicht. Man würde gern Diagnosedaten sehen
- LLM-Inferenz habe eine O(tokens²)-Komplexität, daher sei es natürlich, dass sie mit zunehmender Länge langsamer werde
Man hatte auf eine Edge-Gallery-iOS-App mit Gemma 4 gehofft, fand sie aber wegen beschränktem Zugriff auf Intents und der Notwendigkeit benutzerdefinierter Plugins für die Websuche umständlich. ChatMCP sei API-basiert und daher noch am ehesten brauchbar
Auf einem iPhone 16 Pro wurde Google AI Edge Gallery installiert und ein Benchmark ausgeführt
Es wurden Ergebnisse von Prefill 231t/s, Decode 16t/s, 1,16 Sekunden bis zum ersten Token und 20 Sekunden Initialisierung auf der GPU geteilt
Bei kleinen Modellen ist Vorsicht geboten
Auf die Frage, ob ein Hund Avocado essen könne, antwortete das Modell selbstbewusst mit „Yes“. Man müsse die Grenzen des Modells kennen
- Als Witz kam die Antwort: „Technisch gesehen kann er sie schon essen …“
Trotz Offline-Betrieb wurde vermutet, dass Google Eingabedaten oder Geräteinformationen sammeln könnte
- Ein Blick in den GitHub-Quellcode zeige, dass zwar keine Nachrichteninhalte gesammelt würden, aber Statistiken zur Modellnutzung aufgezeichnet werden
- Es wurde eine amüsante Anekdote geteilt, wonach in internen Google-Schulungsunterlagen ein fiktives Produkt namens „gShoe“ als Beispiel für Datenschutzprobleme bei der Datenerfassung verwendet werde
- Außerdem wurde erwähnt, dass Apple 1 Milliarde Dollar an Google zahlt und damit eine On-Device-AI-Strategie vorantreibt; dies könne ein Vorgeschmack darauf sein

Google Gemma 4 unterstützt vollständig offline laufende KI-Inferenz auf dem iPhone

Google Gemma 4 läuft On-Device auf dem iPhone

Technische Struktur und Leistung

Bedeutung und Ausblick

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare