3 Punkte von GN⁺ 13 일 전 | 1 Kommentare | Auf WhatsApp teilen
  • Googles Open-Source-Modell Gemma 4 läuft auf dem iPhone nativ ohne Internetverbindung und ermöglicht vollständige Offline-Inferenz
  • Das 31B-Modell von Gemma 4 zeigt eine ähnliche Leistung wie das 27B-Modell von Qwen 3.5, hat dabei aber rund 4 Milliarden mehr Parameter
  • Die E2B- und E4B-Varianten sind für mobile Geräte optimierte Modelle, die auf Geschwindigkeit und Wärmekontrolle ausgelegt sind; die Google-App empfiehlt standardmäßig die Nutzung von E2B
  • Nutzer können über die App Google AI Edge Gallery ein Modell auswählen und Inferenz auf dem Gerät ohne API oder Cloud ausführen
  • Diese Umsetzung zeigt, dass der Wechsel zu On-Device-AI Realität wird, und gilt als wichtiger Meilenstein für den Ausbau des Edge-AI-Ökosystems

Google Gemma 4 läuft On-Device auf dem iPhone

  • Googles Open-Source-Modell Gemma 4 unterstützt auf dem iPhone vollständige Offline-Inferenz und läuft nativ
    • Lokale Inferenz ist ohne Internetverbindung möglich
    • Die Bereitstellung von Edge AI wandelt sich von einer Zukunftsaufgabe zu einer bereits laufenden technologischen Realität
  • Beim Leistungsvergleich wird die 31B-Variante von Gemma 4 als ähnlich stark wie das 27B-Modell von Qwen 3.5 eingeschätzt
    • Gemma verfügt über rund 4 Milliarden mehr Parameter
    • Beide Modelle haben je nach Aufgabe unterschiedliche Stärken, einen absoluten Vorsprung gibt es nicht
  • Im Fokus stehen die mobil optimierten Modelle E2B und E4B
    • Mit Blick auf Effizienz sind sie bei Geschwindigkeit, geringem Ressourcenbedarf und Wärmekontrolle im Vorteil
    • Googles App empfiehlt standardmäßig die Nutzung von E2B
  • Die App Google AI Edge Gallery kann aus dem App Store heruntergeladen und sofort genutzt werden
    • Nutzer wählen eine Modellvariante aus und führen Inferenz direkt auf dem Gerät aus
    • Keine API-Aufrufe und keine Cloud-Abhängigkeit
  • Die App geht über eine einfache Textoberfläche hinaus und umfasst Bilderkennung, Sprachinteraktion und ein erweiterbares Skills-Framework
    • Sie ist als Experimentierplattform für On-Device-AI konzipiert und kann von Entwicklern und fortgeschrittenen Nutzern verwendet werden

Technische Struktur und Leistung

  • Gemma 4 nutzt einen Inferenzpfad über die GPU des iPhone
    • Die Antwortlatenz ist sehr gering und belegt, dass sich hochleistungsfähige KI-Workloads auch auf Consumer-Hardware verarbeiten lassen
    • Das gilt als zentrales Beispiel für das Kommerzialisierungspotenzial lokaler KI-Bereitstellung
  • Die Offline-Funktionalität erweitert die Einsatzmöglichkeiten in Unternehmensumgebungen erheblich
    • Einsatz ist ohne Cloud-Abhängigkeit in Außendienst, medizinischen Umgebungen und Bereichen mit hohen Anforderungen an den Datenschutz möglich

Bedeutung und Ausblick

  • Dass Gemma 4 auf dem iPhone läuft, ist nicht nur eine Technikdemo, sondern symbolisiert den Beginn des On-Device-AI-Zeitalters
    • Google treibt mit Gemma den Ausbau des Edge-AI-Ökosystems nun ernsthaft voran
    • Wie die Formulierung „Gemma ist aus der Flasche“ andeutet, hat der Übergang zu lokal ausgeführter AI bereits begonnen

1 Kommentare

 
GN⁺ 13 일 전
Hacker-News-Kommentare
  • Der Schreibstil des Artikels wirkte, als hätte ihn ein LLM geschrieben
    Muster wie „It’s not mere X — it’s Y“ würden sich mehrfach wiederholen

    • Es wurde gescherzt, dass man kaum glauben könne, ausgerechnet die moralischen Standards von „gizmoweek dot com“ infrage zu stellen
    • Ob der Autor ein Mensch oder ein LLM sei, spiele keine Rolle. Das Problem sei der Mangel an Details. Es gebe keine Benchmarks für iPhone-Modelle, und der Inhalt sei fast leer
    • Man habe es mit verschiedenen Modellen wie Claude und Grok geprüft, und alle hätten die typischen Probleme von Content-Farmen angesprochen, darunter fehlende Quellen und sich wiederholende Sätze. Nicht einmal die Existenz des Autors lasse sich belegen
    • Das Emoticon ":v" habe Freude ausgelöst, als hätte man nach langer Zeit wieder einen Millennial entdeckt
    • Es fühle sich an, als würde AI uns darauf trainieren, bestimmte Sprachmuster zu vermeiden. Man wolle nicht zur Geisel schwacher Sprache werden
  • Es wurde festgestellt, dass die Inferenz über die GPU und nicht über die Apple Neural Engine läuft
    Offenbar hätten Googles Ingenieure das Kompilieren benutzerdefinierter Kernel für Apples proprietäre Tensor-Blöcke aufgegeben. Metal sei zwar leicht portierbar, verbrauche aber viel Akku. Bis das ANE-Backend neu geschrieben werde, sei das eher eine technische Demo

    • Die ANE sei für das Ausführen von LLMs praktisch nicht wirklich geeignet. Das LLM-Ökosystem sei auf CPU/GPU ausgerichtet standardisiert, und selbst Apples MLX unterstütze die ANE nicht
    • Unter Verweis auf einen 9to5mac-Artikel, laut dem in einigen Monaten auf der WWDC ein Core-AI-Framework als Ersatz für CoreML angekündigt werden soll, wurde Vorfreude geäußert
    • Die ANE arbeite effizient erst mit Blöcken von mindestens 128 Vektoren. Für die Token-Generierung sei das ineffizient, aber dank aktueller Techniken wie Flash-MoE oder DFlash sei man optimistischer als früher
    • Der Stromverbrauch sei in Ordnung, aber Funktionen wie 24/7-Hintergrundlauschen seien wegen der Kontrolle über die Privatsphäre nicht wünschenswert
    • Auch die AI Edge Gallery App auf Android nutze nur die GPU. Das wirke weniger wie ein Problem von Apples Tensor-Blöcken als vielmehr so, als hätte Google sich insgesamt nicht besonders darum gekümmert
  • Mit Gemma 4 wurde eine Offline-Coding-App (pucky) gebaut und auf dem iPhone ausgeführt
    Siehe GitHub-Link. Auch das 4B-Modell funktioniere, aber wegen Speicherbeschränkungen laufe standardmäßig das 2B-Modell. Es erzeuge eine einzelne TypeScript-Datei und kompiliere sie mit oxc. Durch die App-Store-Prüfung komme es wohl kaum, daher müsse man sie direkt mit Xcode bauen

    • Mit Verweis auf einen früheren HN-Thread wurde vorgeschlagen, statt React Native einmal Swift auszuprobieren
  • Apple scheint lokale LLMs im App Store einzuschränken. Beim Versuch, eine eigene App zu veröffentlichen, sei man an Klausel 2.5.2 gescheitert

    • Es wurde prognostiziert, dass Apple die Regulierung rund um LLMs weiter verschärfen wird. Wenn Nutzer ihre Apps selbst bauen könnten, wäre Apples Geschäftsmodell bedroht
    • Allerdings seien die Regeln nicht konsistent. Auf dem eigenen Telefon liefen Google Edge Gallery und Locally AI bereits problemlos
    • Unter Verweis auf den vollständigen Text der App-Store-Richtlinie 2.5.2 wurde infrage gestellt, warum lokale LLMs darunter fallen sollten
    • Die eigene App habe ein ANE-optimiertes LLM enthalten, vollständig offline funktioniert und die Prüfung innerhalb eines Tages bestanden. Möglicherweise wolle Apple damit AI-Spam-Apps herausfiltern. Erwähnt wurde auch ein MacRumors-Artikel
    • Es wurde gefragt, ob Apps rund um Cactus Compute dasselbe Problem hätten
  • Als verwandter Thread wurde Gemma 4 on iPhone geteilt

  • Auf dem iPhone 16 Plus sei die Geschwindigkeit sehr hoch, bei langen Nachrichten werde es jedoch drastisch langsamer. Wegen thermischem Throttling sei das nicht. Man würde gern Diagnosedaten sehen

    • LLM-Inferenz habe eine O(tokens²)-Komplexität, daher sei es natürlich, dass sie mit zunehmender Länge langsamer werde
  • Man hatte auf eine Edge-Gallery-iOS-App mit Gemma 4 gehofft, fand sie aber wegen beschränktem Zugriff auf Intents und der Notwendigkeit benutzerdefinierter Plugins für die Websuche umständlich. ChatMCP sei API-basiert und daher noch am ehesten brauchbar

  • Auf einem iPhone 16 Pro wurde Google AI Edge Gallery installiert und ein Benchmark ausgeführt
    Es wurden Ergebnisse von Prefill 231t/s, Decode 16t/s, 1,16 Sekunden bis zum ersten Token und 20 Sekunden Initialisierung auf der GPU geteilt

  • Bei kleinen Modellen ist Vorsicht geboten
    Auf die Frage, ob ein Hund Avocado essen könne, antwortete das Modell selbstbewusst mit „Yes“. Man müsse die Grenzen des Modells kennen

    • Als Witz kam die Antwort: „Technisch gesehen kann er sie schon essen …“
  • Trotz Offline-Betrieb wurde vermutet, dass Google Eingabedaten oder Geräteinformationen sammeln könnte

    • Ein Blick in den GitHub-Quellcode zeige, dass zwar keine Nachrichteninhalte gesammelt würden, aber Statistiken zur Modellnutzung aufgezeichnet werden
    • Es wurde eine amüsante Anekdote geteilt, wonach in internen Google-Schulungsunterlagen ein fiktives Produkt namens „gShoe“ als Beispiel für Datenschutzprobleme bei der Datenerfassung verwendet werde
    • Außerdem wurde erwähnt, dass Apple 1 Milliarde Dollar an Google zahlt und damit eine On-Device-AI-Strategie vorantreibt; dies könne ein Vorgeschmack darauf sein