Google AI Edge – On-Device-KI für mehrere Plattformen

(ai.google.dev)

14 Punkte von GN⁺ 2025-06-02 | 1 Kommentare | Auf WhatsApp teilen

Google AI Edge unterstützt die Bereitstellung von AI-Modellen auf Mobilgeräten, im Web und auf Embedded-Geräten auf einfache Weise
Mit einem integrierten Cross-Platform-Framework kann dasselbe Modell unter Android, iOS, im Web und in Embedded-Umgebungen ausgeführt werden
Es bietet Kompatibilität mit verschiedenen Machine-Learning-Frameworks (JAX, Keras, PyTorch, TensorFlow)
Es stellt fortgeschrittene Entwicklerwerkzeuge bereit, darunter Visualisierung und Debugging der Modellkonvertierung sowie den Aufbau benutzerdefinierter Pipelines
On-Device Generative AI wie Gemini Nano kann auf Android- und Chrome-Plattformen genutzt werden

Einführung in Google AI Edge

Google AI Edge ist eine Lösung für die On-Device- und Cross-Platform-Bereitstellung von KI
Es ist eine Plattform, mit der sich AI-Modelle effizient bereitstellen und ausführen lassen – über verschiedene Umgebungen hinweg wie mobile Apps, Web und Embedded-Anwendungen.

Hauptmerkmale

Lokale Speicherung auf dem Gerät: Daten bleiben lokal und privat, wodurch Latenzen reduziert werden und der Offline-Betrieb unterstützt wird
Cross-Platform-Unterstützung: Dasselbe Modell kann unter Android, iOS, im Web und in Embedded-Umgebungen ausgeführt werden
Multi-Framework-Kompatibilität: Unterstützung für die Kompatibilität mit mehreren Machine-Learning-Frameworks wie JAX, Keras, PyTorch und TensorFlow
Vollständiger AI-Edge-Stack: Unterstützt integriert flexible Frameworks, Turnkey-Lösungen und Hardware-Beschleuniger

Vorgefertigte Lösungen und flexible Frameworks

Low-Code-APIs für typische AI-Aufgaben

Bietet plattformübergreifende Low-Code-APIs, mit denen sich gängige AI-Aufgaben wie Generative AI, Vision, Text und Audio einfach umsetzen lassen
Als auf MediaPipe basierende Lösung ermöglicht es einen schnellen Einstieg und schnelle Umsetzung

Cross-Platform-Bereitstellung benutzerdefinierter Modelle

Bereits mit JAX, Keras, PyTorch oder TensorFlow trainierte AI-Modelle lassen sich auf Android, iOS, im Web und auf Embedded-Geräten mit hoher Performance ausführen
Durch LiteRT werden Betriebseffizienz und komfortable Bereitstellung sichergestellt

Werkzeuge zur Modellkonvertierung und Visualisierung

Es bietet Funktionen zur Visualisierung von Modellkonvertierung und Quantisierungsprozessen
Mit Performance-Benchmark-Overlays lassen sich Hotspots in AI-Projekten debuggen

Aufbau maßgeschneiderter ML-Pipelines

Mehrere ML-Modelle lassen sich – einschließlich Vor- und Nachverarbeitungslogik – verketten, um komplexe Funktions-Pipelines aufzubauen
Beschleunigte Pipelines auf GPU- und NPU-Basis können ohne Blockierung durch die CPU ausgeführt werden

Gemini Nano auf Android und Chrome

Mit Gemini Nano, Googles aktuellem On-Device-Generative-AI-Modell, lassen sich Generative-AI-Funktionen in verschiedenen Umgebungen wie Android und Chrome integrieren

Fazit

Google AI Edge ist eine starke Option für die Bereitstellung verteilter On-Device-KI-Technologien.
Mit Cross-Platform-Kompatibilität, Unterstützung für verschiedene Frameworks, Tools für die Entwicklerproduktivität und einer aktuellen Generative-AI-Umgebung bietet es Startups und der IT-Entwickler-Community eine effiziente und leistungsfähige Erfahrung bei der Einführung von KI.

1 Kommentare

GN⁺ 2025-06-02

Hacker-News-Kommentare

Meiner Meinung nach war die Kombination aus TensorFlow Lite und MediaPipe eine Zeit lang großartig, wirkte aber in den letzten drei Jahren bei Google fast vernachlässigt. Für MediaPipe gab es kaum sinnvolle Updates, und viele häufig genutzte Modelle sind veraltet oder oft langsam. TF Lite unterstützte NPUs wie Apples ANU, aber in MediaPipe wurde das überhaupt nicht unterstützt. Dazu kam ein ziemliches Durcheinander bei den Marken wie MLKit, Firebase ML, TF Lite und LiteRT. Ich denke, derzeit ist es besser, onnxruntime zusammen mit Hugging Face Transformers oder transformers.js zu verwenden oder darauf zu warten, dass executorch reifer wird. Offiziell auf TensorFlow Lite / LiteRT portierte aktuelle SOTA-Modelle wie SAM2, EfficientSAM, EdgeSAM, DFINE, DEIM, Whisper, Lite-Whisper, Kokoro, DepthAnythingV2 usw. habe ich kaum gesehen; im Grunde ist fast alles auf PyTorch ausgerichtet, aber die ONNX- und MLX-Communitys sind weiterhin groß.
Unter https://github.com/google-ai-edge/gallery gibt es eine Galerie mit ML-/GenAI-Anwendungsfällen, die direkt auf dem Gerät laufen. Dort kann man Modelle lokal selbst ausprobieren oder verwenden.
Ich finde es grundsätzlich gut, dass es mehr Lösungen für On-Device-ML gibt. Trotzdem bin ich unsicher, ob ich so etwas spontan einsetzen würde, wenn es nicht genau zu meinem Anwendungsfall passt. Es ist auch schwer einzuschätzen, wie aufwendig es ist, neue Modelle mit beliebigen Ein- und Ausgaben hinzuzufügen. Für modellübergreifende Inferenz auf verschiedenen Geräten habe ich ONNX verwendet; ONNX ist wirklich Low-Level, sodass sich praktisch beliebige Gewichte anwenden lassen. Für viele Aufgaben kann man ONNX mit transformers.js kapseln und sich wiederkehrende Arbeiten wie Decoding sparen, also etwa keine Beam Search selbst implementieren müssen. Ein umfassenderes Material, ähnlich den oben erwähnten Guides, ist https://github.com/huggingface/transformers.js-examples. Die verschiedenen von mir erwähnten Lösungen sind unter https://ai.google.dev/edge/mediapipe/solutions/guide zu finden.
Das hier ist TensorFlow Lite + MediaPipe, nur als neue „Marke“ neu verpackt.
- Ich frage mich, ob genau diese Technik bei https://3d.kalidoface.com/ eingesetzt wird. Beeindruckend ist, dass es auf dem Gerät läuft. Es ist sogar besser als ein großer Teil kommerzieller Motion-Capture-Lösungen. Umso bedauerlicher ist, dass diese Lösung, obwohl sie recht ausgereift ist, schon vor drei Jahren als deprecated/unsupported markiert wurde. Schade, dass Google diese Technik nicht stärker genutzt oder bekannt gemacht hat.
Mich würde interessieren, ob jemand Erfahrung mit dieser Lösung hat. Ich habe ziemlich lange damit gekämpft, ein eigenes PyTorch-Modell nach CoreML zu exportieren, und bin auf viele nicht unterstützte Dinge, Segfaults, ständige Abbrüche und allerlei banale Fehler gestoßen. Es wäre schön, wenn jemand bestätigen könnte, dass diese Lösung nicht genauso mühsam ist.
- Ich habe alles eingerichtet und Gemma3 1B auf einem Pixel 8a getestet. Positiv war, dass es in nur wenigen Minuten lief, aber die Leistung war schwach. Schon bei einfachen Fragen hat es kaum korrekt geparst, keine Antwort versucht und sogar das Englisch war sehr schlecht. Ich hatte nur eine einfache Frage gestellt, nämlich „Wie kann dieses Modell so klein sein, dass es lokal auf meinem Handy läuft?“, und war so enttäuscht, dass ich das Modell direkt aufgegeben habe. Ich habe grundsätzlich keine hohen Erwartungen an KI, aber selbst dann war die Enttäuschung groß.
Ich habe es selbst getestet, und für mich wirkte es rein wie ein Werkzeug, um ein reines PyTorch-Modell in ein .tflite-Modell umzubauen. In meinem Fall habe ich es auf ein benutzerdefiniertes FinBERT-Modell angewendet, und die Modellgröße blieb fast gleich. Ich habe eine quantisierte Version konvertiert, aber die Ausgabe unterschied sich stark. Soweit ich mich erinnere, war die Dokumentation eher auf Standard-PyTorch-Modelle ausgerichtet, etwa aus der torchvision.models-Familie. Für solche Modelle ist es daher vielleicht besser geeignet. Zur Einordnung: Mein Versuch ist etwa ein Jahr her, und vielleicht hatte ich dadurch Glück und bin noch vor einem großen Bugfix davongekommen.
Hier gibt es detaillierte Informationen: https://ai.google.dev/edge/mediapipe/solutions/guide. Der Open-Source-Link ist außerdem https://github.com/google-ai-edge/mediapipe. Für mich wirkt das wie ein einheitlicher Ansatz, um KI-Modelle bereitzustellen, die tatsächlich auf Geräten am Edge laufen. Man könnte vermuten, dass es in etwa die Position von „JavaScript im AI-Stack“ einnehmen soll. Ich frage mich, wer genau die Zielgruppe dieser Technik ist.
- Einige Modelle in MediaPipe sind durchaus brauchbar, aber MediaPipe selbst ist eine alte Technik, die es schon seit etwa 2019 gibt. Der Fokus lag immer auf Edge-Ausführung von KI, besonders bei Vision-AI, etwa Face Tracking. Solche Dinge sind weiterhin nützlich, aber bei Bildklassifikation und Ähnlichem hat sich die Welt inzwischen stark verändert.
- Die Zielgruppe sind wohl Leute, die ML-Modelle plattformübergreifend ausrollen wollen, insbesondere wenn zusätzliche Logik nötig ist, die durch die reine TFLite-Runtime nicht abgedeckt wird. Geeignete Anwendungsfälle sind Dinge wie LLMs oder Computer Vision. Wenn man zum Beispiel einen Handgesten-Erkenner ausrollen will, muss man einen ziemlich komplexen Ablauf umsetzen: Eingabebild in einen bestimmten Farbraum und eine bestimmte Größe vorverarbeiten, das Bild zur GPU kopieren, ein TFLite-Modell zur Handerkennung ausführen, die Ausgabe neu skalieren, ein TFLite-Modell zur Gestenerkennung ausführen und das Ergebnis zu einem gültigen Output nachverarbeiten. Wenn man das sowohl für iOS als auch Android bereitstellen will, braucht man neben dem reinen Ausführen von TFLite enorm viel Zusatzcode. Der von Google in MediaPipe gewählte Ansatz besteht darin, solche Pipeline-Abläufe und gemeinsame Verarbeitungsbausteine als C++-Bibliothek zu bündeln, aus der man die benötigten Teile auswählt und nutzt. Diese Bibliothek lässt sich plattformübergreifend kompilieren und bietet auch Optionen für GPU-Beschleunigung. Vermutlich hat Google intern abgewogen, ob man solche Funktionen direkt in die TFLite-Runtime erweitern oder lieber eine separate Bibliothek wie MediaPipe bauen sollte. Am Ende scheint die Richtung gewesen zu sein, TFLite auf die eigentliche „Tensor-Berechnung“ zu konzentrieren und breiter gefasste Aufgaben wie LLMs oder Bildverarbeitung in eine separate Bibliothek auszulagern.
Ich frage mich, ob das ein neues Produkt ist oder eher eine Marketing-Seite, die bestehende MediaPipe-Techniken zu einer gemeinsamen Story bündelt. Anfangs war ich ziemlich gespannt, aber ich war verwirrt, was „Google AI Edge“ eigentlich sein soll. Nach etwas Suchen scheint es sich um ein Rebranding von https://developers.googleblog.com/en/introducing-mediapipe-solutions-for-on-device-machine-learning/ zu handeln, das schon vor etwa zwei Jahren vorgestellt wurde.
Das ist eine Lösung, die im Vergleich zu Frameworks wie CoreML oder TimyML einige Jahre hinterherhinkt. Und Google muss zuerst zeigen, dass Produkte nicht wegen der Quartalszahlen im nächsten Quartal gleich wieder eingestellt werden.
- Eigentlich stimmt das nicht. Die beiden Produkte sind völlig unterschiedlich. CoreML ist auf das Apple-Ökosystem beschränkt und erlaubt es, PyTorch-Modelle in CoreML (.mlmodel) zu konvertieren und dann mit den Beschleunigern von iOS/Mac auszuführen. Google MediaPipe ist dagegen eine große C++-Bibliothek, die ML-Workflows plattformübergreifend auf iOS/Android/Web ausführt. Sie enthält sogar TensorFlow Lite, jetzt LiteRT, und fungiert als Graph-Prozessor für allgemeine Vorverarbeitung wie das Skalieren von Bildern. Es gibt zwar das Meme, dass Google Produkte früh einstellt, aber MediaPipe ist Open Source, und das sollte man immerhin anerkennen. Ich habe einmal mit einem MediaPipe-Fork ein Computer-Vision-Produkt für iOS/Android gebaut; es war sehr komplex, funktionierte aber gut. Mit CoreML wäre so eine plattformübergreifende Lösung niemals möglich gewesen.
- TensorFlow Lite hat sich über viele Jahre auf Milliarden von Geräten bewährt. Diese Lösung ist meiner Ansicht nach MediaPipe zusammen mit einem Rebranding und einer Erweiterung davon. Google investiert seit mehr als fünf Jahren ernsthaft in On-Device-ML, daher glaube ich nicht, dass es plötzlich eingestellt wird. Allerdings sorgt das häufige Umbenennen tatsächlich für Verwirrung.
- Fehlt der Teil zu generativer KI nicht im Apple-Ökosystem? Wenn Apple etwas wie das von Google hätte, wäre das eine enorme Veränderung. Ich persönlich finde gerade die Chat-Funktionen sehr nützlich. Und ich frage mich wirklich, wann Swift Assist endlich kommt.
- Das ist einfach ein Rebranding von TensorFlow Lite. Ich nutze es seit 2019 auf Edge-Geräten. CoreML ist auch großartig.
- CoreML ist entstanden, weil Apple TensorFlow gesehen und statt Zusammenarbeit eine ähnliche Funktion selbst gebaut hat. TF gab es damals, als CoreML angekündigt wurde, bereits seit zwei Jahren und es war ein erfolgreiches Framework. Bis heute ist CoreML im Grunde kaum mehr als eine proprietäre BLAS-Schnittstelle und wird in der Branche nicht breit eingesetzt. Die Perspektive von iOS-Entwicklern ist manchmal wirklich erschreckend.
So etwas lässt sich auch mit WebLLM umsetzen.

Google AI Edge – On-Device-KI für mehrere Plattformen

Einführung in Google AI Edge

Hauptmerkmale

Vorgefertigte Lösungen und flexible Frameworks

Low-Code-APIs für typische AI-Aufgaben

Cross-Platform-Bereitstellung benutzerdefinierter Modelle

Werkzeuge zur Modellkonvertierung und Visualisierung

Aufbau maßgeschneiderter ML-Pipelines

Gemini Nano auf Android und Chrome

Fazit

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare