Google AI Edge Gallery – Open-Source-Galerie-App für vollständig offline nutzbare LLMs

(github.com/google-ai-edge)

21 Punkte von xguru 24 일 전 | 2 Kommentare | Auf WhatsApp teilen

Eine auf die Ausführung von generativer KI on-device spezialisierte iOS-/Android-App, die LLMs in einer vollständig offline nutzbaren und privaten Umgebung ohne Internetverbindung ausführt
Offizielle Unterstützung für die Gemma-4-Familie hinzugefügt – fortgeschrittenes Schlussfolgern, Logik und kreative Funktionen lassen sich ohne Serverübertragung testen
Agent Skills: Macht das LLM über Gespräche hinaus zu einem aktiven Assistenten
- Erweiterung der LLM-Fähigkeiten durch Tools wie Wikipedia-Faktensuche, interaktive Karten und visuelle Zusammenfassungskarten
- Unterstützung für das Laden modularer Skills per URL sowie das Entdecken von Community-Skills über GitHub Discussions
Thinking Mode: Während des AI-Chats lässt sich der schrittweise Schlussfolgerungsprozess des Modells visuell nachvollziehen (derzeit nur bei unterstützten Modellen wie der Gemma-4-Familie)
Ask Image: Multimodale Objekterkennung, visuelle Rätsel und die Erstellung detaillierter Beschreibungen mit Kamera und Fotogalerie
Audio Scribe: Echtzeit-Transkription und -Übersetzung von Sprache mit einem On-Device-Modell
Prompt Lab: Ein dedizierter Workspace zum Testen von Prompts mit fein abgestimmter Kontrolle über Parameter wie temperature und top-k
Mobile Actions: Offline-Automatisierung zur Gerätesteuerung auf Basis des feinabgestimmten Modells FunctionGemma 270m
Tiny Garden: Minispiel in natürlicher Sprache
Model Management & Benchmark: Unterstützung für das Herunterladen von Open-Source-Modellen, das Laden benutzerdefinierter Modelle und Benchmark-Tests je nach Hardware
LiteRT-Leichtlaufzeit + Hugging Face-Integration für Modellsuche und optimierte Ausführung
Unterstützt Android 12+ und iOS 17+ / Installation über Google Play und den App Store möglich / In Umgebungen ohne Zugriff auf Google Play ist auch die direkte Installation der APK über die GitHub-Releases möglich
Lizenz: Apache-2.0 / Programmiersprache: Kotlin

2 Kommentare

lastorder 23 일 전

https://github.com/google-ai-edge/gallery/issues/437

Anscheinend ist die Exynos-Kompatibilität nicht besonders gut. Auf dem Galaxy Quantum 5 (A55) gibt es das Problem, dass es als Antwort endlos chinesische Schriftzeichen wiederholt.

GN⁺ 24 일 전

Hacker-News-Kommentare

Ein wirklich beeindruckendes Modell. Ich lasse es derzeit auf dem Mac laufen und muss unbedingt testen, dass es jetzt auch lokal auf dem iPhone läuft
Ich habe dieses Modell mit dem heretic-Skript dealigned (von Zensur befreit), und es hat wirklich gut funktioniert. Ich habe dafür sogar selbst das Repo gemma4-heretical erstellt und alles dokumentiert
Man könnte auch eine MLX-Version bauen; auf dem Mac ist sie etwas schneller, aber in Ollama läuft sie nicht (in LM Studio vielleicht schon)
Auf einem M4 Macbook Pro mit 128 GB läuft es sehr gut, mit 64 GB dürfte es ebenfalls problemlos gehen. Mit weniger Speicher muss man den Quantisierungsgrad senken
Ich mag solche lokalen nicht ausgerichteten Modelle. Statt auf externen Plattformen zensiert zu werden, kann ich auf meinem Gerät frei experimentieren. Dadurch werden „sensible, aber produktive“ Gespräche möglich
Ich habe versucht, es an OpenClaw anzubinden, bin aber auf Probleme gestoßen. Natürlich könnte so ein Ansatz missbraucht werden, aber ich denke, gutwillige Nutzer sind deutlich in der Überzahl
- Ich lasse MLX-Modelle auf dem Mac mit omlx laufen, und das funktioniert ausgezeichnet
- Ich habe mir das abliterate-Skript angesehen, verstehe aber nicht genau, was es tut. Mich würde interessieren, welche Art von Gesprächen dadurch möglich wird
- Ich habe es auf dem Mac zum Programmieren ausprobiert, war aber weniger beeindruckt als bei Qwen. In bestimmten Bereichen könnte es besser sein, aber bisher bin ich mir da noch nicht sicher
- Ich habe zwar noch nichts mit der Agent-Skills-Plattform gebaut, finde sie aber ziemlich interessant. Auf Android lädt die Sandbox index.html in eine WebView und interagiert über standardisierte String-I/O. Das wirkt wie eine frühe Form einer Sandbox für Edge-Computing-Agenten der Zukunft
- Ich würde gern ein Beispiel hören, welche „sensiblen Gespräche“ du mit einem lokalen LLM führen möchtest
Die App ist cool, zeigt aber nicht das ganze Potenzial des E2B-Modells
Ich habe auf einem M3 Pro mit Gemma E2B Echtzeit-Audio- und Video-KI gebaut und unter dem Namen Parlor auf /r/LocalLLaMA gepostet. Die Resonanz war ziemlich gut
Ich lasse es auf einem Macbook laufen, aber laut diesem Benchmark sollte es auch auf einem iPhone 17 Pro gut möglich sein
- Parlor ist wirklich großartig. Und dass du es kostenlos veröffentlicht hast, ist umso beeindruckender. Ich halte das für ein hervorragendes Einsatzbeispiel für lokale LLMs
Ich habe das Modell auf dem iPhone ausprobiert und ziemlich gute Ergebnisse bekommen. Es ist nicht so gut wie Gemini in der Cloud, aber absolut brauchbar
Mit der Funktion „Mobile Actions“ kann man Gerätesteuerung wie Taschenlampe einschalten oder Karten öffnen ausführen, was interessant ist. Mit Siri Shortcuts integriert wäre das wirklich großartig
Da ich Apps für Lehrkräfte entwickle, freue ich mich sehr über die Verbreitung lokaler Modelle. Wegen Datenschutzgesetzen ist die Ausführung auf der Client-Seite wichtig. Es gibt zwar auch On-Device-Model-APIs auf iOS oder in Chrome, aber die Qualität ist noch niedrig
- Für mich fühlen sich die Halluzinationen dieses Modells wie eine Rückkehr zu früheren Zeiten an. Trotzdem ist es beeindruckend, dass so etwas lokal läuft. Ich hoffe, dass wir auch künftig weiterhin zumindest Modelle auf dem Niveau von vor ein paar Jahren lokal ausführen können
Ich denke, es gibt nur zwei realistische Zukünfte für KI — kostenlose lokale Ausführung auf dem Gerät oder teure Cloud-Dienste
Letztere werden wohl nur noch für Aufgaben genutzt, bei denen Menschen teurer oder langsamer wären. Die Gemma-4-Modelle zeigen das Potenzial eines künftigen Siri, das in iPhone und macOS integriert ist, also eines Assistenten wie im Film „Her“
- Mich würde interessieren, warum du glaubst, dass die Cloud teurer wird. Große Unternehmen verdienen schon heute in der Inferenzphase Geld. Spezielle Cloud-Hardware ist effizienter, und auf dem Handy saugt das Ganze nur den Akku leer
- Wenn man auf Consumer-Geräten kostenlose Modelle ausführen kann, könnten Cloud-Anbieter dann nicht einfach bessere Qualität und zusätzlichen Mehrwert im Paket anbieten?
- Selbst wenn man lokale Modelle auf einem vom Hersteller kontrollierten Smartphone ausführt, ist das noch keine echte lokale Autonomie
- Das ist nicht der erste Schritt in die Zukunft, von der du träumst
- Ich möchte ernsthaft fragen, ob du nach „Her“ wirklich gehofft hast, dass so eine Zukunft kommt
Ich teile hier den Link zur englischen Version der App
Google AI Edge Gallery für iOS
Android-Version
Es ist eine Demo-App für Googles Edge-Projekt
Die meisten Modelle lassen sich noch nicht herunterladen. Hoffentlich werden sie bald veröffentlicht
Jemand wirft die Frage auf, ob die App-Store-Webseite gefälscht aussieht. Der Header-Text ist verpixelt, der Hintergrund flackert und auch die Icons wirken qualitativ schlecht
- Dieselbe US-Version der Seite hat ebenfalls eine schwache gestalterische Qualität. Offenbar ist Design für Apple inzwischen keine Kernstärke mehr
- An der URL mit /nl/ sieht man, dass es die niederländische Version ist. Die normale App-Store-Startseite ist etwas besser, wirkt aber immer noch seltsam
- Vermutlich ist das ein Problem mit der Lokalisierungsqualität. Auf meinem iPhone sieht es okay aus, wenn es in der App-Store-App geöffnet wird
- In Firefox tritt dieses Problem nicht auf
- Auf Firefox unter GrapheneOS wird es perfekt gerendert
Ich habe das Modell Gemma-4-E2B-it auf einem iPhone 16 Pro getestet und kam auf etwa 30 Token pro Sekunde. Das Handy wurde ziemlich heiß, aber die Leistung war beeindruckend. Ich werde versuchen, es auch in meiner App einzusetzen
Mein Sohn nutzt inzwischen das 2B-Modell auf Android. Es läuft selbst auf einem günstigen Motorola-Handy gut und wird zum Lesen und Schreiben in Fremdsprachen verwendet. Wie leichtgewichtig das Modell ist, ist wirklich erstaunlich
Die neuen Modelle sind sehr beeindruckend. AI Edge Gallery läuft auf der GPU, aber die NPU aktueller Chips ist deutlich schneller
Zum Beispiel hat der A16-Chip eine Neural Engine mit 35 TOPS, während die GPU bei etwa 7 TFLOPS liegt. Bei Qualcomm sieht es ähnlich aus
- Erstaunlich, dass solche Low-Power-Chips diese Leistung liefern. Ich bin gespannt auf eine M-Series-Version. Es wirkt, als stünde das Zeitalter ultraschneller TPUs auf Desktop und Smartphone kurz bevor

Google AI Edge Gallery – Open-Source-Galerie-App für vollständig offline nutzbare LLMs

Verwandte Beiträge

2 Kommentare

Hacker-News-Kommentare