21 Punkte von xguru 24 일 전 | 2 Kommentare | Auf WhatsApp teilen
  • Eine auf die Ausführung von generativer KI on-device spezialisierte iOS-/Android-App, die LLMs in einer vollständig offline nutzbaren und privaten Umgebung ohne Internetverbindung ausführt
  • Offizielle Unterstützung für die Gemma-4-Familie hinzugefügt – fortgeschrittenes Schlussfolgern, Logik und kreative Funktionen lassen sich ohne Serverübertragung testen
  • Agent Skills: Macht das LLM über Gespräche hinaus zu einem aktiven Assistenten
    • Erweiterung der LLM-Fähigkeiten durch Tools wie Wikipedia-Faktensuche, interaktive Karten und visuelle Zusammenfassungskarten
    • Unterstützung für das Laden modularer Skills per URL sowie das Entdecken von Community-Skills über GitHub Discussions
  • Thinking Mode: Während des AI-Chats lässt sich der schrittweise Schlussfolgerungsprozess des Modells visuell nachvollziehen (derzeit nur bei unterstützten Modellen wie der Gemma-4-Familie)
  • Ask Image: Multimodale Objekterkennung, visuelle Rätsel und die Erstellung detaillierter Beschreibungen mit Kamera und Fotogalerie
  • Audio Scribe: Echtzeit-Transkription und -Übersetzung von Sprache mit einem On-Device-Modell
  • Prompt Lab: Ein dedizierter Workspace zum Testen von Prompts mit fein abgestimmter Kontrolle über Parameter wie temperature und top-k
  • Mobile Actions: Offline-Automatisierung zur Gerätesteuerung auf Basis des feinabgestimmten Modells FunctionGemma 270m
  • Tiny Garden: Minispiel in natürlicher Sprache
  • Model Management & Benchmark: Unterstützung für das Herunterladen von Open-Source-Modellen, das Laden benutzerdefinierter Modelle und Benchmark-Tests je nach Hardware
  • LiteRT-Leichtlaufzeit + Hugging Face-Integration für Modellsuche und optimierte Ausführung
  • Unterstützt Android 12+ und iOS 17+ / Installation über Google Play und den App Store möglich / In Umgebungen ohne Zugriff auf Google Play ist auch die direkte Installation der APK über die GitHub-Releases möglich
  • Lizenz: Apache-2.0 / Programmiersprache: Kotlin

2 Kommentare

 
lastorder 23 일 전

https://github.com/google-ai-edge/gallery/issues/437

Anscheinend ist die Exynos-Kompatibilität nicht besonders gut. Auf dem Galaxy Quantum 5 (A55) gibt es das Problem, dass es als Antwort endlos chinesische Schriftzeichen wiederholt.

 
GN⁺ 24 일 전
Hacker-News-Kommentare
  • Ein wirklich beeindruckendes Modell. Ich lasse es derzeit auf dem Mac laufen und muss unbedingt testen, dass es jetzt auch lokal auf dem iPhone läuft
    Ich habe dieses Modell mit dem heretic-Skript dealigned (von Zensur befreit), und es hat wirklich gut funktioniert. Ich habe dafür sogar selbst das Repo gemma4-heretical erstellt und alles dokumentiert
    Man könnte auch eine MLX-Version bauen; auf dem Mac ist sie etwas schneller, aber in Ollama läuft sie nicht (in LM Studio vielleicht schon)
    Auf einem M4 Macbook Pro mit 128 GB läuft es sehr gut, mit 64 GB dürfte es ebenfalls problemlos gehen. Mit weniger Speicher muss man den Quantisierungsgrad senken
    Ich mag solche lokalen nicht ausgerichteten Modelle. Statt auf externen Plattformen zensiert zu werden, kann ich auf meinem Gerät frei experimentieren. Dadurch werden „sensible, aber produktive“ Gespräche möglich
    Ich habe versucht, es an OpenClaw anzubinden, bin aber auf Probleme gestoßen. Natürlich könnte so ein Ansatz missbraucht werden, aber ich denke, gutwillige Nutzer sind deutlich in der Überzahl

    • Ich lasse MLX-Modelle auf dem Mac mit omlx laufen, und das funktioniert ausgezeichnet
    • Ich habe mir das abliterate-Skript angesehen, verstehe aber nicht genau, was es tut. Mich würde interessieren, welche Art von Gesprächen dadurch möglich wird
    • Ich habe es auf dem Mac zum Programmieren ausprobiert, war aber weniger beeindruckt als bei Qwen. In bestimmten Bereichen könnte es besser sein, aber bisher bin ich mir da noch nicht sicher
    • Ich habe zwar noch nichts mit der Agent-Skills-Plattform gebaut, finde sie aber ziemlich interessant. Auf Android lädt die Sandbox index.html in eine WebView und interagiert über standardisierte String-I/O. Das wirkt wie eine frühe Form einer Sandbox für Edge-Computing-Agenten der Zukunft
    • Ich würde gern ein Beispiel hören, welche „sensiblen Gespräche“ du mit einem lokalen LLM führen möchtest
  • Die App ist cool, zeigt aber nicht das ganze Potenzial des E2B-Modells
    Ich habe auf einem M3 Pro mit Gemma E2B Echtzeit-Audio- und Video-KI gebaut und unter dem Namen Parlor auf /r/LocalLLaMA gepostet. Die Resonanz war ziemlich gut
    Ich lasse es auf einem Macbook laufen, aber laut diesem Benchmark sollte es auch auf einem iPhone 17 Pro gut möglich sein

    • Parlor ist wirklich großartig. Und dass du es kostenlos veröffentlicht hast, ist umso beeindruckender. Ich halte das für ein hervorragendes Einsatzbeispiel für lokale LLMs
  • Ich habe das Modell auf dem iPhone ausprobiert und ziemlich gute Ergebnisse bekommen. Es ist nicht so gut wie Gemini in der Cloud, aber absolut brauchbar
    Mit der Funktion „Mobile Actions“ kann man Gerätesteuerung wie Taschenlampe einschalten oder Karten öffnen ausführen, was interessant ist. Mit Siri Shortcuts integriert wäre das wirklich großartig
    Da ich Apps für Lehrkräfte entwickle, freue ich mich sehr über die Verbreitung lokaler Modelle. Wegen Datenschutzgesetzen ist die Ausführung auf der Client-Seite wichtig. Es gibt zwar auch On-Device-Model-APIs auf iOS oder in Chrome, aber die Qualität ist noch niedrig

    • Für mich fühlen sich die Halluzinationen dieses Modells wie eine Rückkehr zu früheren Zeiten an. Trotzdem ist es beeindruckend, dass so etwas lokal läuft. Ich hoffe, dass wir auch künftig weiterhin zumindest Modelle auf dem Niveau von vor ein paar Jahren lokal ausführen können
  • Ich denke, es gibt nur zwei realistische Zukünfte für KI — kostenlose lokale Ausführung auf dem Gerät oder teure Cloud-Dienste
    Letztere werden wohl nur noch für Aufgaben genutzt, bei denen Menschen teurer oder langsamer wären. Die Gemma-4-Modelle zeigen das Potenzial eines künftigen Siri, das in iPhone und macOS integriert ist, also eines Assistenten wie im Film „Her“

    • Mich würde interessieren, warum du glaubst, dass die Cloud teurer wird. Große Unternehmen verdienen schon heute in der Inferenzphase Geld. Spezielle Cloud-Hardware ist effizienter, und auf dem Handy saugt das Ganze nur den Akku leer
    • Wenn man auf Consumer-Geräten kostenlose Modelle ausführen kann, könnten Cloud-Anbieter dann nicht einfach bessere Qualität und zusätzlichen Mehrwert im Paket anbieten?
    • Selbst wenn man lokale Modelle auf einem vom Hersteller kontrollierten Smartphone ausführt, ist das noch keine echte lokale Autonomie
    • Das ist nicht der erste Schritt in die Zukunft, von der du träumst
    • Ich möchte ernsthaft fragen, ob du nach „Her“ wirklich gehofft hast, dass so eine Zukunft kommt
  • Ich teile hier den Link zur englischen Version der App
    Google AI Edge Gallery für iOS
    Android-Version
    Es ist eine Demo-App für Googles Edge-Projekt

  • Die meisten Modelle lassen sich noch nicht herunterladen. Hoffentlich werden sie bald veröffentlicht

  • Jemand wirft die Frage auf, ob die App-Store-Webseite gefälscht aussieht. Der Header-Text ist verpixelt, der Hintergrund flackert und auch die Icons wirken qualitativ schlecht

    • Dieselbe US-Version der Seite hat ebenfalls eine schwache gestalterische Qualität. Offenbar ist Design für Apple inzwischen keine Kernstärke mehr
    • An der URL mit /nl/ sieht man, dass es die niederländische Version ist. Die normale App-Store-Startseite ist etwas besser, wirkt aber immer noch seltsam
    • Vermutlich ist das ein Problem mit der Lokalisierungsqualität. Auf meinem iPhone sieht es okay aus, wenn es in der App-Store-App geöffnet wird
    • In Firefox tritt dieses Problem nicht auf
    • Auf Firefox unter GrapheneOS wird es perfekt gerendert
  • Ich habe das Modell Gemma-4-E2B-it auf einem iPhone 16 Pro getestet und kam auf etwa 30 Token pro Sekunde. Das Handy wurde ziemlich heiß, aber die Leistung war beeindruckend. Ich werde versuchen, es auch in meiner App einzusetzen

  • Mein Sohn nutzt inzwischen das 2B-Modell auf Android. Es läuft selbst auf einem günstigen Motorola-Handy gut und wird zum Lesen und Schreiben in Fremdsprachen verwendet. Wie leichtgewichtig das Modell ist, ist wirklich erstaunlich

  • Die neuen Modelle sind sehr beeindruckend. AI Edge Gallery läuft auf der GPU, aber die NPU aktueller Chips ist deutlich schneller
    Zum Beispiel hat der A16-Chip eine Neural Engine mit 35 TOPS, während die GPU bei etwa 7 TFLOPS liegt. Bei Qualcomm sieht es ähnlich aus

    • Erstaunlich, dass solche Low-Power-Chips diese Leistung liefern. Ich bin gespannt auf eine M-Series-Version. Es wirkt, als stünde das Zeitalter ultraschneller TPUs auf Desktop und Smartphone kurz bevor