Google LiteRT-LM – Hochleistungs-LLM-Inferenz-Framework für Edge-Geräte
(github.com/google-ai-edge)- Eine von Google entwickelte On-Device-LLM-Inferenz-Engine auf Produktionsniveau, mit der sich große Sprachmodelle in der gesamten Edge-Umgebung ausführen lassen, darunter Android, iOS, Web, Desktop und IoT (Raspberry Pi)
- Unterstützung für die neuesten Gemma-4-Modelle hinzugefügt; durch GPU- und NPU-Hardwarebeschleunigung wird auch auf Edge-Geräten eine optimale Inferenzleistung geboten
- Multimodale Unterstützung ermöglicht die Verarbeitung von Vision-(Bild-) und Audioeingaben; in der CLI wird auch bildgestützte Inferenz über die Option
--attachmentunterstützt - Function Calling (Tool Use) für agentische Workflows integriert
- Kompatibel mit verschiedenen LLM-Modellen wie Gemma, Llama, Phi-4 und Qwen; Modelle können mit einem einzeiligen CLI-Befehl von Hugging Face heruntergeladen und sofort für Inferenz genutzt werden
uv tool install litert-lm→ sofort loslegen mitlitert-lm run
- Bereits tatsächlich in Google-Produkten wie Chrome, Chromebook Plus und Pixel Watch im Einsatz, wo On-Device-GenAI ausgeführt wird
- Über die App Google AI Edge Gallery lassen sich Modelle direkt auf Mobilgeräten ausführen (verfügbar im Google Play Store und App Store)
- Sprach-APIs: stabile Unterstützung für Kotlin (Android/JVM), Python (Prototyping) und C++ (hochperformantes Native); Swift (iOS/macOS) befindet sich in Entwicklung
- Release-Status: aktuell v0.10.2; in v0.10.1 wurden Gemma 4 und die CLI eingeführt, in v0.8.0 Desktop-GPU und Multimodalität, in v0.7.0 NPU-Beschleunigung
- Apache-2.0-Lizenz
2 Kommentare
Ich würde es ja gern laufen lassen, aber mir fehlt der Speicher, schnief.
Funktioniert das inzwischen besser? Früher war die Performance auf dem Mac irgendwie seltsam schlecht...