Das eigene Siri lokal und On-Device ganz ohne Cloud aufbauen
(thehyperplane.substack.com)- So baust du dir einen persönlichen Sprachassistenten, der On-Device läuft, selbst – ohne Abhängigkeit von LLM-APIs und der Cloud
- Dieser Assistent versteht natürliche Sprache, führt persönliche Funktionsaufrufe aus und arbeitet ausschließlich lokal, wodurch vollständiger Schutz der Privatsphäre möglich wird
- Dafür wird das Modell LLaMA 3.1 per LoRA feinabgestimmt, mit Whisper Sprache in Text umgewandelt und anschließend als Befehl interpretiert, der direkt auf dem Gerät ausgeführt wird
- Das Projekt besteht aus Datensatzerstellung → Fine-Tuning → Anbindung der Sprachschnittstelle → Tests und Deployment und wird als fünfteiliger kostenloser Minikurs angeboten
- Es wird vor dem Irrtum gewarnt, „On-Device-Ausführung = einfach“ zu setzen, und betont, dass auch lokal MLOps-Denken und strenge Qualitätskontrolle unverzichtbar sind
Warum sollte man gerade jetzt einen lokalen Sprachassistenten bauen?
- Gespräche mit ChatGPT sind nützlich – aber muss man selbst einfache Befehle in die Cloud schicken?
- Wenn das Modell direkt auf dem eigenen Gerät installiert ist, sind Geschwindigkeit, Privatsphäre und Kontrolle zugleich gesichert
- Besonders nützlich ist das in sensiblen Umgebungen wie Medizin, Recht und internen Tools
Überblick über die Gesamtarchitektur
Projektkomponenten
- Spracherkennung (Whisper) → Umwandlung in Text
- LLM (LLaMA 3.1) → Interpretation des Befehls
- Funktionsausführer → Ausführung realer Funktionen wie
lock_screen()
Teil 1: Architektur und MLOps-Denkweise
Warum MLOps auch lokal nötig ist
- Es gibt Probleme wie Model Drift, Prompt-Änderungen, Datensatzzuverlässigkeit und mangelndes Debugging-Logging
- Die Vorstellung „lokal allein reicht aus“ ist riskant; ein systematischer Ansatz ist nötig
Online-Entwicklung vs. Offline-Ausführung
- Entwicklung (Fine-Tuning, Datengenerierung) erfolgt in der Cloud, die Ausführung läuft lokal
- Diese Prozesse klar zu trennen und strukturiert zu verwalten, ist der Kern von MLOps
Datensatzerstellung (Dataset Generation Flow)
- Nicht nur einfache Prompt-Sammlung, sondern Entwurf strukturierter Funktionsaufrufmuster und konversationeller Anfrageformen
- Erstellung hochwertiger Datensätze, die verschiedene Formulierungen, Absichten und Fehlerfälle abdecken
Kernpunkte
lock_screen()→ umfasst verschiedene natürlichsprachliche Formulierungen wie „Sperr den Bildschirm“- Eine automatische Validierungs-Engine prüft, ob die Ausgabe der beabsichtigten Form entspricht
Fine-Tuning (Instruction Tuning für Function Calling)
- Feinabstimmung eines kleinen Modells (per SFT) für präzises Befehls-Mapping
- Einsatz praxisnaher Tools wie Unsloth, W&B und GGUF-Export
Ziel
- LLaMA 3.1 8B in ein lokal lauffähiges 4bit-Modell umwandeln
- Leichtgewichtige Optimierung mit Raspberry Pi als möglichem Ziel
Modellanbindung und reale Ausführung
- Whisper wandelt Spracheingaben in Text um
- Das feinabgestimmte LLM interpretiert den Befehl
- Anbindung an einen lokalen API-Funktionsausführer (
lock_screen(),get_battery_status()usw.)
Ergebnis
- Sprachassistent in Echtzeit ist möglich
- Kein Netzwerk nötig, kein Abfluss personenbezogener Daten, vollständige Kontrolle durch den Nutzer
Risikomanagement in der Offline-Phase
- Tests auf verschiedenen Geräten und Betriebssystemen sind nötig
- Aufbau eines Logging-Systems ist Pflicht (als Opt-in mit manueller Übermittlung)
- Noch vor dem offiziellen Release Probleme früh erkennen – durch Stresstests und Nutzerfeedback
Ausblick
- In der nächsten Lektion geht es um praktische Datensatzerstellung für Function Calling
- Ein spezialisierter Datensatz, der die Zuordnung von natürlichsprachigen Befehlen zu API-Aufrufen lernt, wird strukturiert aufgebaut
- Kein Scraping, nur promptbasierte Simulationen und automatisch validierte Daten
Fazit
- Lokale KI-Systeme mögen simpel wirken, doch Stabilität und Qualität erfordern ein noch höheres Maß an Steuerung
- Da man sich nicht auf Cloud-Logs oder Hotfixes stützen kann, sind höhere Zuverlässigkeit und mehr Verantwortungsbewusstsein nötig
- Deshalb sollte MLOps-Denken und strukturiertes Design von Anfang an angewendet werden
> „Die Zeit für einen echten KI-Assistenten mit Fokus auf Privatsphäre und Local-First ist gekommen“
> Im nächsten Teil beginnt die praktische Erstellung eines Datensatzes für echtes Command-to-Function-Mapping.
2 Kommentare
3.1 ist für nicht englischsprachige Nutzer schwer zu verwenden, und mit 3.3 oder 4 wäre wohl auch Koreanisch möglich, aber wenn man es On-Device laufen lassen will, dürfte es für Nicht-Englisch zumindest erst ab 32b sinnvoll sein, wenn man das berücksichtigt, scheint es derzeit noch schwierig zu sein ...
Hacker-News-Kommentare