Handy – Kostenlose Open-Source-App für Spracherkennung
(github.com/cjpais)- Handy ist eine kostenlose Open-Source-Desktop-App zur Umwandlung von Sprache in Text, die vollständig offline arbeitet und auf Datenschutz ausgelegt ist
- Sie wurde auf Basis von Tauri (Rust + React/TypeScript) entwickelt: Drückt man eine Tastenkombination und spricht, wird die Sprache direkt in ein Textfeld eingegeben
- Unterstützt die Modelle Whisper und Parakeet V3 und führt die Spracherkennung lokal per GPU-Beschleunigung oder CPU aus
- Läuft auf Windows, macOS und Linux und wurde mit Fokus auf Erweiterbarkeit und einfaches Forken entwickelt, um Beiträge von Entwickler:innen zu fördern
- Als datenschutzorientiertes Spracheingabe-Tool, das ohne Cloud-Übertragung lokal verarbeitet, bietet es hohe Zugänglichkeit und gute Anpassbarkeit
Überblick
- Handy ist eine kostenlose, Open-Source- und erweiterbare Spracherkennungsanwendung, die ohne Internetverbindung vollständig offline funktioniert
- Sie basiert auf dem Tauri-Framework und kombiniert ein Rust-Backend mit einem React/TypeScript-Frontend
- Nutzer:innen drücken eine Tastenkombination, sprechen und lassen sie los; anschließend wandelt das Modell Whisper oder Parakeet V3 die Sprache in Text um und fügt ihn in die aktuell genutzte App ein
- Alle Sprachdaten werden lokal verarbeitet, sodass kein Risiko eines Abflusses persönlicher Daten besteht
Die Philosophie von Handy
- Kostenlos: Accessibility-Tools sollten für alle nutzbar sein
- Open Source: Jede:r kann Funktionen erweitern und verbessern
- Datenschutz: Sprachdaten werden nicht in die Cloud übertragen
- Einfachheit: Fokus auf genau einen Zweck, nämlich Sprache in Text umzuwandeln
- Das Ziel ist nicht, die „perfekteste“ App zu bauen, sondern die „am einfachsten zu forkende“ App
Funktionsweise
- Nutzer:innen können die Aufnahme per Tastenkombination starten und stoppen oder den Push-to-Talk-Modus verwenden
- Mit Silero VAD werden stille Abschnitte herausgefiltert, danach wird Sprache mit Whisper oder Parakeet V3 umgewandelt
- Whisper-Modelle: Small, Medium, Turbo und Large, mit Unterstützung für GPU-Beschleunigung
- Parakeet V3: für CPU optimiert, inklusive automatischer Spracherkennung
- Der umgewandelte Text wird automatisch in das Eingabefeld der verwendeten Anwendung eingefügt
- Unterstützt Windows, macOS und Linux
Architektur
- Frontend: React + TypeScript + Tailwind CSS
- Backend: Rust-basiert, zuständig für Audioverarbeitung und Machine-Learning-Inferenz
- Zentrale Bibliotheken
whisper-rs: lokale Spracherkennung mit Whisper-Modellentranscription-rs: CPU-Erkennung mit dem Parakeet-Modellcpal: Audio-Ein-/Ausgabevad-rs: Voice Activity Detectionrdev: globale Tastenkombinationen und Verarbeitung von Systemereignissenrubato: Audio-Resampling
- Debug-Modus: erreichbar mit
Cmd+Shift+D(macOS) oderCtrl+Shift+D(Windows/Linux)
Bekannte Probleme und Einschränkungen
- Whisper-Modellabstürze: In einigen Windows-/Linux-Umgebungen kommt es zu Abstürzen der Modelle
- Eingeschränkte Wayland-Unterstützung: Unter Linux mit Wayland müssen
wtypeoderdotoolinstalliert werden - Tools zur Texteingabe
- X11:
xdotool - Wayland:
wtypeoderdotool - Wenn diese Tools nicht installiert sind, wird auf
enigoausgewichen, allerdings mit eingeschränkter Kompatibilität
- X11:
- Linux-Overlay standardmäßig deaktiviert: Um Fokuskonflikte zu vermeiden, ist es standardmäßig ausgeschaltet
Systemanforderungen
- Für Whisper-Modelle
- macOS: M-Serie oder Intel Mac
- Windows/Linux: Intel-, AMD- oder NVIDIA-GPU (Ubuntu 22.04/24.04 empfohlen)
- Für Parakeet V3-Modelle
- Nur CPU, empfohlen wird Intel Skylake (6. Generation) oder neuer
- Auf Hardware der Mittelklasse etwa 5× Echtzeitgeschwindigkeit
- Inklusive automatischer Spracherkennung
Entwicklungs-Roadmap
- Funktionen in Arbeit
- Hinzufügen einer Debug-Log-Datei
- Verbesserungen der macOS-Tastenkombinationen (Unterstützung für die Globe-Taste, Neuschreiben der Verarbeitung globaler Tastenkombinationen)
- Optionale Analytics-Funktion: anonyme Erfassung von Nutzungsdaten auf Basis ausdrücklicher Zustimmung
- Refactoring des Einstellungssystems und Verbesserung der Abstraktion
- Bereinigung der Tauri-Befehlsstruktur und Verbesserung der Typsicherheit
Fehlerbehebung und manuelle Modellinstallation
- In Umgebungen mit Netzwerkeinschränkungen können Modelle manuell heruntergeladen und installiert werden
- Im App-Datenverzeichnis einen Ordner
modelserstellen und dort die Modelldateien ablegen- Whisper-Modelle:
.bin-Dateien direkt kopieren - Parakeet-Modelle:
.tar.gzentpacken und den vorgesehenen Ordnernamen beibehalten
- Whisper-Modelle:
- Nach der Installation werden die Modelle beim Neustart der App automatisch erkannt
So kann man beitragen
- GitHub-Issues prüfen, dann forken und einen Branch erstellen
- Nach ausreichenden Tests auf der Zielplattform einen Pull Request einreichen
- Beteiligung an der Community per E-Mail (contact@handy.computer) oder über Discord möglich
- Ziel ist es, mit einer einfachen und gut strukturierten Codebasis eine Grundlage bereitzustellen, die von der Community weiterentwickelt werden kann
Verwandte Projekte und Lizenz
- Handy CLI: Python-basierte Kommandozeilenversion
- handy.computer: offizielle Website mit Demo
- Veröffentlicht unter der MIT-Lizenz
- Basiert auf Open-Source-Projekten wie Whisper (OpenAI), Silero und Tauri
Zitat
- „Mit Handy kannst du die Suche nach einem Spracherkennungstool beenden – nicht weil es perfekt ist, sondern weil du es perfekt machen kannst.“
1 Kommentare
Hacker-News-Kommentare
Zusammen mit Parakeet V3 reagiert es fast sofort und ist genau genug.
Ich nutze oft die Routine, mit einem CLI-Agenten zu sprechen und ihn zu bitten: „Sag mir, wie du verstanden hast, was ich gesagt habe.“
So kann ich das Verständnis überprüfen, und es dient zugleich als eine Art Spezifikation.
Kürzlich habe ich auch die Kombination Handy + Parakeet v3 ausprobiert, und sie funktioniert sehr gut, daher werde ich sie ein paar Tage lang weiter nutzen.
Mit Cmd‑Shift‑D lässt sich die „Debug“-UI öffnen, in der man zusätzliche Optionen wie Post-Processing oder das Einfügen von Leerzeichen sehen kann.
Ich würde gern Befehle wie „cd ~/projects“ oder „git push --force“ per Sprache eingeben.
Deshalb waren TTS-Apps wie SuperWhisper eine große Hilfe für mich.
Ich hoffe, dass Handy eine ähnliche Erfahrung bietet.
Damit es sich aber zum nächsten Schritt weiterentwickelt, müsste es meiner Meinung nach über das bloße Umwandeln von Sprache in Text hinausgehen und kontextbasierte Erweiterung bieten.
Zum Beispiel so, dass beim Diktieren von Code in einer IDE tatsächlich Code erzeugt wird.
Letztlich geht es um eine Kombination aus TTS und Computernutzung.
ultraplangebaut.Es zeichnet Sprache mit lokalem Whisper auf und speichert Screenshots, Zwischenablage-Inhalte usw. als Timeline.
Danach kann ein Agent wie Claude Code diese Timeline lesen und die Arbeit fortsetzen.
Man kann auch hands-free steuern, etwa indem man „marco“ sagt, um einen Screenshot zu machen.
Wenn Interesse besteht, kann ich es auf GitHub aufbereiten und veröffentlichen.
Es gibt auch Experimente, bei denen kleine lokale Modelle (moondream, qwen usw.) genutzt werden, um den Computerkontext zu erfassen.
Als ich mir früher einmal einen Finger gebrochen hatte, habe ich Shortcuts auf Handy gemappt und so eine einfache kontextbezogene Steuerung umgesetzt.
Es gibt zum Beispiel einen Fall aus 2013 wie Using Voice to Code Faster than Keyboard.
Als neuere Forschung gibt es auch diese Arbeit.
Wenn man die STT-Ausgabe in ein LLM einspeist, kann es die Absicht erkennen und einen Befehlssatz erzeugen.
Im CLI lässt sich Sprache leicht direkt in Shell-Befehle umwandeln.
Bei GUI-Anwendungen ist es etwas komplizierter, weil man den Bildschirmzustand kennen muss.
MacWhisper unter macOS kann transkribierten Text an einen OpenAI-kompatiblen Endpoint senden.
Superwhisper ist kostenpflichtig, hat aber eine Lifetime-Option und viele Funktionen. Da es von einer Einzelperson gepflegt wird, gibt es gelegentlich Bugs.
Hex ist die leichtgewichtigste und sauberste kostenlose Option.
Fluid Voice hat die besondere Funktion, Text während des Sprechens in Echtzeit anzuzeigen.
Handy hat eine niedliche pinke UI, und mir gefällt das Verlaufsfenster. Die Einstellung zum Wiederherstellen der Zwischenablage ist etwas ungewöhnlich.
Beim abwechselnden Installieren mehrerer Apps gab es ein paar Konflikte.
Dank der Tatsache, dass Nvidia Parakeet als Open Source veröffentlicht hat, sind sie alle sehr schnell.
Ich bevorzuge Streaming für Echtzeit-Transkription: lieber sofort etwas sehen, auch wenn die Qualität niedrig ist, und später durch eine hochwertigere Version ersetzen.
Die meisten sind kostenpflichtig oder abonnementsbasiert, daher hatte ich schon überlegt, selbst etwas zu bauen, aber Handy ist schnell, schlicht und stört nicht.
Außerdem wird es kontinuierlich aktualisiert, was mich wirklich zufrieden macht.
Auch die Post-Processing-Funktion klingt großartig.
Wörter manuell hinzuzufügen ist gut, aber wenn unsichere Wörter markiert würden, ließe sich das leichter ergänzen.
Der Standard-Shortcut ist Ctrl+Space, und in dem Moment, in dem man die Tasten loslässt, wird die Transkription eingefügt.
Wenn Ctrl dabei noch gedrückt ist, wird der transkribierte Text als Ctrl-Zeichen verarbeitet.
Die Testumgebung war Linux x64, X11 und Emacs.
Ich habe auch Monologue, Superwhisper und Aqua ausprobiert, aber Handy läuft lokal und hat keine Abo-Gebühr.
Klare Empfehlung.
Laut Beschreibung wirken sie ähnlich. Handy hatte sein erstes Release im Juni 2025, OpenWhispr kam einen Monat später heraus.
Handy hat auf GitHub 11k Sterne, OpenWhispr etwa 730.
Damals hatte OpenWhispr noch kein Parakeet-Modell, und auch die UI war nicht besonders ausgereift.
Dank seiner minimalen UI ist Handy sehr intuitiv zu bedienen.
Es fehlen zwar fortgeschrittene Funktionen, aber ich nutze es nun seit zwei Monaten und habe nicht vor, nach einer anderen STT-App zu suchen.
Die Einstellungen sind angenehm einfach gehalten, sodass es bequem zu nutzen ist.
Ich habe mich gefragt, was die Option „discharging the model“ bedeutet, aber sie scheint weder RAM noch CPU zu beeinflussen.
Wenn man es entlädt, wird es aus dem Speicher entfernt und der Start dauert länger.