Handy – Kostenlose Open-Source-App für Spracherkennung

(github.com/cjpais)

2 Punkte von GN⁺ 2026-01-17 | 1 Kommentare | Auf WhatsApp teilen

Handy ist eine kostenlose Open-Source-Desktop-App zur Umwandlung von Sprache in Text, die vollständig offline arbeitet und auf Datenschutz ausgelegt ist
Sie wurde auf Basis von Tauri (Rust + React/TypeScript) entwickelt: Drückt man eine Tastenkombination und spricht, wird die Sprache direkt in ein Textfeld eingegeben
Unterstützt die Modelle Whisper und Parakeet V3 und führt die Spracherkennung lokal per GPU-Beschleunigung oder CPU aus
Läuft auf Windows, macOS und Linux und wurde mit Fokus auf Erweiterbarkeit und einfaches Forken entwickelt, um Beiträge von Entwickler:innen zu fördern
Als datenschutzorientiertes Spracheingabe-Tool, das ohne Cloud-Übertragung lokal verarbeitet, bietet es hohe Zugänglichkeit und gute Anpassbarkeit

Überblick

Handy ist eine kostenlose, Open-Source- und erweiterbare Spracherkennungsanwendung, die ohne Internetverbindung vollständig offline funktioniert
Sie basiert auf dem Tauri-Framework und kombiniert ein Rust-Backend mit einem React/TypeScript-Frontend
Nutzer:innen drücken eine Tastenkombination, sprechen und lassen sie los; anschließend wandelt das Modell Whisper oder Parakeet V3 die Sprache in Text um und fügt ihn in die aktuell genutzte App ein
Alle Sprachdaten werden lokal verarbeitet, sodass kein Risiko eines Abflusses persönlicher Daten besteht

Die Philosophie von Handy

Kostenlos: Accessibility-Tools sollten für alle nutzbar sein
Open Source: Jede:r kann Funktionen erweitern und verbessern
Datenschutz: Sprachdaten werden nicht in die Cloud übertragen
Einfachheit: Fokus auf genau einen Zweck, nämlich Sprache in Text umzuwandeln
Das Ziel ist nicht, die „perfekteste“ App zu bauen, sondern die „am einfachsten zu forkende“ App

Funktionsweise

Nutzer:innen können die Aufnahme per Tastenkombination starten und stoppen oder den Push-to-Talk-Modus verwenden
Mit Silero VAD werden stille Abschnitte herausgefiltert, danach wird Sprache mit Whisper oder Parakeet V3 umgewandelt
- Whisper-Modelle: Small, Medium, Turbo und Large, mit Unterstützung für GPU-Beschleunigung
- Parakeet V3: für CPU optimiert, inklusive automatischer Spracherkennung
Der umgewandelte Text wird automatisch in das Eingabefeld der verwendeten Anwendung eingefügt
Unterstützt Windows, macOS und Linux

Architektur

Frontend: React + TypeScript + Tailwind CSS
Backend: Rust-basiert, zuständig für Audioverarbeitung und Machine-Learning-Inferenz
Zentrale Bibliotheken
- whisper-rs: lokale Spracherkennung mit Whisper-Modellen
- transcription-rs: CPU-Erkennung mit dem Parakeet-Modell
- cpal: Audio-Ein-/Ausgabe
- vad-rs: Voice Activity Detection
- rdev: globale Tastenkombinationen und Verarbeitung von Systemereignissen
- rubato: Audio-Resampling
Debug-Modus: erreichbar mit Cmd+Shift+D (macOS) oder Ctrl+Shift+D (Windows/Linux)

Bekannte Probleme und Einschränkungen

Whisper-Modellabstürze: In einigen Windows-/Linux-Umgebungen kommt es zu Abstürzen der Modelle
Eingeschränkte Wayland-Unterstützung: Unter Linux mit Wayland müssen wtype oder dotool installiert werden
Tools zur Texteingabe
- X11: xdotool
- Wayland: wtype oder dotool
- Wenn diese Tools nicht installiert sind, wird auf enigo ausgewichen, allerdings mit eingeschränkter Kompatibilität
Linux-Overlay standardmäßig deaktiviert: Um Fokuskonflikte zu vermeiden, ist es standardmäßig ausgeschaltet

Systemanforderungen

Für Whisper-Modelle
- macOS: M-Serie oder Intel Mac
- Windows/Linux: Intel-, AMD- oder NVIDIA-GPU (Ubuntu 22.04/24.04 empfohlen)
Für Parakeet V3-Modelle
- Nur CPU, empfohlen wird Intel Skylake (6. Generation) oder neuer
- Auf Hardware der Mittelklasse etwa 5× Echtzeitgeschwindigkeit
- Inklusive automatischer Spracherkennung

Entwicklungs-Roadmap

Funktionen in Arbeit
- Hinzufügen einer Debug-Log-Datei
- Verbesserungen der macOS-Tastenkombinationen (Unterstützung für die Globe-Taste, Neuschreiben der Verarbeitung globaler Tastenkombinationen)
- Optionale Analytics-Funktion: anonyme Erfassung von Nutzungsdaten auf Basis ausdrücklicher Zustimmung
- Refactoring des Einstellungssystems und Verbesserung der Abstraktion
- Bereinigung der Tauri-Befehlsstruktur und Verbesserung der Typsicherheit

Fehlerbehebung und manuelle Modellinstallation

In Umgebungen mit Netzwerkeinschränkungen können Modelle manuell heruntergeladen und installiert werden
Im App-Datenverzeichnis einen Ordner models erstellen und dort die Modelldateien ablegen
- Whisper-Modelle: .bin-Dateien direkt kopieren
- Parakeet-Modelle: .tar.gz entpacken und den vorgesehenen Ordnernamen beibehalten
Nach der Installation werden die Modelle beim Neustart der App automatisch erkannt

So kann man beitragen

GitHub-Issues prüfen, dann forken und einen Branch erstellen
Nach ausreichenden Tests auf der Zielplattform einen Pull Request einreichen
Beteiligung an der Community per E-Mail (contact@handy.computer) oder über Discord möglich
Ziel ist es, mit einer einfachen und gut strukturierten Codebasis eine Grundlage bereitzustellen, die von der Community weiterentwickelt werden kann

Zitat

„Mit Handy kannst du die Suche nach einem Spracherkennungstool beenden – nicht weil es perfekt ist, sondern weil du es perfekt machen kannst.“

1 Kommentare

GN⁺ 2026-01-17

Hacker-News-Kommentare

Ich habe mehrere STT-Apps ausprobiert, bin am Ende aber bei VoiceInk gelandet (lokal, Einmalzahlung).
Zusammen mit Parakeet V3 reagiert es fast sofort und ist genau genug.
Ich nutze oft die Routine, mit einem CLI-Agenten zu sprechen und ihn zu bitten: „Sag mir, wie du verstanden hast, was ich gesagt habe.“
So kann ich das Verständnis überprüfen, und es dient zugleich als eine Art Spezifikation.
Kürzlich habe ich auch die Kombination Handy + Parakeet v3 ausprobiert, und sie funktioniert sehr gut, daher werde ich sie ein paar Tage lang weiter nutzen.
Mit Cmd‑Shift‑D lässt sich die „Debug“-UI öffnen, in der man zusätzliche Optionen wie Post-Processing oder das Einfügen von Leerzeichen sehen kann.
- Es wäre schön, wenn eines dieser Modelle auf Programmierung spezialisiert wäre.
  Ich würde gern Befehle wie „cd ~/projects“ oder „git push --force“ per Sprache eingeben.
Ich habe Dystonie und kann nicht tippen, wenn meine Arme verkrampfen.
Deshalb waren TTS-Apps wie SuperWhisper eine große Hilfe für mich.
Ich hoffe, dass Handy eine ähnliche Erfahrung bietet.
Damit es sich aber zum nächsten Schritt weiterentwickelt, müsste es meiner Meinung nach über das bloße Umwandeln von Sprache in Text hinausgehen und kontextbasierte Erweiterung bieten.
Zum Beispiel so, dass beim Diktieren von Code in einer IDE tatsächlich Code erzeugt wird.
Letztlich geht es um eine Kombination aus TTS und Computernutzung.
- Ich habe ein CLI-Tool namens ultraplan gebaut.
  Es zeichnet Sprache mit lokalem Whisper auf und speichert Screenshots, Zwischenablage-Inhalte usw. als Timeline.
  Danach kann ein Agent wie Claude Code diese Timeline lesen und die Arbeit fortsetzen.
  Man kann auch hands-free steuern, etwa indem man „marco“ sagt, um einen Screenshot zu machen.
  Wenn Interesse besteht, kann ich es auf GitHub aufbereiten und veröffentlichen.
- Ich verstehe genau, was du meinst. Deshalb habe ich Handy als Open Source veröffentlicht.
  Es gibt auch Experimente, bei denen kleine lokale Modelle (moondream, qwen usw.) genutzt werden, um den Computerkontext zu erfassen.
  Als ich mir früher einmal einen Finger gebrochen hatte, habe ich Shortcuts auf Handy gemappt und so eine einfache kontextbezogene Steuerung umgesetzt.
- „Mit der Stimme programmieren“ wird schon seit vor den LLMs intensiv erforscht.
  Es gibt zum Beispiel einen Fall aus 2013 wie Using Voice to Code Faster than Keyboard.
  Als neuere Forschung gibt es auch diese Arbeit.
- Die genannte Funktion ist bereits möglich.
  Wenn man die STT-Ausgabe in ein LLM einspeist, kann es die Absicht erkennen und einen Befehlssatz erzeugen.
  Im CLI lässt sich Sprache leicht direkt in Shell-Befehle umwandeln.
  Bei GUI-Anwendungen ist es etwas komplizierter, weil man den Bildschirmzustand kennen muss.
  MacWhisper unter macOS kann transkribierten Text an einen OpenAI-kompatiblen Endpoint senden.
Hier ein kurzer Eindruck nach der Nutzung verschiedener Sprachtranskriptions-Apps.
Superwhisper ist kostenpflichtig, hat aber eine Lifetime-Option und viele Funktionen. Da es von einer Einzelperson gepflegt wird, gibt es gelegentlich Bugs.
Hex ist die leichtgewichtigste und sauberste kostenlose Option.
Fluid Voice hat die besondere Funktion, Text während des Sprechens in Echtzeit anzuzeigen.
Handy hat eine niedliche pinke UI, und mir gefällt das Verlaufsfenster. Die Einstellung zum Wiederherstellen der Zwischenablage ist etwas ungewöhnlich.
Beim abwechselnden Installieren mehrerer Apps gab es ein paar Konflikte.
Dank der Tatsache, dass Nvidia Parakeet als Open Source veröffentlicht hat, sind sie alle sehr schnell.
Ich bevorzuge Streaming für Echtzeit-Transkription: lieber sofort etwas sehen, auch wenn die Qualität niedrig ist, und später durch eine hochwertigere Version ersetzen.
Nachdem ich mehrere Wochen nach einer STT-App gesucht hatte, habe ich Handy entdeckt.
Die meisten sind kostenpflichtig oder abonnementsbasiert, daher hatte ich schon überlegt, selbst etwas zu bauen, aber Handy ist schnell, schlicht und stört nicht.
Außerdem wird es kontinuierlich aktualisiert, was mich wirklich zufrieden macht.
Auch die Post-Processing-Funktion klingt großartig.
Ich nutze Wispr Flow, aber um zu wechseln, bräuchte ich eine Benutzerwörterbuch-Funktion für Wörter, die oft falsch erkannt werden (Firmennamen, Personennamen, Bibliotheksnamen usw.).
- Es gibt eine Funktion namens „Custom Words“, vermutlich ist das gemeint. Ich konnte sie bisher noch nicht richtig testen.
- Ein entsprechender PR soll bald gemergt werden, man könnte also vorab einen Build davon verwenden.
- Einige Modelle zeigen die Confidence pro Wort an.
  Wörter manuell hinzuzufügen ist gut, aber wenn unsichere Wörter markiert würden, ließe sich das leichter ergänzen.
Es gibt etwas, worauf man achten sollte.
Der Standard-Shortcut ist Ctrl+Space, und in dem Moment, in dem man die Tasten loslässt, wird die Transkription eingefügt.
Wenn Ctrl dabei noch gedrückt ist, wird der transkribierte Text als Ctrl-Zeichen verarbeitet.
Die Testumgebung war Linux x64, X11 und Emacs.
Ich nutze Handy zusammen mit Parakeet v3, und es ist wirklich hervorragend.
Ich habe auch Monologue, Superwhisper und Aqua ausprobiert, aber Handy läuft lokal und hat keine Abo-Gebühr.
Klare Empfehlung.
Mich würde interessieren, ob es jemanden gibt, der es mit OpenWhispr verglichen hat.
Laut Beschreibung wirken sie ähnlich. Handy hatte sein erstes Release im Juni 2025, OpenWhispr kam einen Monat später heraus.
Handy hat auf GitHub 11k Sterne, OpenWhispr etwa 730.
- Ich habe beide benutzt, und Handy war viel einfacher, weil man es direkt als macOS-App installieren konnte.
  Damals hatte OpenWhispr noch kein Parakeet-Modell, und auch die UI war nicht besonders ausgereift.
  Dank seiner minimalen UI ist Handy sehr intuitiv zu bedienen.
  Es fehlen zwar fortgeschrittene Funktionen, aber ich nutze es nun seit zwei Monaten und habe nicht vor, nach einer anderen STT-App zu suchen.
Auf meinem MacBook M1 Air ist Handy sehr schnell und genauer als das integrierte STT von macOS.
Die Einstellungen sind angenehm einfach gehalten, sodass es bequem zu nutzen ist.
Ich habe mich gefragt, was die Option „discharging the model“ bedeutet, aber sie scheint weder RAM noch CPU zu beeinflussen.
- Das ist eine Funktion, um das Modell im RAM resident zu halten, damit es schnell verfügbar ist.
  Wenn man es entlädt, wird es aus dem Speicher entfernt und der Start dauert länger.
Das Parakeet-V3-Modell ist wirklich hervorragend.

Handy – Kostenlose Open-Source-App für Spracherkennung

Überblick

Die Philosophie von Handy

Funktionsweise

Architektur

Bekannte Probleme und Einschränkungen

Systemanforderungen

Entwicklungs-Roadmap

Fehlerbehebung und manuelle Modellinstallation

So kann man beitragen

Verwandte Projekte und Lizenz

Zitat

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare