Whispering – Open-Source-App für Sprachtranskription
(github.com/epicenter-so)- Whispering ist ein Local-First-Tool für Sprachtranskription, das nach dem Drücken eines Hotkeys den Prozess Sprache → Text durchläuft und das Ergebnis direkt in die Zwischenablage einfügt
- Im Gegensatz zu vielen bestehenden Tools, die geschlossene, kostenpflichtige Dienste waren, bietet Whispering transparente Datenverarbeitung und Open-Source-Zugänglichkeit
- Nutzer können zwischen lokalen Optionen (Whisper C++, Speaches usw.) oder Cloud-Optionen (Groq, OpenAI, ElevenLabs usw.) wählen und die gewünschten AI-Transformationsfunktionen konfigurieren
- Die App ist mit 22 MB leicht und startet schnell und enthält fortgeschrittene Funktionen wie anpassbare Hotkeys, einen sprachaktivierten Modus und automatische Textformatierung
- Da sich damit Datenhoheit und Kostensenkung zugleich erreichen lassen, ist es ein bedeutendes Projekt als Alternative zu geschlossenen Transkriptions-SaaS-Lösungen
Überblick über Whispering
- Whispering ist eine kostenlose, Open-Source-basierte App für Sprachtranskription: Nach dem Drücken eines Hotkeys wird Spracheingabe in Text umgewandelt und anschließend automatisch kopiert
- Persönliche Daten werden standardmäßig lokal gespeichert und nicht nach außen übertragen
- Auf Wunsch lassen sich externe APIs wie OpenAI, Groq oder ElevenLabs direkt anbinden
- Transparenz und garantierte Datenhoheit werden als zentrale Werte hervorgehoben
Hauptfunktionen und Merkmale
- Unterstützung für den sprachaktivierten Modus (Voice Activity Detection, VAD)
- Wenn der Nutzer spricht, startet die Aufnahme automatisch; beim Aufhören endet sie automatisch
- Funktion für AI-basierte Transformationen (Transformations)
- Es lassen sich verschiedene AI-Workflows für Grammatikprüfung, Übersetzung, Zusammenfassung, Formatierung usw. einrichten
- Verschiedene LLM-Anbieter wie OpenAI, Anthropic, Google Gemini und Groq können ausgewählt werden
- Unterstützung für benutzerdefinierte Hotkeys zur Anpassung an die eigene Arbeitsumgebung
- Kostengünstige Struktur: Die Abrechnung beim Anbieter erfolgt direkt über den eigenen API-Schlüssel
- Beispiel: Bei Verwendung eines Groq-Modells 0.02$/Stunde → etwa 0.20$/Monat (100-mal günstiger als traditionelles SaaS)
Installation und Nutzung
- Es werden Binärdateien für macOS, Windows und Linux bereitgestellt
- macOS: separate Versionen für Apple Silicon und Intel
- Windows: Installationsoptionen als MSI/EXE
- Linux: Unterstützung für AppImage, DEB und RPM
- Falls die Installation umständlich ist, gibt es auch eine Web-App-Version (allerdings ohne Unterstützung für globale Hotkeys)
Art der Datenverarbeitung
- Alle Aufnahmen und Transkriptionsergebnisse werden in IndexedDB gespeichert und lokal verwaltet
- Wenn ein externer Transkriptionsdienst gewählt wird, erfolgt nur ein direkter Aufruf über den API-Schlüssel
- Kein Server-Relay, keine Datensammlung
- Auch der Transformationsdienst sendet Daten nur an den vom Nutzer gewählten LLM-Anbieter
- Transformations-Workflows, Prompts und Einstellungswerte werden lokal gespeichert
Unterschiede und Vorteile
- Bestehende Transkriptions-Apps verlangen über zwischengeschaltete Server 15 bis 30 US-Dollar pro Monat
- Whispering ermöglicht durch eine Struktur ohne Mittelsmann die direkte Verbindung zum Anbieter und damit niedrigere Kosten
- Bei Wahl lokaler Optionen sind vollständige Offline-Nutzung, kostenloser Betrieb und unbegrenzte Nutzung möglich
Entwicklung und Architektur
- Erstellt auf Basis von Svelte 5 + Tauri, wodurch sowohl Desktop als auch Web unterstützt werden
- Größe etwa 22 MB, schneller Start, minimaler Ressourcenverbrauch
- Die Codebasis nutzt eine 3-Schichten-Architektur, aufgeteilt in Service-Schicht, Query-Schicht und UI-Schicht
- 97 % Code-Sharing zwischen Web- und Desktop-Version
- Die Browser-Erweiterung (React + shadcn/ui) ist derzeit vorübergehend pausiert, während die Desktop-App stabilisiert wird
Beiträge und Community
- Jeder kann den Quellcode prüfen, Funktionen beitragen oder neue Adapter für Transkriptions-/AI-Dienste hinzufügen
- Entwicklungsrichtlinien: Beibehaltung von TypeScript-/Svelte-Mustern, Fehlerbehandlung auf Basis der WellCrafted-Bibliothek
- Nutzerfeedback und Zusammenarbeit erfolgen über die Discord-Community und GitHub Issues
- Auf Basis der MIT-Lizenz kann die Software frei geforkt, verändert und weiterverbreitet werden
Wichtige Antworten aus den FAQ
- Offline-Nutzung möglich?: Mit dem lokalen Modus von Speaches wird vollständige Offline-Unterstützung geboten
- Tatsächliche Kosten: Bei Groq etwa 0.2~3$/Monat, bei OpenAI etwa 1.8~16.2$/Monat, lokal kostenlos
- Sicherheit/Privatsphäre: Aufnahmen werden lokal gespeichert; externe Übertragung erfolgt nur an die vom Nutzer direkt gewählte Anbieter-API
- Unterstützte Plattformen: macOS, Windows, Linux Desktop + Webbrowser
2 Kommentare
Um Spracherkennung in einem abgeschotteten Netzwerk zu implementieren, habe ich einen schlanken Webserver gebaut und im Einsatz, der mit Whisper STT ausführt.
Es wird zwar so dargestellt, als würde alles offline funktionieren, aber abgesehen von der Transkriptionsfunktion ist man bei Dingen wie Transformationen doch auf die Cloud angewiesen. Da frage ich mich, welche Bedeutung die Unterschiede und Vorteile überhaupt haben sollen.
Hacker-News-Kommentare