- Whispering ist ein Local-First-Tool für Sprachtranskription, das nach dem Drücken eines Hotkeys den Prozess Sprache → Text durchläuft und das Ergebnis direkt in die Zwischenablage einfügt
- Im Gegensatz zu vielen bestehenden Tools, die geschlossene, kostenpflichtige Dienste waren, bietet Whispering transparente Datenverarbeitung und Open-Source-Zugänglichkeit
- Nutzer können zwischen lokalen Optionen (Whisper C++, Speaches usw.) oder Cloud-Optionen (Groq, OpenAI, ElevenLabs usw.) wählen und die gewünschten AI-Transformationsfunktionen konfigurieren
- Die App ist mit 22 MB leicht und startet schnell und enthält fortgeschrittene Funktionen wie anpassbare Hotkeys, einen sprachaktivierten Modus und automatische Textformatierung
- Da sich damit Datenhoheit und Kostensenkung zugleich erreichen lassen, ist es ein bedeutendes Projekt als Alternative zu geschlossenen Transkriptions-SaaS-Lösungen
Überblick über Whispering
- Whispering ist eine kostenlose, Open-Source-basierte App für Sprachtranskription: Nach dem Drücken eines Hotkeys wird Spracheingabe in Text umgewandelt und anschließend automatisch kopiert
- Persönliche Daten werden standardmäßig lokal gespeichert und nicht nach außen übertragen
- Auf Wunsch lassen sich externe APIs wie OpenAI, Groq oder ElevenLabs direkt anbinden
- Transparenz und garantierte Datenhoheit werden als zentrale Werte hervorgehoben
Hauptfunktionen und Merkmale
- Unterstützung für den sprachaktivierten Modus (Voice Activity Detection, VAD)
- Wenn der Nutzer spricht, startet die Aufnahme automatisch; beim Aufhören endet sie automatisch
- Funktion für AI-basierte Transformationen (Transformations)
- Es lassen sich verschiedene AI-Workflows für Grammatikprüfung, Übersetzung, Zusammenfassung, Formatierung usw. einrichten
- Verschiedene LLM-Anbieter wie OpenAI, Anthropic, Google Gemini und Groq können ausgewählt werden
- Unterstützung für benutzerdefinierte Hotkeys zur Anpassung an die eigene Arbeitsumgebung
- Kostengünstige Struktur: Die Abrechnung beim Anbieter erfolgt direkt über den eigenen API-Schlüssel
- Beispiel: Bei Verwendung eines Groq-Modells 0.02$/Stunde → etwa 0.20$/Monat (100-mal günstiger als traditionelles SaaS)
Installation und Nutzung
- Es werden Binärdateien für macOS, Windows und Linux bereitgestellt
- macOS: separate Versionen für Apple Silicon und Intel
- Windows: Installationsoptionen als MSI/EXE
- Linux: Unterstützung für AppImage, DEB und RPM
- Falls die Installation umständlich ist, gibt es auch eine Web-App-Version (allerdings ohne Unterstützung für globale Hotkeys)
Art der Datenverarbeitung
- Alle Aufnahmen und Transkriptionsergebnisse werden in IndexedDB gespeichert und lokal verwaltet
- Wenn ein externer Transkriptionsdienst gewählt wird, erfolgt nur ein direkter Aufruf über den API-Schlüssel
- Kein Server-Relay, keine Datensammlung
- Auch der Transformationsdienst sendet Daten nur an den vom Nutzer gewählten LLM-Anbieter
- Transformations-Workflows, Prompts und Einstellungswerte werden lokal gespeichert
Unterschiede und Vorteile
- Bestehende Transkriptions-Apps verlangen über zwischengeschaltete Server 15 bis 30 US-Dollar pro Monat
- Whispering ermöglicht durch eine Struktur ohne Mittelsmann die direkte Verbindung zum Anbieter und damit niedrigere Kosten
- Bei Wahl lokaler Optionen sind vollständige Offline-Nutzung, kostenloser Betrieb und unbegrenzte Nutzung möglich
Entwicklung und Architektur
- Erstellt auf Basis von Svelte 5 + Tauri, wodurch sowohl Desktop als auch Web unterstützt werden
- Größe etwa 22 MB, schneller Start, minimaler Ressourcenverbrauch
- Die Codebasis nutzt eine 3-Schichten-Architektur, aufgeteilt in Service-Schicht, Query-Schicht und UI-Schicht
- 97 % Code-Sharing zwischen Web- und Desktop-Version
- Die Browser-Erweiterung (React + shadcn/ui) ist derzeit vorübergehend pausiert, während die Desktop-App stabilisiert wird
Beiträge und Community
- Jeder kann den Quellcode prüfen, Funktionen beitragen oder neue Adapter für Transkriptions-/AI-Dienste hinzufügen
- Entwicklungsrichtlinien: Beibehaltung von TypeScript-/Svelte-Mustern, Fehlerbehandlung auf Basis der WellCrafted-Bibliothek
- Nutzerfeedback und Zusammenarbeit erfolgen über die Discord-Community und GitHub Issues
- Auf Basis der MIT-Lizenz kann die Software frei geforkt, verändert und weiterverbreitet werden
Wichtige Antworten aus den FAQ
- Offline-Nutzung möglich?: Mit dem lokalen Modus von Speaches wird vollständige Offline-Unterstützung geboten
- Tatsächliche Kosten: Bei Groq etwa 0.2~3$/Monat, bei OpenAI etwa 1.8~16.2$/Monat, lokal kostenlos
- Sicherheit/Privatsphäre: Aufnahmen werden lokal gespeichert; externe Übertragung erfolgt nur an die vom Nutzer direkt gewählte Anbieter-API
- Unterstützte Plattformen: macOS, Windows, Linux Desktop + Webbrowser
Noch keine Kommentare.