Whispering – Open-Source-App für Sprachtranskription

(github.com/epicenter-so)

21 Punkte von GN⁺ 2025-08-19 | 2 Kommentare | Auf WhatsApp teilen

Whispering ist ein Local-First-Tool für Sprachtranskription, das nach dem Drücken eines Hotkeys den Prozess Sprache → Text durchläuft und das Ergebnis direkt in die Zwischenablage einfügt
Im Gegensatz zu vielen bestehenden Tools, die geschlossene, kostenpflichtige Dienste waren, bietet Whispering transparente Datenverarbeitung und Open-Source-Zugänglichkeit
Nutzer können zwischen lokalen Optionen (Whisper C++, Speaches usw.) oder Cloud-Optionen (Groq, OpenAI, ElevenLabs usw.) wählen und die gewünschten AI-Transformationsfunktionen konfigurieren
Die App ist mit 22 MB leicht und startet schnell und enthält fortgeschrittene Funktionen wie anpassbare Hotkeys, einen sprachaktivierten Modus und automatische Textformatierung
Da sich damit Datenhoheit und Kostensenkung zugleich erreichen lassen, ist es ein bedeutendes Projekt als Alternative zu geschlossenen Transkriptions-SaaS-Lösungen

Überblick über Whispering

Whispering ist eine kostenlose, Open-Source-basierte App für Sprachtranskription: Nach dem Drücken eines Hotkeys wird Spracheingabe in Text umgewandelt und anschließend automatisch kopiert
- Persönliche Daten werden standardmäßig lokal gespeichert und nicht nach außen übertragen
- Auf Wunsch lassen sich externe APIs wie OpenAI, Groq oder ElevenLabs direkt anbinden
Transparenz und garantierte Datenhoheit werden als zentrale Werte hervorgehoben

Hauptfunktionen und Merkmale

Unterstützung für den sprachaktivierten Modus (Voice Activity Detection, VAD)
- Wenn der Nutzer spricht, startet die Aufnahme automatisch; beim Aufhören endet sie automatisch
Funktion für AI-basierte Transformationen (Transformations)
- Es lassen sich verschiedene AI-Workflows für Grammatikprüfung, Übersetzung, Zusammenfassung, Formatierung usw. einrichten
- Verschiedene LLM-Anbieter wie OpenAI, Anthropic, Google Gemini und Groq können ausgewählt werden
Unterstützung für benutzerdefinierte Hotkeys zur Anpassung an die eigene Arbeitsumgebung
Kostengünstige Struktur: Die Abrechnung beim Anbieter erfolgt direkt über den eigenen API-Schlüssel
- Beispiel: Bei Verwendung eines Groq-Modells 0.02$/Stunde → etwa 0.20$/Monat (100-mal günstiger als traditionelles SaaS)

Installation und Nutzung

Es werden Binärdateien für macOS, Windows und Linux bereitgestellt
- macOS: separate Versionen für Apple Silicon und Intel
- Windows: Installationsoptionen als MSI/EXE
- Linux: Unterstützung für AppImage, DEB und RPM
Falls die Installation umständlich ist, gibt es auch eine Web-App-Version (allerdings ohne Unterstützung für globale Hotkeys)

Art der Datenverarbeitung

Alle Aufnahmen und Transkriptionsergebnisse werden in IndexedDB gespeichert und lokal verwaltet
Wenn ein externer Transkriptionsdienst gewählt wird, erfolgt nur ein direkter Aufruf über den API-Schlüssel
- Kein Server-Relay, keine Datensammlung
Auch der Transformationsdienst sendet Daten nur an den vom Nutzer gewählten LLM-Anbieter
- Transformations-Workflows, Prompts und Einstellungswerte werden lokal gespeichert

Unterschiede und Vorteile

Bestehende Transkriptions-Apps verlangen über zwischengeschaltete Server 15 bis 30 US-Dollar pro Monat
Whispering ermöglicht durch eine Struktur ohne Mittelsmann die direkte Verbindung zum Anbieter und damit niedrigere Kosten
Bei Wahl lokaler Optionen sind vollständige Offline-Nutzung, kostenloser Betrieb und unbegrenzte Nutzung möglich

Entwicklung und Architektur

Erstellt auf Basis von Svelte 5 + Tauri, wodurch sowohl Desktop als auch Web unterstützt werden
- Größe etwa 22 MB, schneller Start, minimaler Ressourcenverbrauch
Die Codebasis nutzt eine 3-Schichten-Architektur, aufgeteilt in Service-Schicht, Query-Schicht und UI-Schicht
- 97 % Code-Sharing zwischen Web- und Desktop-Version
Die Browser-Erweiterung (React + shadcn/ui) ist derzeit vorübergehend pausiert, während die Desktop-App stabilisiert wird

Beiträge und Community

Jeder kann den Quellcode prüfen, Funktionen beitragen oder neue Adapter für Transkriptions-/AI-Dienste hinzufügen
Entwicklungsrichtlinien: Beibehaltung von TypeScript-/Svelte-Mustern, Fehlerbehandlung auf Basis der WellCrafted-Bibliothek
Nutzerfeedback und Zusammenarbeit erfolgen über die Discord-Community und GitHub Issues
Auf Basis der MIT-Lizenz kann die Software frei geforkt, verändert und weiterverbreitet werden

Wichtige Antworten aus den FAQ

Offline-Nutzung möglich?: Mit dem lokalen Modus von Speaches wird vollständige Offline-Unterstützung geboten
Tatsächliche Kosten: Bei Groq etwa 0.2~3$/Monat, bei OpenAI etwa 1.8~16.2$/Monat, lokal kostenlos
Sicherheit/Privatsphäre: Aufnahmen werden lokal gespeichert; externe Übertragung erfolgt nur an die vom Nutzer direkt gewählte Anbieter-API
Unterstützte Plattformen: macOS, Windows, Linux Desktop + Webbrowser

2 Kommentare

wedding 2025-08-21

Um Spracherkennung in einem abgeschotteten Netzwerk zu implementieren, habe ich einen schlanken Webserver gebaut und im Einsatz, der mit Whisper STT ausführt.
Es wird zwar so dargestellt, als würde alles offline funktionieren, aber abgesehen von der Transkriptionsfunktion ist man bei Dingen wie Transformationen doch auf die Cloud angewiesen. Da frage ich mich, welche Bedeutung die Unterschiede und Vorteile überhaupt haben sollen.

GN⁺ 2025-08-19

Hacker-News-Kommentare

Ich frage mich, ob sich das Parakeet-Modell lokal nutzen lässt. Ich verwende MacWhisper, und Parakeet ist bei der On-Device-Transkription deutlich schneller und genauer als Whisper, womit ich sehr zufrieden bin. Ich nutze Push-to-Transcribe schon lange in der Kombination aus MacWhisper und Parakeet, und es ist wirklich eine magische Erfahrung.
- Es wird noch nicht unterstützt, aber ich wünsche mir die Funktion ebenfalls sehr. Ich habe gesehen, dass Parakeet auf den Leaderboards großartige Ergebnisse erzielt hat, und aktuell plane ich, nach der Stabilisierung der whisper.cpp-Integration Parakeet-Unterstützung hinzuzufügen. Wenn jemand per PR einen Connector baut, bin ich bereit, ihn sofort zu mergen.
- Parakeet ist wirklich erstaunlich: auf einer A100-GPU 3000-fache Echtzeitgeschwindigkeit, auf einer Laptop-CPU 5-fache Echtzeitgeschwindigkeit. Es ist genauer als whisper-large-v3; siehe das huggingface-ASR-Leaderboard. Das NeMo-Framework kann allerdings etwas umständlich sein. Umso erstaunlicher ist es, dass es auf dem Mac lokal läuft (mit MacWhisper).
Zur Info für alle, die heute Morgen ins Repo geschaut haben: Ich bereite ein Release vor, das whisper-C++-Support hinzufügt. Siehe den Progress-PR-Link. Sobald das öffentlich ist, wird es deutlich stärkere lokale Transkriptionsunterstützung geben. Es fehlen nur noch ein paar kleine Fixes.
Ich wünschte, es gäbe lokal-first Apps aller Art auf Open-Source-Basis, die jeweils gut zusammenspielen. Die Idee von Epicenter ist, alle Daten als Text und SQLite in Ordnern zu speichern, damit alles transparent und vertrauenswürdig ist. Darauf setzt dann ein Stapel interoperabler lokal-first Tools auf. Ich mag sehr, dass diese Transparenz Vertrauen schafft. Mit TTS habe ich kaum Erfahrung, aber wenn ich diesen Bereich erkunde, werde ich dank Epicenter wohl bei Whispering anfangen. Ich habe dem Repo einen Stern gegeben und will auch über App-Ideen nachdenken, zu denen ich beitragen könnte. Glückwunsch zum YC und danke.
- Vielen Dank für die Unterstützung, und dieses Feedback ist unglaublich wertvoll. Ich freue mich, mit jemandem in Kontakt zu sein, der den Wert von Open Source und eigenem Datenbesitz teilt. Während der YC-Zeit werde ich mich anstrengen, noch mehr OSS-Entwickler zu unterstützen. Es wäre schön, wenn wir weiter in Kontakt bleiben.
- Ich glaube, hier geht es nicht um TTS (Sprachsynthese), sondern um STT (Spracherkennung).
- Falls du später auch eine Cloud-Version willst, kannst du die AgentDB API nutzen, nur diese Daten hochladen und die Abfragen lediglich in der Cloud ausführen.
Danke fürs Teilen dieses großartigen Produkts. Letzte Woche habe ich selbst eine ähnliche App gebaut, die lokal läuft, weil kommerzielle Produkte zu langsam waren. Sie hat eine Funktion, mit der man per Knopfdruck sämtliches Audio aufzeichnet, transkribiert und in Apps einfügt. Ich habe auch einen zweiten Modus gebaut, der Gesprochenes in meiner Muttersprache automatisch ins Englische übersetzt. Auch die Formatierung wie Kommas oder Anführungszeichen habe ich ordentlich umgesetzt. Erstaunlich, dass so etwas in der Standard-Diktier-App von macOS noch nicht umgesetzt ist.
- Vielen Dank für die Unterstützung, und es freut mich, dass es auch bei Übersetzungen geholfen hat. Ich finde es ebenfalls seltsam, dass die Standard-Diktierfunktion von macOS sich nicht so weit entwickelt hat. Open Source füllt gerade diese Lücke.
Ich frage mich, ob es diese Funktion auch auf iOS gibt. Ich hätte gern eine benutzerdefinierte iOS-Tastatur-App, die Parakeet oder Whisper kapselt, sodass ich einfach zur Diktier-Tastatur wechseln, auf einen Button drücken und die Transkription direkt in jede App einfügen kann, einschließlich Apps von Drittanbietern. Auf macOS ist MacWhisper wirklich hervorragend, aber auf iOS gibt es dieselbe Funktion noch nicht. Die Standard-Diktierfunktion von iOS ist zwar gut, aber bei Fachbegriffen oder Abkürzungen versteht Whisper cpp deutlich besser.
- superwhisper bietet diese Funktion.
Ich interessiere mich schon länger für Diktierfunktionen, die Audio lokal verarbeiten. Audio an eine entfernte API zu schicken mag ich nicht; alles muss lokal und ohne Offenlegung laufen. Ich habe einige Dinge ausprobiert, darunter das Modell aus FUTO Keyboard, aber es fühlt sich noch nicht ausreichend an. Vor allem bei Rauschunterdrückung oder Fülllauten wie "ähm...", "äh..." sowie Selbstkorrekturen mitten im Satz kommt es nicht gut mit. Ich hoffe auf ein Open Model, das solche Dinge gut löst. Ob das eher ein Problem der App oder eine Grenze des Modells ist, kann ich noch nicht einschätzen, aber ich frage mich, ob es dazu neue Modelle gibt. Bis dahin werde ich wohl weiter umständlich Notizen durch Tippen machen müssen.
- Hast du Whisper selbst schon ausprobiert? Das würde ich empfehlen. Es ist mit Open Weights verfügbar, und zu den oben vorgestellten Eigenschaften von Epicenter gehört die Funktion "Transkriptionsumwandlung". Man kann den Text in ein LLM einspeisen und sauberer aufbereiten lassen. Wenn die Token-Kosten tragbar sind, sollte das nicht nur Füllwörter entfernen, sondern Sätze auch nach Bedeutungseinheiten automatisch glätten und korrigieren können.
Das Konzept aus lokal-first Ansatz plus eigenen Backup-Tools gefällt mir in diesem Bereich immer besser. Kürzlich war hyprnote auf Hacker News beliebt; es ist wirklich gut gemacht und bleibt lokal-first, lässt sich aber auch mit bevorzugten Tools nutzen.
- Ich bin ebenfalls ein großer Fan von Hyprnote. Die beiden Produkte unterscheiden sich zwar etwas, aber es gibt viele Überschneidungen im Tech-Stack, und auch die Mission ist sehr ähnlich.
Ich nutze whispering seit über einem Jahr, und es hat die Art, wie ich mit dem Computer interagiere, komplett verändert. Man sollte sich unbedingt eine Maus und Tastatur mit programmierbaren Tasten besorgen und dort die Whispering-Shortcuts hinterlegen. Inzwischen fühlt sich Tippen für mich so ineffizient an, dass ich nicht mehr zur normalen Texteingabe zurückkann.
- Vielen Dank für die Unterstützung, und solches Feedback gibt enorm viel Kraft. Melde dich jederzeit, wenn künftig Probleme auftauchen.
Ich frage mich, ob diese Technik auch bei Kinderstimmen gut funktioniert. Für Bildungs-Apps gibt es viel Bedarf an lokalen Modellen, bei denen Privatsphäre wichtig ist. Soweit ich weiß, versteht Whisper jüngere Stimmen derzeit allerdings nicht besonders gut.
- Stimmt, Whisper ist bei Kinderstimmen eher schwach. Parakeet oder andere Modelle habe ich noch nicht getestet, aber für den Bildungsbereich, wo Privatsphäre wichtig ist, ist das ein gutes Einsatzbeispiel. Ich würde auch Hyprnote empfehlen; dort wird in letzter Zeit an Modellerweiterungen wie OWhisper gearbeitet. Siehe Hyprnote-Einführung und mehr zu OWhisper.
Ich bin regelrecht besessen von lokal-first Open-Source-Software. Ich finde, alle sollten so denken.
- Da stimme ich vollkommen zu.