21 Punkte von GN⁺ 2025-08-19 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Whispering ist ein Local-First-Tool für Sprachtranskription, das nach dem Drücken eines Hotkeys den Prozess Sprache → Text durchläuft und das Ergebnis direkt in die Zwischenablage einfügt
  • Im Gegensatz zu vielen bestehenden Tools, die geschlossene, kostenpflichtige Dienste waren, bietet Whispering transparente Datenverarbeitung und Open-Source-Zugänglichkeit
  • Nutzer können zwischen lokalen Optionen (Whisper C++, Speaches usw.) oder Cloud-Optionen (Groq, OpenAI, ElevenLabs usw.) wählen und die gewünschten AI-Transformationsfunktionen konfigurieren
  • Die App ist mit 22 MB leicht und startet schnell und enthält fortgeschrittene Funktionen wie anpassbare Hotkeys, einen sprachaktivierten Modus und automatische Textformatierung
  • Da sich damit Datenhoheit und Kostensenkung zugleich erreichen lassen, ist es ein bedeutendes Projekt als Alternative zu geschlossenen Transkriptions-SaaS-Lösungen

Überblick über Whispering

  • Whispering ist eine kostenlose, Open-Source-basierte App für Sprachtranskription: Nach dem Drücken eines Hotkeys wird Spracheingabe in Text umgewandelt und anschließend automatisch kopiert
    • Persönliche Daten werden standardmäßig lokal gespeichert und nicht nach außen übertragen
    • Auf Wunsch lassen sich externe APIs wie OpenAI, Groq oder ElevenLabs direkt anbinden
  • Transparenz und garantierte Datenhoheit werden als zentrale Werte hervorgehoben

Hauptfunktionen und Merkmale

  • Unterstützung für den sprachaktivierten Modus (Voice Activity Detection, VAD)
    • Wenn der Nutzer spricht, startet die Aufnahme automatisch; beim Aufhören endet sie automatisch
  • Funktion für AI-basierte Transformationen (Transformations)
    • Es lassen sich verschiedene AI-Workflows für Grammatikprüfung, Übersetzung, Zusammenfassung, Formatierung usw. einrichten
    • Verschiedene LLM-Anbieter wie OpenAI, Anthropic, Google Gemini und Groq können ausgewählt werden
  • Unterstützung für benutzerdefinierte Hotkeys zur Anpassung an die eigene Arbeitsumgebung
  • Kostengünstige Struktur: Die Abrechnung beim Anbieter erfolgt direkt über den eigenen API-Schlüssel
    • Beispiel: Bei Verwendung eines Groq-Modells 0.02$/Stunde → etwa 0.20$/Monat (100-mal günstiger als traditionelles SaaS)

Installation und Nutzung

  • Es werden Binärdateien für macOS, Windows und Linux bereitgestellt
    • macOS: separate Versionen für Apple Silicon und Intel
    • Windows: Installationsoptionen als MSI/EXE
    • Linux: Unterstützung für AppImage, DEB und RPM
  • Falls die Installation umständlich ist, gibt es auch eine Web-App-Version (allerdings ohne Unterstützung für globale Hotkeys)

Art der Datenverarbeitung

  • Alle Aufnahmen und Transkriptionsergebnisse werden in IndexedDB gespeichert und lokal verwaltet
  • Wenn ein externer Transkriptionsdienst gewählt wird, erfolgt nur ein direkter Aufruf über den API-Schlüssel
    • Kein Server-Relay, keine Datensammlung
  • Auch der Transformationsdienst sendet Daten nur an den vom Nutzer gewählten LLM-Anbieter
    • Transformations-Workflows, Prompts und Einstellungswerte werden lokal gespeichert

Unterschiede und Vorteile

  • Bestehende Transkriptions-Apps verlangen über zwischengeschaltete Server 15 bis 30 US-Dollar pro Monat
  • Whispering ermöglicht durch eine Struktur ohne Mittelsmann die direkte Verbindung zum Anbieter und damit niedrigere Kosten
  • Bei Wahl lokaler Optionen sind vollständige Offline-Nutzung, kostenloser Betrieb und unbegrenzte Nutzung möglich

Entwicklung und Architektur

  • Erstellt auf Basis von Svelte 5 + Tauri, wodurch sowohl Desktop als auch Web unterstützt werden
    • Größe etwa 22 MB, schneller Start, minimaler Ressourcenverbrauch
  • Die Codebasis nutzt eine 3-Schichten-Architektur, aufgeteilt in Service-Schicht, Query-Schicht und UI-Schicht
    • 97 % Code-Sharing zwischen Web- und Desktop-Version
  • Die Browser-Erweiterung (React + shadcn/ui) ist derzeit vorübergehend pausiert, während die Desktop-App stabilisiert wird

Beiträge und Community

  • Jeder kann den Quellcode prüfen, Funktionen beitragen oder neue Adapter für Transkriptions-/AI-Dienste hinzufügen
  • Entwicklungsrichtlinien: Beibehaltung von TypeScript-/Svelte-Mustern, Fehlerbehandlung auf Basis der WellCrafted-Bibliothek
  • Nutzerfeedback und Zusammenarbeit erfolgen über die Discord-Community und GitHub Issues
  • Auf Basis der MIT-Lizenz kann die Software frei geforkt, verändert und weiterverbreitet werden

Wichtige Antworten aus den FAQ

  • Offline-Nutzung möglich?: Mit dem lokalen Modus von Speaches wird vollständige Offline-Unterstützung geboten
  • Tatsächliche Kosten: Bei Groq etwa 0.2~3$/Monat, bei OpenAI etwa 1.8~16.2$/Monat, lokal kostenlos
  • Sicherheit/Privatsphäre: Aufnahmen werden lokal gespeichert; externe Übertragung erfolgt nur an die vom Nutzer direkt gewählte Anbieter-API
  • Unterstützte Plattformen: macOS, Windows, Linux Desktop + Webbrowser

Noch keine Kommentare.

Noch keine Kommentare.