- Apples SpeechAnalyzer und SpeechTranscriber unterstützen Echtzeit-Transkription mit deutlich höherer Geschwindigkeit und gleicher Qualität im Vergleich zu OpenAIs Whisper
- Bei der Umwandlung einer 34 Minuten langen, 7 GB großen Videodatei mit dem Yap-Kommandozeilentool wurde in nur 45 Sekunden eine SRT-Datei erzeugt, also 2,2-mal schneller als MacWhisper
- Gegenüber anderen Tools wie MacWhisper und VidCap gibt es kaum Qualitätsunterschiede, allerdings zeigen alle leichte Fehler bei Eigennamen und zusammengesetzten Wörtern
- Bei wiederkehrenden Aufgaben wie langen Entwickler-Videos, Vorlesungen oder Podcasts ist der kumulative Zeitgewinn sehr groß
- Unter der macOS-Tahoe-Beta (Entwicklerkonto erforderlich) ist die Nutzung nach der Installation von Yap sofort möglich; künftig wird ein Ersatz von Whisper auf allen Apple-Plattformen (iPhone, iPad, Mac, Vision Pro) erwartet
Apple Speech API vs. Whisper: eine neue Geschwindigkeitsrevolution
- Die kürzlich auf der WWDC vorgestellten SpeechAnalyzer und SpeechTranscriber sind in den neuesten Betas von macOS, iOS, iPadOS und Vision Pro enthalten
- Der Autor war mit der langsamen Geschwindigkeit bisheriger Whisper-basierter Tools unzufrieden, doch die neue API zeigt in der Praxis eine Leistung auf Game-Changer-Niveau
- Mit einem einfachen Kommandozeilentool (Yap) lassen sich Audio- und Videodateien schnell in SRT und TXT umwandeln
- 34 Minuten, 7 GB, 4K-Video → Yap: 45 Sekunden / MacWhisper (V3 Turbo): 1 Minute 41 Sekunden / VidCap: 1 Minute 55 Sekunden / MacWhisper (V2): 3 Minuten 55 Sekunden
- Probleme bei der Erkennung von CamelCase (z. B. AppStories) und Eigennamen treten bei allen ähnlich auf (lassen sich per Nachbearbeitung leicht korrigieren)
Vergleich der tatsächlichen Geschwindigkeit und Einsatz im Workflow
- Bei nur einem einzelnen Video wirkt ein Unterschied von 1 bis 2 Minuten gering, doch bei der Verarbeitung von mehrstündigem Videomaterial summiert sich die Zeitersparnis deutlich
- Bei umfangreichen Batch-Konvertierungen, etwa von YouTube-Videos, ist eine effiziente Automatisierung in Verbindung mit yt-dlp möglich
- Für Creator, YouTuber, Studierende und viele andere bietet das einen schnellen Workflow für Untertitel, Vorlesungen und Zusammenfassungen
- Es wird erwartet, dass die Kombination aus SpeechAnalyzer und SpeechTranscriber Whisper schnell ersetzen wird
Praktische Nutzung und Installation
- Installation der macOS-Tahoe-Beta (derzeit ist ein Entwicklerkonto erforderlich)
- Download und Installation des Kommandozeilentools aus dem Yap-GitHub-Repository
- Nach dem Start von Yap die Audio- oder Videodatei eingeben → SRT-/TXT-Ausgabedateien werden sofort erzeugt
- Weitere technische Informationen sind in der offiziellen Apple-Dokumentation zur Speech-API sowie im WWDC-Video (Nr. 277) verfügbar
Fazit und Ausblick
- Die Apple Speech API zeigt gegenüber Whisper einen überragenden Geschwindigkeitsvorteil, bei gleichbleibender Qualität
- Für Nutzer, die Spracherkennungs- und Transkriptions-Workflows vor allem auf Apple-Plattformen verwenden, hat sie gute Chancen, sich als Standardmodell zu etablieren
- Bei häufig wiederkehrenden Automatisierungsaufgaben ist eine maximale kumulative Effizienzsteigerung und höhere Produktivität zu erwarten
6 Kommentare
Später sollte ich es auch einmal auf Koreanisch testen.
Schon die Tatsache, dass es sich um eine Apple-Plattform handelt, wirkt so verschlossen, dass ich mich damit gar nicht erst beschäftigen möchte.
Ich möchte keine Kommentare in informeller Sprache sehen, aber es gibt keine Blockierfunktion.
Wenn man es so betrachtet, ist Ihr Kommentar auch in informeller Sprache geschrieben;;
Auch wenn es Ihnen vielleicht nicht gefällt, Apple zu kritisieren, ist das keine respektlose Umgangssprache.
Das ist dieser knappe Stil ohne Höflichkeitsformen, und die Standardzusammenfassungen auf GeekNews sind selbst in genau diesem Stil – wie lesen Sie die Beiträge denn ...