Apples neue Speech-API liefert Echtzeit-Transkription, deutlich schneller als Whisper

(macstories.net)

16 Punkte von GN⁺ 2025-06-21 | 6 Kommentare | Auf WhatsApp teilen

Apples SpeechAnalyzer und SpeechTranscriber unterstützen Echtzeit-Transkription mit deutlich höherer Geschwindigkeit und gleicher Qualität im Vergleich zu OpenAIs Whisper
Bei der Umwandlung einer 34 Minuten langen, 7 GB großen Videodatei mit dem Yap-Kommandozeilentool wurde in nur 45 Sekunden eine SRT-Datei erzeugt, also 2,2-mal schneller als MacWhisper
Gegenüber anderen Tools wie MacWhisper und VidCap gibt es kaum Qualitätsunterschiede, allerdings zeigen alle leichte Fehler bei Eigennamen und zusammengesetzten Wörtern
Bei wiederkehrenden Aufgaben wie langen Entwickler-Videos, Vorlesungen oder Podcasts ist der kumulative Zeitgewinn sehr groß
Unter der macOS-Tahoe-Beta (Entwicklerkonto erforderlich) ist die Nutzung nach der Installation von Yap sofort möglich; künftig wird ein Ersatz von Whisper auf allen Apple-Plattformen (iPhone, iPad, Mac, Vision Pro) erwartet

Apple Speech API vs. Whisper: eine neue Geschwindigkeitsrevolution

Die kürzlich auf der WWDC vorgestellten SpeechAnalyzer und SpeechTranscriber sind in den neuesten Betas von macOS, iOS, iPadOS und Vision Pro enthalten
Der Autor war mit der langsamen Geschwindigkeit bisheriger Whisper-basierter Tools unzufrieden, doch die neue API zeigt in der Praxis eine Leistung auf Game-Changer-Niveau
Mit einem einfachen Kommandozeilentool (Yap) lassen sich Audio- und Videodateien schnell in SRT und TXT umwandeln
34 Minuten, 7 GB, 4K-Video → Yap: 45 Sekunden / MacWhisper (V3 Turbo): 1 Minute 41 Sekunden / VidCap: 1 Minute 55 Sekunden / MacWhisper (V2): 3 Minuten 55 Sekunden
Probleme bei der Erkennung von CamelCase (z. B. AppStories) und Eigennamen treten bei allen ähnlich auf (lassen sich per Nachbearbeitung leicht korrigieren)

Vergleich der tatsächlichen Geschwindigkeit und Einsatz im Workflow

Bei nur einem einzelnen Video wirkt ein Unterschied von 1 bis 2 Minuten gering, doch bei der Verarbeitung von mehrstündigem Videomaterial summiert sich die Zeitersparnis deutlich
Bei umfangreichen Batch-Konvertierungen, etwa von YouTube-Videos, ist eine effiziente Automatisierung in Verbindung mit yt-dlp möglich
Für Creator, YouTuber, Studierende und viele andere bietet das einen schnellen Workflow für Untertitel, Vorlesungen und Zusammenfassungen
Es wird erwartet, dass die Kombination aus SpeechAnalyzer und SpeechTranscriber Whisper schnell ersetzen wird

Praktische Nutzung und Installation

Installation der macOS-Tahoe-Beta (derzeit ist ein Entwicklerkonto erforderlich)
Download und Installation des Kommandozeilentools aus dem Yap-GitHub-Repository
Nach dem Start von Yap die Audio- oder Videodatei eingeben → SRT-/TXT-Ausgabedateien werden sofort erzeugt
Weitere technische Informationen sind in der offiziellen Apple-Dokumentation zur Speech-API sowie im WWDC-Video (Nr. 277) verfügbar

Fazit und Ausblick

Die Apple Speech API zeigt gegenüber Whisper einen überragenden Geschwindigkeitsvorteil, bei gleichbleibender Qualität
Für Nutzer, die Spracherkennungs- und Transkriptions-Workflows vor allem auf Apple-Plattformen verwenden, hat sie gute Chancen, sich als Standardmodell zu etablieren
Bei häufig wiederkehrenden Automatisierungsaufgaben ist eine maximale kumulative Effizienzsteigerung und höhere Produktivität zu erwarten

6 Kommentare

brainer 2025-06-21

Später sollte ich es auch einmal auf Koreanisch testen.

howudoin 2025-06-21

Schon die Tatsache, dass es sich um eine Apple-Plattform handelt, wirkt so verschlossen, dass ich mich damit gar nicht erst beschäftigen möchte.

gera1d 2025-06-21

Ich möchte keine Kommentare in informeller Sprache sehen, aber es gibt keine Blockierfunktion.

jk34011 2025-06-23

Wenn man es so betrachtet, ist Ihr Kommentar auch in informeller Sprache geschrieben;;

crawler 2025-06-22

Auch wenn es Ihnen vielleicht nicht gefällt, Apple zu kritisieren, ist das keine respektlose Umgangssprache.
Das ist dieser knappe Stil ohne Höflichkeitsformen, und die Standardzusammenfassungen auf GeekNews sind selbst in genau diesem Stil – wie lesen Sie die Beiträge denn ...

2025-06-23

[Dieser Kommentar wurde ausgeblendet.]