FFmpeg 8.0 fügt Whisper-Unterstützung hinzu

(code.ffmpeg.org)

31 Punkte von GN⁺ 2025-08-14 | Noch keine Kommentare. | Auf WhatsApp teilen

FFmpeg 8.0 bietet jetzt offiziell Unterstützung für das Whisper-Spracherkennungsmodell
Whisper ist ein von OpenAI entwickeltes Open-Source-Spracherkennungsmodell, das für die automatische Transkription in verschiedenen Sprachen verwendet wird
Durch diese Einführung steigt die Möglichkeit, Speech-to-Text-Workflows direkt in Video- und Audioverarbeitungsaufgaben zu automatisieren
Für Entwickler und den Bereich Medienautomatisierung werden Nutzbarkeit und Effizienz von FFmpeg deutlich verbessert
Durch die integrierte Unterstützung moderner Spracherkennung sinkt der Aufwand für zusätzliche externe Tools oder komplexe Integrationsprozesse

Überblick über die Whisper-Unterstützung in FFmpeg 8.0

Mit der Unterstützung für das Whisper-Spracherkennungsmodell bietet FFmpeg 8.0 die Funktion, Sprachdaten in verschiedenen Sprachen automatisch in Text umzuwandeln
Whisper nutzt einen von OpenAI entwickelten Deep-Learning-basierten Algorithmus und gewährleistet dadurch eine Speech-to-Text-Leistung mit hoher Genauigkeit
Bestehende FFmpeg-Nutzer können nun ohne externe Tools über die integrierte Whisper-Unterstützung direkt Untertitel aus Video- und Audiodateien erzeugen oder gesprochene Inhalte extrahieren

Durch die Whisper-Integration lassen sich in medienverarbeitenden und automatisierten FFmpeg-Pipelines effiziente und hochskalierbare Spracherkennungs-Workflows umsetzen
Da der Spracherkennungsalgorithmus integriert ist, können Entwickler ohne aufwendige zusätzliche Anbindungen oder separate Skripte mit einfachen Befehlen Speech-to-Text-Ergebnisse erhalten

In Bereichen wie umfangreicher Verwaltung von Medienbeständen, Untertitel-Erstellung und Archivierung von Videodaten bietet die Kombination FFmpeg + Whisper Vorteile bei Kosteneffizienz und Automatisierung zugleich
Bisher mussten separate Open-Source-Tools zur Spracherkennung mit FFmpeg gekoppelt werden; nun ist eine direkte Verarbeitung in FFmpeg selbst möglich, was vereinfachte Workflows und schnellere Verarbeitung erwarten lässt

Basierend auf der Bibliothek Whisper.cpp wurde FFmpeg ein Audiofilter hinzugefügt, der automatische Spracherkennung (ASR) direkt innerhalb von FFmpeg ausführt
Die Funktion kann mit der Option --enable-whisper aktiviert werden; der Modellpfad (model) ist verpflichtend anzugeben
Wichtige Optionen: Spracheinstellung (language), GPU-Nutzung (use_gpu), Queue-Größe (queue), Ausgabeformat (format: text/srt/json) sowie VAD-Modell- und Schwellenwert-Einstellungen
- Wird der Wert für queue klein gesetzt, steigt die Echtzeitfähigkeit, aber die Genauigkeit sinkt und die CPU-Last steigt; bei einem größeren Wert steigt die Genauigkeit, aber auch die Latenz
- Mit der Option destination kann das Ergebnis in Dateien, URLs oder Metadaten gespeichert werden; das AVIO-Protokoll wird ebenfalls unterstützt
Enthalten sind Beispiele für die Erzeugung von SRT-Untertiteln, die Übertragung von JSON per HTTP und Live-Transkription von Mikrofoneingaben mit VAD
- Beispiel zur Erzeugung einer SRT-Untertiteldatei
```
ffmpeg -i input.mp4 -vn \  
-af &quot;whisper=model=../whisper.cpp/models/ggml-base.en.bin:language=en:queue=3:destination=output.srt:format=srt&quot; \  
-f null -  
```