31 Punkte von GN⁺ 2025-08-14 | Noch keine Kommentare. | Auf WhatsApp teilen
  • FFmpeg 8.0 bietet jetzt offiziell Unterstützung für das Whisper-Spracherkennungsmodell
  • Whisper ist ein von OpenAI entwickeltes Open-Source-Spracherkennungsmodell, das für die automatische Transkription in verschiedenen Sprachen verwendet wird
  • Durch diese Einführung steigt die Möglichkeit, Speech-to-Text-Workflows direkt in Video- und Audioverarbeitungsaufgaben zu automatisieren
  • Für Entwickler und den Bereich Medienautomatisierung werden Nutzbarkeit und Effizienz von FFmpeg deutlich verbessert
  • Durch die integrierte Unterstützung moderner Spracherkennung sinkt der Aufwand für zusätzliche externe Tools oder komplexe Integrationsprozesse

Überblick über die Whisper-Unterstützung in FFmpeg 8.0

  • Mit der Unterstützung für das Whisper-Spracherkennungsmodell bietet FFmpeg 8.0 die Funktion, Sprachdaten in verschiedenen Sprachen automatisch in Text umzuwandeln
  • Whisper nutzt einen von OpenAI entwickelten Deep-Learning-basierten Algorithmus und gewährleistet dadurch eine Speech-to-Text-Leistung mit hoher Genauigkeit
  • Bestehende FFmpeg-Nutzer können nun ohne externe Tools über die integrierte Whisper-Unterstützung direkt Untertitel aus Video- und Audiodateien erzeugen oder gesprochene Inhalte extrahieren

Wichtige Vorteile der Whisper-Integration

  • Durch die Whisper-Integration lassen sich in medienverarbeitenden und automatisierten FFmpeg-Pipelines effiziente und hochskalierbare Spracherkennungs-Workflows umsetzen
  • Da der Spracherkennungsalgorithmus integriert ist, können Entwickler ohne aufwendige zusätzliche Anbindungen oder separate Skripte mit einfachen Befehlen Speech-to-Text-Ergebnisse erhalten

Industrielle Bedeutung der Kombination aus FFmpeg und Whisper

  • In Bereichen wie umfangreicher Verwaltung von Medienbeständen, Untertitel-Erstellung und Archivierung von Videodaten bietet die Kombination FFmpeg + Whisper Vorteile bei Kosten­effizienz und Automatisierung zugleich
  • Bisher mussten separate Open-Source-Tools zur Spracherkennung mit FFmpeg gekoppelt werden; nun ist eine direkte Verarbeitung in FFmpeg selbst möglich, was vereinfachte Workflows und schnellere Verarbeitung erwarten lässt

Technische Details

  • Basierend auf der Bibliothek Whisper.cpp wurde FFmpeg ein Audiofilter hinzugefügt, der automatische Spracherkennung (ASR) direkt innerhalb von FFmpeg ausführt
  • Die Funktion kann mit der Option --enable-whisper aktiviert werden; der Modellpfad (model) ist verpflichtend anzugeben
  • Wichtige Optionen: Spracheinstellung (language), GPU-Nutzung (use_gpu), Queue-Größe (queue), Ausgabeformat (format: text/srt/json) sowie VAD-Modell- und Schwellenwert-Einstellungen
    • Wird der Wert für queue klein gesetzt, steigt die Echtzeitfähigkeit, aber die Genauigkeit sinkt und die CPU-Last steigt; bei einem größeren Wert steigt die Genauigkeit, aber auch die Latenz
    • Mit der Option destination kann das Ergebnis in Dateien, URLs oder Metadaten gespeichert werden; das AVIO-Protokoll wird ebenfalls unterstützt
  • Enthalten sind Beispiele für die Erzeugung von SRT-Untertiteln, die Übertragung von JSON per HTTP und Live-Transkription von Mikrofoneingaben mit VAD
    • Beispiel zur Erzeugung einer SRT-Untertiteldatei
      ffmpeg -i input.mp4 -vn \  
      -af "whisper=model=../whisper.cpp/models/ggml-base.en.bin:language=en:queue=3:destination=output.srt:format=srt" \  
      -f null -  
      

Noch keine Kommentare.

Noch keine Kommentare.