13 Punkte von GN⁺ 2026-02-05 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Spracherkennung in Echtzeit mit extrem niedriger Latenz und hochpräziser Sprechertrennung in einem Sprach-zu-Text-Modell der nächsten Generation
  • Besteht aus zwei Modellen: Voxtral Mini Transcribe V2 für Batch-Verarbeitung und Voxtral Realtime für Echtzeitanwendungen
  • Das Realtime-Modell verarbeitet Sprache im Streaming-Verfahren mit unter 200 ms Latenz und wird als Open Weights unter Apache 2.0 veröffentlicht
  • Mini Transcribe V2 unterstützt 13 Sprachen einschließlich Koreanisch und bietet Enterprise-Funktionen wie Wort-für-Wort-Zeitstempel, Context Biasing und Sprechertrennung
  • Beide Modelle unterstützen GDPR- und HIPAA-konforme Bereitstellung und verbessern Genauigkeit, Geschwindigkeit und Kosteneffizienz sprachbasierter Anwendungen deutlich

Überblick über Voxtral Transcribe 2

  • Voxtral Transcribe 2 besteht aus zwei Modellen, die sich durch modernste Spracherkennungsqualität, präzise Sprechertrennung (Diarization) und Verarbeitung mit extrem niedriger Latenz auszeichnen
    • Voxtral Mini Transcribe V2: für Batch-Transkription
    • Voxtral Realtime: für Echtzeitanwendungen
  • Das Realtime-Modell wird unter der Apache-2.0-Lizenz veröffentlicht und kann daher auch in Edge-Umgebungen bereitgestellt werden
  • Über den Audio Playground in Mistral Studio lassen sich Transkriptionen sofort testen

Zusammenfassung der Hauptfunktionen

  • Voxtral Mini Transcribe V2: unterstützt 13 Sprachen, Sprechertrennung, Context Biasing und Wort-für-Wort-Zeitstempel
  • Voxtral Realtime: ermöglicht Echtzeit-Transkription mit unter 200 ms Latenz und eignet sich für Sprachagenten und Echtzeitanwendungen
  • Effizienz: Spitzenklasse bei der Genauigkeit zu den niedrigsten Kosten der Branche
  • Open Weights: Das Realtime-Modell wird unter Apache 2.0 veröffentlicht und ermöglicht datenschutzorientierte Bereitstellungen

Voxtral Realtime

  • Dieses Modell wurde für Anwendungen entwickelt, bei denen Latenz entscheidend ist, und führt Echtzeit-Transkription mit einer Streaming-Architektur durch, statt Audio in Chunks zu verarbeiten
  • Konfigurierbar auf unter 200 ms Latenz, bei 2,4 Sekunden Latenz gleiche Genauigkeit wie das Batch-Modell, bei 480 ms Latenz nur 1–2 % Fehlerrate
  • Unterstützt 13 Sprachen (Englisch, Chinesisch, Hindi, Spanisch, Arabisch, Französisch, Portugiesisch, Russisch, Deutsch, Japanisch, Koreanisch, Italienisch, Niederländisch)
  • Mit 4B Parametern arbeitet es effizient auch auf Edge-Geräten und bietet Sicherheit und Datenschutz
  • Die Modellgewichte sind im Hugging Face Hub verfügbar

Voxtral Mini Transcribe V2

  • Qualität von Transkription und Sprechertrennung wurde über Sprachen und Domänen hinweg deutlich verbessert
  • Bietet laut FLEURS-Benchmark etwa 4 % Word Error Rate und mit $0.003/Minute ein Spitzenverhältnis aus Preis und Leistung
  • Genauer als GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal und Deepgram Nova, dabei dreimal schneller als ElevenLabs Scribe v2 und nur ein Fünftel der Kosten

Enterprise-Funktionen

  • Sprechertrennung (Speaker diarization): unterscheidet Sprecher und markiert Beginn und Ende von Äußerungen; geeignet für Meetings, Interviews und Gespräche mit mehreren Teilnehmern
  • Context Biasing: bis zu 100 Wörter oder Phrasen definierbar, verbessert die Erkennung von Eigennamen und Fachbegriffen (für Englisch optimiert, in anderen Sprachen experimentell)
  • Wort-für-Wort-Zeitstempel: nutzbar für Untertitel, Audiosuche und Content-Ausrichtung
  • Erweiterte Sprachunterstützung: 13 Sprachen, mit starker Leistung auch außerhalb des Englischen im Vergleich zu Konkurrenzmodellen
  • Rauschrobustheit: hält die Genauigkeit auch in lauten Umgebungen wie Fabriken oder Callcentern aufrecht
  • Verarbeitung langer Audiodateien: eine einzelne Anfrage kann Aufnahmen von bis zu 3 Stunden verarbeiten

Audio Playground

  • Voxtral Transcribe 2 kann direkt in Mistral Studio getestet werden
  • Upload von bis zu 10 Audiodateien, mit Einstellungen für Sprechertrennung, Zeitstempel-Einheit und Context Biasing
  • Unterstützte Formate: .mp3, .wav, .m4a, .flac, .ogg, bis zu 1 GB pro Datei

Verschiedene Anwendungsfälle

  • Meeting Intelligence: Analyse großer Mengen an Meeting-Daten durch mehrsprachige Transkription und Sprecherunterscheidung
  • Sprachagenten und virtuelle Assistenten: natürliche dialogorientierte Interfaces mit unter 200 ms Latenz
  • Automatisierung im Contact Center: Echtzeit-Transkription von Anrufen für Stimmungsanalyse, Antwortvorschläge und automatische CRM-Erfassung
  • Medien und Rundfunk: Erstellung mehrsprachiger Live-Untertitel in Echtzeit und verbesserte Erkennung von Eigennamen und Fachbegriffen
  • Compliance und Dokumentation: Audit-Trails auf Basis sprecherbezogener Zeitstempel
  • Beide Modelle unterstützen GDPR- und HIPAA-konforme Bereitstellung und können sicher On-Premises oder in einer Private Cloud betrieben werden

Nutzung und Preise

  • Voxtral Mini Transcribe V2: $0.003/Minute über die API, nutzbar in Mistral Studio oder Le Chat
  • Voxtral Realtime: $0.006/Minute über die API, mit Open Weights auf Hugging Face verfügbar
  • Weitere Informationen sind in der Dokumentation zu Audio- und Transkriptionsfunktionen von Mistral verfügbar

Noch keine Kommentare.

Noch keine Kommentare.