- Spracherkennung in Echtzeit mit extrem niedriger Latenz und hochpräziser Sprechertrennung in einem Sprach-zu-Text-Modell der nächsten Generation
- Besteht aus zwei Modellen: Voxtral Mini Transcribe V2 für Batch-Verarbeitung und Voxtral Realtime für Echtzeitanwendungen
- Das Realtime-Modell verarbeitet Sprache im Streaming-Verfahren mit unter 200 ms Latenz und wird als Open Weights unter Apache 2.0 veröffentlicht
- Mini Transcribe V2 unterstützt 13 Sprachen einschließlich Koreanisch und bietet Enterprise-Funktionen wie Wort-für-Wort-Zeitstempel, Context Biasing und Sprechertrennung
- Beide Modelle unterstützen GDPR- und HIPAA-konforme Bereitstellung und verbessern Genauigkeit, Geschwindigkeit und Kosteneffizienz sprachbasierter Anwendungen deutlich
Überblick über Voxtral Transcribe 2
- Voxtral Transcribe 2 besteht aus zwei Modellen, die sich durch modernste Spracherkennungsqualität, präzise Sprechertrennung (Diarization) und Verarbeitung mit extrem niedriger Latenz auszeichnen
- Voxtral Mini Transcribe V2: für Batch-Transkription
- Voxtral Realtime: für Echtzeitanwendungen
- Das Realtime-Modell wird unter der Apache-2.0-Lizenz veröffentlicht und kann daher auch in Edge-Umgebungen bereitgestellt werden
- Über den Audio Playground in Mistral Studio lassen sich Transkriptionen sofort testen
Zusammenfassung der Hauptfunktionen
- Voxtral Mini Transcribe V2: unterstützt 13 Sprachen, Sprechertrennung, Context Biasing und Wort-für-Wort-Zeitstempel
- Voxtral Realtime: ermöglicht Echtzeit-Transkription mit unter 200 ms Latenz und eignet sich für Sprachagenten und Echtzeitanwendungen
- Effizienz: Spitzenklasse bei der Genauigkeit zu den niedrigsten Kosten der Branche
- Open Weights: Das Realtime-Modell wird unter Apache 2.0 veröffentlicht und ermöglicht datenschutzorientierte Bereitstellungen
Voxtral Realtime
- Dieses Modell wurde für Anwendungen entwickelt, bei denen Latenz entscheidend ist, und führt Echtzeit-Transkription mit einer Streaming-Architektur durch, statt Audio in Chunks zu verarbeiten
- Konfigurierbar auf unter 200 ms Latenz, bei 2,4 Sekunden Latenz gleiche Genauigkeit wie das Batch-Modell, bei 480 ms Latenz nur 1–2 % Fehlerrate
- Unterstützt 13 Sprachen (Englisch, Chinesisch, Hindi, Spanisch, Arabisch, Französisch, Portugiesisch, Russisch, Deutsch, Japanisch, Koreanisch, Italienisch, Niederländisch)
- Mit 4B Parametern arbeitet es effizient auch auf Edge-Geräten und bietet Sicherheit und Datenschutz
- Die Modellgewichte sind im Hugging Face Hub verfügbar
Voxtral Mini Transcribe V2
- Qualität von Transkription und Sprechertrennung wurde über Sprachen und Domänen hinweg deutlich verbessert
- Bietet laut FLEURS-Benchmark etwa 4 % Word Error Rate und mit $0.003/Minute ein Spitzenverhältnis aus Preis und Leistung
- Genauer als GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal und Deepgram Nova, dabei dreimal schneller als ElevenLabs Scribe v2 und nur ein Fünftel der Kosten
Enterprise-Funktionen
- Sprechertrennung (Speaker diarization): unterscheidet Sprecher und markiert Beginn und Ende von Äußerungen; geeignet für Meetings, Interviews und Gespräche mit mehreren Teilnehmern
- Context Biasing: bis zu 100 Wörter oder Phrasen definierbar, verbessert die Erkennung von Eigennamen und Fachbegriffen (für Englisch optimiert, in anderen Sprachen experimentell)
- Wort-für-Wort-Zeitstempel: nutzbar für Untertitel, Audiosuche und Content-Ausrichtung
- Erweiterte Sprachunterstützung: 13 Sprachen, mit starker Leistung auch außerhalb des Englischen im Vergleich zu Konkurrenzmodellen
- Rauschrobustheit: hält die Genauigkeit auch in lauten Umgebungen wie Fabriken oder Callcentern aufrecht
- Verarbeitung langer Audiodateien: eine einzelne Anfrage kann Aufnahmen von bis zu 3 Stunden verarbeiten
Audio Playground
- Voxtral Transcribe 2 kann direkt in Mistral Studio getestet werden
- Upload von bis zu 10 Audiodateien, mit Einstellungen für Sprechertrennung, Zeitstempel-Einheit und Context Biasing
- Unterstützte Formate: .mp3, .wav, .m4a, .flac, .ogg, bis zu 1 GB pro Datei
Verschiedene Anwendungsfälle
- Meeting Intelligence: Analyse großer Mengen an Meeting-Daten durch mehrsprachige Transkription und Sprecherunterscheidung
- Sprachagenten und virtuelle Assistenten: natürliche dialogorientierte Interfaces mit unter 200 ms Latenz
- Automatisierung im Contact Center: Echtzeit-Transkription von Anrufen für Stimmungsanalyse, Antwortvorschläge und automatische CRM-Erfassung
- Medien und Rundfunk: Erstellung mehrsprachiger Live-Untertitel in Echtzeit und verbesserte Erkennung von Eigennamen und Fachbegriffen
- Compliance und Dokumentation: Audit-Trails auf Basis sprecherbezogener Zeitstempel
- Beide Modelle unterstützen GDPR- und HIPAA-konforme Bereitstellung und können sicher On-Premises oder in einer Private Cloud betrieben werden
Nutzung und Preise
- Voxtral Mini Transcribe V2: $0.003/Minute über die API, nutzbar in Mistral Studio oder Le Chat
- Voxtral Realtime: $0.006/Minute über die API, mit Open Weights auf Hugging Face verfügbar
- Weitere Informationen sind in der Dokumentation zu Audio- und Transkriptionsfunktionen von Mistral verfügbar
Noch keine Kommentare.