Vorstellung des Modells Voxtral Transcribe 2
(mistral.ai)- Spracherkennung in Echtzeit mit extrem niedriger Latenz und hochpräziser Sprechertrennung in einem Sprach-zu-Text-Modell der nächsten Generation
- Besteht aus zwei Modellen: Voxtral Mini Transcribe V2 für Batch-Verarbeitung und Voxtral Realtime für Echtzeitanwendungen
- Das Realtime-Modell verarbeitet Sprache im Streaming-Verfahren mit unter 200 ms Latenz und wird als Open Weights unter Apache 2.0 veröffentlicht
- Mini Transcribe V2 unterstützt 13 Sprachen einschließlich Koreanisch und bietet Enterprise-Funktionen wie Wort-für-Wort-Zeitstempel, Context Biasing und Sprechertrennung
- Beide Modelle unterstützen GDPR- und HIPAA-konforme Bereitstellung und verbessern Genauigkeit, Geschwindigkeit und Kosteneffizienz sprachbasierter Anwendungen deutlich
Überblick über Voxtral Transcribe 2
- Voxtral Transcribe 2 besteht aus zwei Modellen, die sich durch modernste Spracherkennungsqualität, präzise Sprechertrennung (Diarization) und Verarbeitung mit extrem niedriger Latenz auszeichnen
- Voxtral Mini Transcribe V2: für Batch-Transkription
- Voxtral Realtime: für Echtzeitanwendungen
- Das Realtime-Modell wird unter der Apache-2.0-Lizenz veröffentlicht und kann daher auch in Edge-Umgebungen bereitgestellt werden
- Über den Audio Playground in Mistral Studio lassen sich Transkriptionen sofort testen
Zusammenfassung der Hauptfunktionen
- Voxtral Mini Transcribe V2: unterstützt 13 Sprachen, Sprechertrennung, Context Biasing und Wort-für-Wort-Zeitstempel
- Voxtral Realtime: ermöglicht Echtzeit-Transkription mit unter 200 ms Latenz und eignet sich für Sprachagenten und Echtzeitanwendungen
- Effizienz: Spitzenklasse bei der Genauigkeit zu den niedrigsten Kosten der Branche
- Open Weights: Das Realtime-Modell wird unter Apache 2.0 veröffentlicht und ermöglicht datenschutzorientierte Bereitstellungen
Voxtral Realtime
- Dieses Modell wurde für Anwendungen entwickelt, bei denen Latenz entscheidend ist, und führt Echtzeit-Transkription mit einer Streaming-Architektur durch, statt Audio in Chunks zu verarbeiten
- Konfigurierbar auf unter 200 ms Latenz, bei 2,4 Sekunden Latenz gleiche Genauigkeit wie das Batch-Modell, bei 480 ms Latenz nur 1–2 % Fehlerrate
- Unterstützt 13 Sprachen (Englisch, Chinesisch, Hindi, Spanisch, Arabisch, Französisch, Portugiesisch, Russisch, Deutsch, Japanisch, Koreanisch, Italienisch, Niederländisch)
- Mit 4B Parametern arbeitet es effizient auch auf Edge-Geräten und bietet Sicherheit und Datenschutz
- Die Modellgewichte sind im Hugging Face Hub verfügbar
Voxtral Mini Transcribe V2
- Qualität von Transkription und Sprechertrennung wurde über Sprachen und Domänen hinweg deutlich verbessert
- Bietet laut FLEURS-Benchmark etwa 4 % Word Error Rate und mit $0.003/Minute ein Spitzenverhältnis aus Preis und Leistung
- Genauer als GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal und Deepgram Nova, dabei dreimal schneller als ElevenLabs Scribe v2 und nur ein Fünftel der Kosten
Enterprise-Funktionen
- Sprechertrennung (Speaker diarization): unterscheidet Sprecher und markiert Beginn und Ende von Äußerungen; geeignet für Meetings, Interviews und Gespräche mit mehreren Teilnehmern
- Context Biasing: bis zu 100 Wörter oder Phrasen definierbar, verbessert die Erkennung von Eigennamen und Fachbegriffen (für Englisch optimiert, in anderen Sprachen experimentell)
- Wort-für-Wort-Zeitstempel: nutzbar für Untertitel, Audiosuche und Content-Ausrichtung
- Erweiterte Sprachunterstützung: 13 Sprachen, mit starker Leistung auch außerhalb des Englischen im Vergleich zu Konkurrenzmodellen
- Rauschrobustheit: hält die Genauigkeit auch in lauten Umgebungen wie Fabriken oder Callcentern aufrecht
- Verarbeitung langer Audiodateien: eine einzelne Anfrage kann Aufnahmen von bis zu 3 Stunden verarbeiten
Audio Playground
- Voxtral Transcribe 2 kann direkt in Mistral Studio getestet werden
- Upload von bis zu 10 Audiodateien, mit Einstellungen für Sprechertrennung, Zeitstempel-Einheit und Context Biasing
- Unterstützte Formate: .mp3, .wav, .m4a, .flac, .ogg, bis zu 1 GB pro Datei
Verschiedene Anwendungsfälle
- Meeting Intelligence: Analyse großer Mengen an Meeting-Daten durch mehrsprachige Transkription und Sprecherunterscheidung
- Sprachagenten und virtuelle Assistenten: natürliche dialogorientierte Interfaces mit unter 200 ms Latenz
- Automatisierung im Contact Center: Echtzeit-Transkription von Anrufen für Stimmungsanalyse, Antwortvorschläge und automatische CRM-Erfassung
- Medien und Rundfunk: Erstellung mehrsprachiger Live-Untertitel in Echtzeit und verbesserte Erkennung von Eigennamen und Fachbegriffen
- Compliance und Dokumentation: Audit-Trails auf Basis sprecherbezogener Zeitstempel
- Beide Modelle unterstützen GDPR- und HIPAA-konforme Bereitstellung und können sicher On-Premises oder in einer Private Cloud betrieben werden
Nutzung und Preise
- Voxtral Mini Transcribe V2: $0.003/Minute über die API, nutzbar in Mistral Studio oder Le Chat
- Voxtral Realtime: $0.006/Minute über die API, mit Open Weights auf Hugging Face verfügbar
- Weitere Informationen sind in der Dokumentation zu Audio- und Transkriptionsfunktionen von Mistral verfügbar
1 Kommentare
Hacker-News-Kommentare
Diese Demo war wirklich beeindruckend
Selbst wenn angezeigt wird, dass kein Mikrofon vorhanden ist, funktioniert es sofort, sobald man auf den Aufnahme-Button klickt und der Browser die Berechtigung anfragt
Selbst bei schnellem Sprechen und mit eingestreuten Fachbegriffen transkribiert es präzise. Sogar die Schreibweise von WebAssembly war perfekt
Und dass es auch noch Open Weights hat, ist wirklich großartig
Ich habe sogar zwei Sprachen gleichzeitig gesprochen, und es wurde korrekt erkannt. Wirklich erstaunlich
Die englische Erkennung ist ziemlich gut, aber wenn man Polnisch spricht, wird es als Russisch oder Ukrainisch erkannt
Für ein europäisches Unternehmen sollte die Unterstützung wichtiger europäischer Sprachen besser sein
Als ich Englisch und Polnisch gemischt gesprochen habe, kam ein völlig vermischtes Ergebnis heraus
Es unterstützt 13 Sprachen, und ich frage mich, wie sich Parameteranzahl oder Anforderungen an die Trainingsdaten verändern würden, wenn viele Sprachen mit ähnlichen Wortstämmen dabei sind
Die Werte von 4 % Word Error Rate laut FLEURS und $0.003 pro Minute sind beeindruckend
Amazon Transcribe kostet $0.024 pro Minute, das ist ein großer Unterschied
Zum Beispiel kostet die Whisper-API von fal.ai „$0.00125 pro Compute-Sekunde“, verarbeitet aber mit 10- bis 25-facher Echtzeitgeschwindigkeit und ist dadurch viel günstiger
Dieses Modell ist ein mehrsprachiges Modell, das 14 Sprachen versteht
In den meisten Anwendungsfällen braucht man aber nur eine Sprache, daher könnten die übrigen Sprachen nur die Latenz erhöhen
Ich glaube, künftig wird es einen Trend geben, bei solchen allgemeinen Modellen unnötige Teile wegzuschneiden
Das zugehörige Paper gibt es hier
Zum Beispiel: „voila“, „el camino real“
Intern scheinen sie allerdings eine ähnliche LLM-basierte Architektur zu verwenden
Die Leistung ist gegenüber Deepgram nova-3 konkurrenzfähig und in den meisten Fällen besser als Assembly oder ElevenLabs
In internen Tests wurde mit einem 8-kHz-Telefonie-Datensatz mit stark britischem Akzent evaluiert, und das ist praktisch SOTA
Allerdings war die Latenzverteilung etwas instabil. Bei lokaler Ausführung dürfte sich das verbessern
Ich frage mich, welche Hardware-Ressourcen nötig sind
Es wurde nicht angegeben, ob mehrere High-End-NVIDIA-GPUs nötig sind oder ob es auch offline auf stromsparenden Geräten wie dem ESP32 möglich ist
Ich frage mich, ob das besser ist als Nvidia Parakeet V3. Bisher war dieses Modell für mich lokal das beste
Siehe Modell-Link, Inference-Port und GGUF-Version
Ich dachte, die Sprechertrennung (Diarization) wäre standardmäßig enthalten, aber in der Echtzeitversion war sie nicht vorhanden
Voxtral-Mini-4B-Realtime-2602 ist ein Modell von etwa 9 GB
Ich habe die Demo ausprobiert, und die englische Erkennung ist hervorragend, außerdem erkennt sie Sprachwechsel in Echtzeit
Ukrainisch wird jedoch überhaupt nicht erkannt und immer als Russisch transkribiert
Andere STT-Modelle verarbeiten Ukrainisch gut, daher ist es schade, dass hier offenbar vor allem Russisch in den Trainingsdaten vertreten war
Das Modell ist zwar gut, aber die vorherige Version war Parakeet nicht überlegen
Es braucht einen objektiven Vergleich mit aktuellen Modellen wie Qwen3-ASR
Selektiv ausgewählten Benchmarks von Unternehmen ist mittlerweile schwer zu trauen
Für meinen Anwendungsfall ist Parakeet v3 derzeit am schnellsten und effizientesten
Mich würde interessieren, welche App du auf dem Handy verwendest