Vorstellung des Modells Voxtral Transcribe 2

(mistral.ai)

13 Punkte von GN⁺ 2026-02-05 | 1 Kommentare | Auf WhatsApp teilen

Spracherkennung in Echtzeit mit extrem niedriger Latenz und hochpräziser Sprechertrennung in einem Sprach-zu-Text-Modell der nächsten Generation
Besteht aus zwei Modellen: Voxtral Mini Transcribe V2 für Batch-Verarbeitung und Voxtral Realtime für Echtzeitanwendungen
Das Realtime-Modell verarbeitet Sprache im Streaming-Verfahren mit unter 200 ms Latenz und wird als Open Weights unter Apache 2.0 veröffentlicht
Mini Transcribe V2 unterstützt 13 Sprachen einschließlich Koreanisch und bietet Enterprise-Funktionen wie Wort-für-Wort-Zeitstempel, Context Biasing und Sprechertrennung
Beide Modelle unterstützen GDPR- und HIPAA-konforme Bereitstellung und verbessern Genauigkeit, Geschwindigkeit und Kosteneffizienz sprachbasierter Anwendungen deutlich

Überblick über Voxtral Transcribe 2

Voxtral Transcribe 2 besteht aus zwei Modellen, die sich durch modernste Spracherkennungsqualität, präzise Sprechertrennung (Diarization) und Verarbeitung mit extrem niedriger Latenz auszeichnen
- Voxtral Mini Transcribe V2: für Batch-Transkription
- Voxtral Realtime: für Echtzeitanwendungen
Das Realtime-Modell wird unter der Apache-2.0-Lizenz veröffentlicht und kann daher auch in Edge-Umgebungen bereitgestellt werden
Über den Audio Playground in Mistral Studio lassen sich Transkriptionen sofort testen

Zusammenfassung der Hauptfunktionen

Voxtral Mini Transcribe V2: unterstützt 13 Sprachen, Sprechertrennung, Context Biasing und Wort-für-Wort-Zeitstempel
Voxtral Realtime: ermöglicht Echtzeit-Transkription mit unter 200 ms Latenz und eignet sich für Sprachagenten und Echtzeitanwendungen
Effizienz: Spitzenklasse bei der Genauigkeit zu den niedrigsten Kosten der Branche
Open Weights: Das Realtime-Modell wird unter Apache 2.0 veröffentlicht und ermöglicht datenschutzorientierte Bereitstellungen

Voxtral Realtime

Dieses Modell wurde für Anwendungen entwickelt, bei denen Latenz entscheidend ist, und führt Echtzeit-Transkription mit einer Streaming-Architektur durch, statt Audio in Chunks zu verarbeiten
Konfigurierbar auf unter 200 ms Latenz, bei 2,4 Sekunden Latenz gleiche Genauigkeit wie das Batch-Modell, bei 480 ms Latenz nur 1–2 % Fehlerrate
Unterstützt 13 Sprachen (Englisch, Chinesisch, Hindi, Spanisch, Arabisch, Französisch, Portugiesisch, Russisch, Deutsch, Japanisch, Koreanisch, Italienisch, Niederländisch)
Mit 4B Parametern arbeitet es effizient auch auf Edge-Geräten und bietet Sicherheit und Datenschutz
Die Modellgewichte sind im Hugging Face Hub verfügbar

Voxtral Mini Transcribe V2

Qualität von Transkription und Sprechertrennung wurde über Sprachen und Domänen hinweg deutlich verbessert
Bietet laut FLEURS-Benchmark etwa 4 % Word Error Rate und mit $0.003/Minute ein Spitzenverhältnis aus Preis und Leistung
Genauer als GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal und Deepgram Nova, dabei dreimal schneller als ElevenLabs Scribe v2 und nur ein Fünftel der Kosten

Enterprise-Funktionen

Sprechertrennung (Speaker diarization): unterscheidet Sprecher und markiert Beginn und Ende von Äußerungen; geeignet für Meetings, Interviews und Gespräche mit mehreren Teilnehmern
Context Biasing: bis zu 100 Wörter oder Phrasen definierbar, verbessert die Erkennung von Eigennamen und Fachbegriffen (für Englisch optimiert, in anderen Sprachen experimentell)
Wort-für-Wort-Zeitstempel: nutzbar für Untertitel, Audiosuche und Content-Ausrichtung
Erweiterte Sprachunterstützung: 13 Sprachen, mit starker Leistung auch außerhalb des Englischen im Vergleich zu Konkurrenzmodellen
Rauschrobustheit: hält die Genauigkeit auch in lauten Umgebungen wie Fabriken oder Callcentern aufrecht
Verarbeitung langer Audiodateien: eine einzelne Anfrage kann Aufnahmen von bis zu 3 Stunden verarbeiten

Audio Playground

Voxtral Transcribe 2 kann direkt in Mistral Studio getestet werden
Upload von bis zu 10 Audiodateien, mit Einstellungen für Sprechertrennung, Zeitstempel-Einheit und Context Biasing
Unterstützte Formate: .mp3, .wav, .m4a, .flac, .ogg, bis zu 1 GB pro Datei

Verschiedene Anwendungsfälle

Meeting Intelligence: Analyse großer Mengen an Meeting-Daten durch mehrsprachige Transkription und Sprecherunterscheidung
Sprachagenten und virtuelle Assistenten: natürliche dialogorientierte Interfaces mit unter 200 ms Latenz
Automatisierung im Contact Center: Echtzeit-Transkription von Anrufen für Stimmungsanalyse, Antwortvorschläge und automatische CRM-Erfassung
Medien und Rundfunk: Erstellung mehrsprachiger Live-Untertitel in Echtzeit und verbesserte Erkennung von Eigennamen und Fachbegriffen
Compliance und Dokumentation: Audit-Trails auf Basis sprecherbezogener Zeitstempel

Beide Modelle unterstützen GDPR- und HIPAA-konforme Bereitstellung und können sicher On-Premises oder in einer Private Cloud betrieben werden

Nutzung und Preise

Voxtral Mini Transcribe V2: $0.003/Minute über die API, nutzbar in Mistral Studio oder Le Chat
Voxtral Realtime: $0.006/Minute über die API, mit Open Weights auf Hugging Face verfügbar
Weitere Informationen sind in der Dokumentation zu Audio- und Transkriptionsfunktionen von Mistral verfügbar

1 Kommentare

GN⁺ 2026-02-05

Hacker-News-Kommentare

Diese Demo war wirklich beeindruckend
Selbst wenn angezeigt wird, dass kein Mikrofon vorhanden ist, funktioniert es sofort, sobald man auf den Aufnahme-Button klickt und der Browser die Berechtigung anfragt
Selbst bei schnellem Sprechen und mit eingestreuten Fachbegriffen transkribiert es präzise. Sogar die Schreibweise von WebAssembly war perfekt
- Ich habe in den letzten drei Jahren fast alle Sprachmodelle ausprobiert, und das hier ist mit Abstand das Beste, was ich bisher gesehen habe
  Und dass es auch noch Open Weights hat, ist wirklich großartig
- Danke für den Link. Im Standard-Playground von Mistral kann man nur Dateien hochladen, daher war es schwer, ein Gefühl für Geschwindigkeit und Genauigkeit zu bekommen, aber dieser Link zeigt die Echtzeit-Performance richtig gut
  Ich habe sogar zwei Sprachen gleichzeitig gesprochen, und es wurde korrekt erkannt. Wirklich erstaunlich
- Bei mir hat es nicht funktioniert. Sowohl in Firefox als auch in Chromium war die Wellenform zu sehen, aber es stand nur „Awaiting audio input“ da
- Dieser API-Link wirft einen 404-Fehler. Oben rechts in der UI wird ein roter Fehler angezeigt
- Die Geschwindigkeit ist beeindruckend genug, dass sogar Eminems schnelle Rap-Passagen in Echtzeit transkribiert werden
Die englische Erkennung ist ziemlich gut, aber wenn man Polnisch spricht, wird es als Russisch oder Ukrainisch erkannt
Für ein europäisches Unternehmen sollte die Unterstützung wichtiger europäischer Sprachen besser sein
Als ich Englisch und Polnisch gemischt gesprochen habe, kam ein völlig vermischtes Ergebnis heraus
- Es ist ausdrücklich angegeben, dass das Modell Polnisch nicht unterstützt, wohl aber Russisch
  Es unterstützt 13 Sprachen, und ich frage mich, wie sich Parameteranzahl oder Anforderungen an die Trainingsdaten verändern würden, wenn viele Sprachen mit ähnlichen Wortstämmen dabei sind
- Ich würde empfehlen, nur mit Sprachen aus der Liste der unterstützten Sprachen zu testen
- Schade, wenn die Leistung nur in bestimmten Sprachen gut ist. Offiziell werden nur 13 Sprachen stark unterstützt
- Wenn man Polnisch und Ukrainisch mischt, kommt das Ergebnis auf Russisch heraus. Selbst wenn man nur Ukrainisch spricht, wird es immer als Russisch transkribiert, was enttäuschend ist
- Polnisch ließe sich aufgrund seiner phonologischen Struktur eigentlich natürlicher in kyrillischer Schrift darstellen, historisch ist das aber nicht so. Solche Dinge scheinen KI zu verwirren
Die Werte von 4 % Word Error Rate laut FLEURS und $0.003 pro Minute sind beeindruckend
Amazon Transcribe kostet $0.024 pro Minute, das ist ein großer Unterschied
- Ich frage mich allerdings, ob dieser Preis pro Audiominute oder pro Compute-Minute gilt
  Zum Beispiel kostet die Whisper-API von fal.ai „$0.00125 pro Compute-Sekunde“, verarbeitet aber mit 10- bis 25-facher Echtzeitgeschwindigkeit und ist dadurch viel günstiger
Dieses Modell ist ein mehrsprachiges Modell, das 14 Sprachen versteht
In den meisten Anwendungsfällen braucht man aber nur eine Sprache, daher könnten die übrigen Sprachen nur die Latenz erhöhen
Ich glaube, künftig wird es einen Trend geben, bei solchen allgemeinen Modellen unnötige Teile wegzuschneiden
Das zugehörige Paper gibt es hier
- Wegen vieler Lehnwörter zwischen Sprachen könnten mehrsprachige Modelle aber im Gegenteil sogar hilfreich sein
  Zum Beispiel: „voila“, „el camino real“
- Dieses Modell scheint gleichzeitig Effizienz und Genauigkeit bewiesen zu haben
- Bestehende STT-Dienste wie Azure, Google und Amazon verlangen zwar, dass man die Sprache angibt, aber die Qualität ist weiterhin hoch
  Intern scheinen sie allerdings eine ähnliche LLM-basierte Architektur zu verwenden
- Menschen verwenden nicht nur eine Sprache. Code-Switching ist natürlich, daher haben einsprachige Modelle ihre Grenzen
- Lustig ist, dass der obige Kommentar die Zahl der Sprachen reduzieren will, während sich andere Kommentare darüber beklagen, dass es zu wenige Sprachen gibt
Die Leistung ist gegenüber Deepgram nova-3 konkurrenzfähig und in den meisten Fällen besser als Assembly oder ElevenLabs
In internen Tests wurde mit einem 8-kHz-Telefonie-Datensatz mit stark britischem Akzent evaluiert, und das ist praktisch SOTA
Allerdings war die Latenzverteilung etwas instabil. Bei lokaler Ausführung dürfte sich das verbessern
Ich frage mich, welche Hardware-Ressourcen nötig sind
Es wurde nicht angegeben, ob mehrere High-End-NVIDIA-GPUs nötig sind oder ob es auch offline auf stromsparenden Geräten wie dem ESP32 möglich ist
Ich frage mich, ob das besser ist als Nvidia Parakeet V3. Bisher war dieses Modell für mich lokal das beste
- Ich habe Nemotron ASR selbst portiert und nutze es zufrieden
  Siehe Modell-Link, Inference-Port und GGUF-Version
- Ich habe Parakeet V3 lokal verwendet, und gefühlt ist dieses Modell etwas langsamer, aber die Genauigkeit ist höher
- Ich mochte Parakeet v3, aber manchmal hat es ganze Sätze komplett ausgelassen
- Parakeet hat 0.6B und läuft deshalb auch auf Edge-Geräten. Voxtral hat 4B, daher scheint Echtzeitbetrieb auf Orin oder Hailo schwierig zu sein
- Genau diese Frage wollte ich auch stellen!
Ich dachte, die Sprechertrennung (Diarization) wäre standardmäßig enthalten, aber in der Echtzeitversion war sie nicht vorhanden
Voxtral-Mini-4B-Realtime-2602 ist ein Modell von etwa 9 GB
- Sprechertrennung ist nur in der Version Voxtral Mini Transcribe V2 enthalten
Ich habe die Demo ausprobiert, und die englische Erkennung ist hervorragend, außerdem erkennt sie Sprachwechsel in Echtzeit
Ukrainisch wird jedoch überhaupt nicht erkannt und immer als Russisch transkribiert
Andere STT-Modelle verarbeiten Ukrainisch gut, daher ist es schade, dass hier offenbar vor allem Russisch in den Trainingsdaten vertreten war
- Da das Modell nur Russisch unterstützt, wird eingegebenes Ukrainisch auf die nächstliegenden russischen Wörter abgebildet
Das Modell ist zwar gut, aber die vorherige Version war Parakeet nicht überlegen
Es braucht einen objektiven Vergleich mit aktuellen Modellen wie Qwen3-ASR
Selektiv ausgewählten Benchmarks von Unternehmen ist mittlerweile schwer zu trauen
Für meinen Anwendungsfall ist Parakeet v3 derzeit am schnellsten und effizientesten
- Es gibt das Open ASR Leaderboard, aber es wurde seit einem halben Jahr nicht aktualisiert
- Ich mag Parakeet auch und nutze es auf dem Mac in der Handy-App.
  Mich würde interessieren, welche App du auf dem Handy verwendest

Vorstellung des Modells Voxtral Transcribe 2

Überblick über Voxtral Transcribe 2

Zusammenfassung der Hauptfunktionen

Voxtral Realtime

Voxtral Mini Transcribe V2

Enterprise-Funktionen

Audio Playground

Verschiedene Anwendungsfälle

Nutzung und Preise

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare