13 Punkte von GN⁺ 2026-02-05 | 1 Kommentare | Auf WhatsApp teilen
  • Spracherkennung in Echtzeit mit extrem niedriger Latenz und hochpräziser Sprechertrennung in einem Sprach-zu-Text-Modell der nächsten Generation
  • Besteht aus zwei Modellen: Voxtral Mini Transcribe V2 für Batch-Verarbeitung und Voxtral Realtime für Echtzeitanwendungen
  • Das Realtime-Modell verarbeitet Sprache im Streaming-Verfahren mit unter 200 ms Latenz und wird als Open Weights unter Apache 2.0 veröffentlicht
  • Mini Transcribe V2 unterstützt 13 Sprachen einschließlich Koreanisch und bietet Enterprise-Funktionen wie Wort-für-Wort-Zeitstempel, Context Biasing und Sprechertrennung
  • Beide Modelle unterstützen GDPR- und HIPAA-konforme Bereitstellung und verbessern Genauigkeit, Geschwindigkeit und Kosteneffizienz sprachbasierter Anwendungen deutlich

Überblick über Voxtral Transcribe 2

  • Voxtral Transcribe 2 besteht aus zwei Modellen, die sich durch modernste Spracherkennungsqualität, präzise Sprechertrennung (Diarization) und Verarbeitung mit extrem niedriger Latenz auszeichnen
    • Voxtral Mini Transcribe V2: für Batch-Transkription
    • Voxtral Realtime: für Echtzeitanwendungen
  • Das Realtime-Modell wird unter der Apache-2.0-Lizenz veröffentlicht und kann daher auch in Edge-Umgebungen bereitgestellt werden
  • Über den Audio Playground in Mistral Studio lassen sich Transkriptionen sofort testen

Zusammenfassung der Hauptfunktionen

  • Voxtral Mini Transcribe V2: unterstützt 13 Sprachen, Sprechertrennung, Context Biasing und Wort-für-Wort-Zeitstempel
  • Voxtral Realtime: ermöglicht Echtzeit-Transkription mit unter 200 ms Latenz und eignet sich für Sprachagenten und Echtzeitanwendungen
  • Effizienz: Spitzenklasse bei der Genauigkeit zu den niedrigsten Kosten der Branche
  • Open Weights: Das Realtime-Modell wird unter Apache 2.0 veröffentlicht und ermöglicht datenschutzorientierte Bereitstellungen

Voxtral Realtime

  • Dieses Modell wurde für Anwendungen entwickelt, bei denen Latenz entscheidend ist, und führt Echtzeit-Transkription mit einer Streaming-Architektur durch, statt Audio in Chunks zu verarbeiten
  • Konfigurierbar auf unter 200 ms Latenz, bei 2,4 Sekunden Latenz gleiche Genauigkeit wie das Batch-Modell, bei 480 ms Latenz nur 1–2 % Fehlerrate
  • Unterstützt 13 Sprachen (Englisch, Chinesisch, Hindi, Spanisch, Arabisch, Französisch, Portugiesisch, Russisch, Deutsch, Japanisch, Koreanisch, Italienisch, Niederländisch)
  • Mit 4B Parametern arbeitet es effizient auch auf Edge-Geräten und bietet Sicherheit und Datenschutz
  • Die Modellgewichte sind im Hugging Face Hub verfügbar

Voxtral Mini Transcribe V2

  • Qualität von Transkription und Sprechertrennung wurde über Sprachen und Domänen hinweg deutlich verbessert
  • Bietet laut FLEURS-Benchmark etwa 4 % Word Error Rate und mit $0.003/Minute ein Spitzenverhältnis aus Preis und Leistung
  • Genauer als GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal und Deepgram Nova, dabei dreimal schneller als ElevenLabs Scribe v2 und nur ein Fünftel der Kosten

Enterprise-Funktionen

  • Sprechertrennung (Speaker diarization): unterscheidet Sprecher und markiert Beginn und Ende von Äußerungen; geeignet für Meetings, Interviews und Gespräche mit mehreren Teilnehmern
  • Context Biasing: bis zu 100 Wörter oder Phrasen definierbar, verbessert die Erkennung von Eigennamen und Fachbegriffen (für Englisch optimiert, in anderen Sprachen experimentell)
  • Wort-für-Wort-Zeitstempel: nutzbar für Untertitel, Audiosuche und Content-Ausrichtung
  • Erweiterte Sprachunterstützung: 13 Sprachen, mit starker Leistung auch außerhalb des Englischen im Vergleich zu Konkurrenzmodellen
  • Rauschrobustheit: hält die Genauigkeit auch in lauten Umgebungen wie Fabriken oder Callcentern aufrecht
  • Verarbeitung langer Audiodateien: eine einzelne Anfrage kann Aufnahmen von bis zu 3 Stunden verarbeiten

Audio Playground

  • Voxtral Transcribe 2 kann direkt in Mistral Studio getestet werden
  • Upload von bis zu 10 Audiodateien, mit Einstellungen für Sprechertrennung, Zeitstempel-Einheit und Context Biasing
  • Unterstützte Formate: .mp3, .wav, .m4a, .flac, .ogg, bis zu 1 GB pro Datei

Verschiedene Anwendungsfälle

  • Meeting Intelligence: Analyse großer Mengen an Meeting-Daten durch mehrsprachige Transkription und Sprecherunterscheidung
  • Sprachagenten und virtuelle Assistenten: natürliche dialogorientierte Interfaces mit unter 200 ms Latenz
  • Automatisierung im Contact Center: Echtzeit-Transkription von Anrufen für Stimmungsanalyse, Antwortvorschläge und automatische CRM-Erfassung
  • Medien und Rundfunk: Erstellung mehrsprachiger Live-Untertitel in Echtzeit und verbesserte Erkennung von Eigennamen und Fachbegriffen
  • Compliance und Dokumentation: Audit-Trails auf Basis sprecherbezogener Zeitstempel
  • Beide Modelle unterstützen GDPR- und HIPAA-konforme Bereitstellung und können sicher On-Premises oder in einer Private Cloud betrieben werden

Nutzung und Preise

  • Voxtral Mini Transcribe V2: $0.003/Minute über die API, nutzbar in Mistral Studio oder Le Chat
  • Voxtral Realtime: $0.006/Minute über die API, mit Open Weights auf Hugging Face verfügbar
  • Weitere Informationen sind in der Dokumentation zu Audio- und Transkriptionsfunktionen von Mistral verfügbar

1 Kommentare

 
GN⁺ 2026-02-05
Hacker-News-Kommentare
  • Diese Demo war wirklich beeindruckend
    Selbst wenn angezeigt wird, dass kein Mikrofon vorhanden ist, funktioniert es sofort, sobald man auf den Aufnahme-Button klickt und der Browser die Berechtigung anfragt
    Selbst bei schnellem Sprechen und mit eingestreuten Fachbegriffen transkribiert es präzise. Sogar die Schreibweise von WebAssembly war perfekt

    • Ich habe in den letzten drei Jahren fast alle Sprachmodelle ausprobiert, und das hier ist mit Abstand das Beste, was ich bisher gesehen habe
      Und dass es auch noch Open Weights hat, ist wirklich großartig
    • Danke für den Link. Im Standard-Playground von Mistral kann man nur Dateien hochladen, daher war es schwer, ein Gefühl für Geschwindigkeit und Genauigkeit zu bekommen, aber dieser Link zeigt die Echtzeit-Performance richtig gut
      Ich habe sogar zwei Sprachen gleichzeitig gesprochen, und es wurde korrekt erkannt. Wirklich erstaunlich
    • Bei mir hat es nicht funktioniert. Sowohl in Firefox als auch in Chromium war die Wellenform zu sehen, aber es stand nur „Awaiting audio input“ da
    • Dieser API-Link wirft einen 404-Fehler. Oben rechts in der UI wird ein roter Fehler angezeigt
    • Die Geschwindigkeit ist beeindruckend genug, dass sogar Eminems schnelle Rap-Passagen in Echtzeit transkribiert werden
  • Die englische Erkennung ist ziemlich gut, aber wenn man Polnisch spricht, wird es als Russisch oder Ukrainisch erkannt
    Für ein europäisches Unternehmen sollte die Unterstützung wichtiger europäischer Sprachen besser sein
    Als ich Englisch und Polnisch gemischt gesprochen habe, kam ein völlig vermischtes Ergebnis heraus

    • Es ist ausdrücklich angegeben, dass das Modell Polnisch nicht unterstützt, wohl aber Russisch
      Es unterstützt 13 Sprachen, und ich frage mich, wie sich Parameteranzahl oder Anforderungen an die Trainingsdaten verändern würden, wenn viele Sprachen mit ähnlichen Wortstämmen dabei sind
    • Ich würde empfehlen, nur mit Sprachen aus der Liste der unterstützten Sprachen zu testen
    • Schade, wenn die Leistung nur in bestimmten Sprachen gut ist. Offiziell werden nur 13 Sprachen stark unterstützt
    • Wenn man Polnisch und Ukrainisch mischt, kommt das Ergebnis auf Russisch heraus. Selbst wenn man nur Ukrainisch spricht, wird es immer als Russisch transkribiert, was enttäuschend ist
    • Polnisch ließe sich aufgrund seiner phonologischen Struktur eigentlich natürlicher in kyrillischer Schrift darstellen, historisch ist das aber nicht so. Solche Dinge scheinen KI zu verwirren
  • Die Werte von 4 % Word Error Rate laut FLEURS und $0.003 pro Minute sind beeindruckend
    Amazon Transcribe kostet $0.024 pro Minute, das ist ein großer Unterschied

    • Ich frage mich allerdings, ob dieser Preis pro Audiominute oder pro Compute-Minute gilt
      Zum Beispiel kostet die Whisper-API von fal.ai „$0.00125 pro Compute-Sekunde“, verarbeitet aber mit 10- bis 25-facher Echtzeitgeschwindigkeit und ist dadurch viel günstiger
  • Dieses Modell ist ein mehrsprachiges Modell, das 14 Sprachen versteht
    In den meisten Anwendungsfällen braucht man aber nur eine Sprache, daher könnten die übrigen Sprachen nur die Latenz erhöhen
    Ich glaube, künftig wird es einen Trend geben, bei solchen allgemeinen Modellen unnötige Teile wegzuschneiden
    Das zugehörige Paper gibt es hier

    • Wegen vieler Lehnwörter zwischen Sprachen könnten mehrsprachige Modelle aber im Gegenteil sogar hilfreich sein
      Zum Beispiel: „voila“, „el camino real“
    • Dieses Modell scheint gleichzeitig Effizienz und Genauigkeit bewiesen zu haben
    • Bestehende STT-Dienste wie Azure, Google und Amazon verlangen zwar, dass man die Sprache angibt, aber die Qualität ist weiterhin hoch
      Intern scheinen sie allerdings eine ähnliche LLM-basierte Architektur zu verwenden
    • Menschen verwenden nicht nur eine Sprache. Code-Switching ist natürlich, daher haben einsprachige Modelle ihre Grenzen
    • Lustig ist, dass der obige Kommentar die Zahl der Sprachen reduzieren will, während sich andere Kommentare darüber beklagen, dass es zu wenige Sprachen gibt
  • Die Leistung ist gegenüber Deepgram nova-3 konkurrenzfähig und in den meisten Fällen besser als Assembly oder ElevenLabs
    In internen Tests wurde mit einem 8-kHz-Telefonie-Datensatz mit stark britischem Akzent evaluiert, und das ist praktisch SOTA
    Allerdings war die Latenzverteilung etwas instabil. Bei lokaler Ausführung dürfte sich das verbessern

  • Ich frage mich, welche Hardware-Ressourcen nötig sind
    Es wurde nicht angegeben, ob mehrere High-End-NVIDIA-GPUs nötig sind oder ob es auch offline auf stromsparenden Geräten wie dem ESP32 möglich ist

  • Ich frage mich, ob das besser ist als Nvidia Parakeet V3. Bisher war dieses Modell für mich lokal das beste

    • Ich habe Nemotron ASR selbst portiert und nutze es zufrieden
      Siehe Modell-Link, Inference-Port und GGUF-Version
    • Ich habe Parakeet V3 lokal verwendet, und gefühlt ist dieses Modell etwas langsamer, aber die Genauigkeit ist höher
    • Ich mochte Parakeet v3, aber manchmal hat es ganze Sätze komplett ausgelassen
    • Parakeet hat 0.6B und läuft deshalb auch auf Edge-Geräten. Voxtral hat 4B, daher scheint Echtzeitbetrieb auf Orin oder Hailo schwierig zu sein
    • Genau diese Frage wollte ich auch stellen!
  • Ich dachte, die Sprechertrennung (Diarization) wäre standardmäßig enthalten, aber in der Echtzeitversion war sie nicht vorhanden
    Voxtral-Mini-4B-Realtime-2602 ist ein Modell von etwa 9 GB

    • Sprechertrennung ist nur in der Version Voxtral Mini Transcribe V2 enthalten
  • Ich habe die Demo ausprobiert, und die englische Erkennung ist hervorragend, außerdem erkennt sie Sprachwechsel in Echtzeit
    Ukrainisch wird jedoch überhaupt nicht erkannt und immer als Russisch transkribiert
    Andere STT-Modelle verarbeiten Ukrainisch gut, daher ist es schade, dass hier offenbar vor allem Russisch in den Trainingsdaten vertreten war

    • Da das Modell nur Russisch unterstützt, wird eingegebenes Ukrainisch auf die nächstliegenden russischen Wörter abgebildet
  • Das Modell ist zwar gut, aber die vorherige Version war Parakeet nicht überlegen
    Es braucht einen objektiven Vergleich mit aktuellen Modellen wie Qwen3-ASR
    Selektiv ausgewählten Benchmarks von Unternehmen ist mittlerweile schwer zu trauen
    Für meinen Anwendungsfall ist Parakeet v3 derzeit am schnellsten und effizientesten

    • Es gibt das Open ASR Leaderboard, aber es wurde seit einem halben Jahr nicht aktualisiert
    • Ich mag Parakeet auch und nutze es auf dem Mac in der Handy-App.
      Mich würde interessieren, welche App du auf dem Handy verwendest