- Ein modernes automatisches Spracherkennungsmodell (ASR) mit 2B (2 Milliarden) Parametern, das 14 Sprachen unterstützt, darunter Englisch, Koreanisch und Chinesisch
- Nutzt eine Conformer-basierte Encoder-Decoder-Architektur und wird unter der Apache-2.0-Lizenz veröffentlicht
- Erzielt im Englischen eine durchschnittliche Word Error Rate (WER) von 5,42 %, übertrifft damit wichtige Konkurrenzmodelle wie Whisper Large v3 und erreicht Platz 1 im Hugging Face Open ASR Leaderboard
- Zeigt sowohl in Real-World-Evaluierungen als auch in menschlichen Bewertungen hohe Genauigkeit und Konsistenz und liefert auch bei mehrsprachiger Transkription stabile Leistung
- Vereint geringe Latenz und hohe Verarbeitungseffizienz und eignet sich damit für Echtzeitprodukte und Workflows
Überblick über Cohere Transcribe
- Sprache entwickelt sich zu einer zentralen Eingabeform für AI-basierte Arbeitsautomatisierung, etwa für Meeting-Protokolle, Sprachanalyse und Echtzeit-Kundensupport
- Das Modell wurde von Grund auf mit dem Ziel trainiert, die Word Error Rate (WER) zu minimieren, und ist nicht nur für die Forschung, sondern ausdrücklich für den Einsatz in realen Service-Umgebungen konzipiert
- Effiziente Inferenz ist sowohl auf GPUs als auch in lokalen Umgebungen möglich; außerdem ist das Modell auf Cohere’s gemanagter Inferenzplattform Model Vault verfügbar
- Mit Platz 1 bei der Genauigkeit im Open ASR Leaderboard von Hugging Face setzt es einen neuen Maßstab für Transkriptionsleistung in realen Umgebungen
Modellarchitektur
- Der Modellname lautet cohere-transcribe-03-2026 und es verwendet eine Conformer-basierte Encoder-Decoder-Architektur
- Die Eingabe besteht aus Audiosignalen, die in log-Mel-Spektrogramme umgewandelt werden, die Ausgabe ist der transkribierte Text
- Ein großer Conformer-Encoder mit 2B (2 Milliarden) Parametern extrahiert akustische Repräsentationen, während ein leichter Transformer-Decoder die Token erzeugt
- Das Training erfolgte von Grund auf überwacht mit standardisiertem Kreuzentropie-Verlust
-
Unterstützung für 14 Sprachen
- Europa: Englisch, Französisch, Deutsch, Italienisch, Spanisch, Portugiesisch, Griechisch, Niederländisch, Polnisch
- Asien-Pazifik: Chinesisch (Mandarin), Japanisch, Koreanisch, Vietnamesisch
- Naher Osten und Nordafrika: Arabisch
- Veröffentlicht unter der Apache-2.0-Lizenz
Modellleistung
- Erreicht einen modernen Spitzenstandard bei der englischen Spracherkennungsgenauigkeit; mit einer durchschnittlichen WER von 5,42 % liefert es die beste Leistung unter offenen und proprietären ASR-Modellen
- Übertrifft wichtige Konkurrenzmodelle wie Whisper Large v3, ElevenLabs Scribe v2 und Qwen3-ASR-1.7B
- Liefert auch in unterschiedlichsten realen Umgebungen robuste Leistung, etwa bei mehreren Sprechern, Meetingraum-Akustik und verschiedenen Akzenten
- Wichtige Benchmark-Ergebnisse
- AMI: 8.13, LS clean: 1.25, LS other: 2.37, Voxpopuli: 5.87
- Mit einer durchschnittlichen WER von 5,42 ist es besser als Zoom Scribe v1 (5.47), IBM Granite 4.0 (5.52) und NVIDIA Canary Qwen 2.5B (5.63)
- Das Hugging Face Open ASR Leaderboard bewertet anhand standardisierter WER über mehrere Datensätze hinweg; eine niedrige WER bedeutet dabei höhere Transkriptionsgenauigkeit
Ergebnisse menschlicher Bewertungen
- Auch in Real-World-Evaluierungen außerhalb klassischer Benchmarks wurde dieselbe starke Leistung bestätigt
- Erfahrene Evaluatoren bewerteten die Transkriptionsergebnisse realer Audiodaten anhand von Genauigkeit, Konsistenz und Nutzbarkeit
- Sowohl automatische als auch menschliche Bewertungen zeigten durchgängig starke Ergebnisse
- In Vergleichsbewertungen zur Qualität englischer Transkriptionen erzielte das Modell hohe Präferenzwerte bei Bedeutungserhalt, Vermeidung von Halluzinationen, Erkennung von Eigennamen und Formatierungsgenauigkeit
- Auch in menschlichen Bewertungen je unterstützter Sprache erreichte es Präferenzraten von über 50 % und bewies damit stabile Leistung in mehrsprachigen Umgebungen
Verarbeitungsgeschwindigkeit und Effizienz
- In realen Service-Umgebungen sind Latenz und Durchsatz zentrale Einschränkungen
- Selbst bei hoher Genauigkeit wirken sich langsame Verarbeitung oder hoher Ressourcenverbrauch direkt auf Nutzererlebnis und Kosten aus
- Cohere Transcribe hält innerhalb der Modellklasse mit mehr als 1B Parametern ein Spitzenniveau bei der Verarbeitungseffizienz und erreicht gleichzeitig niedrige WER und hohe RTFx-Werte (Real-Time-Faktor)
- RTFx ist ein Maß dafür, wie viel schneller Audioeingaben im Vergleich zur Echtzeit verarbeitet werden; Transcribe erweitert damit die Pareto-Front sowohl bei Genauigkeit als auch bei Geschwindigkeit
-
Bewertung von Radical Ventures
- Paige Dickie, Vice President bei Radical Ventures, bewertete Geschwindigkeit und Qualität von Transcribe sehr positiv
- Sie erklärte, das Modell transkribiere Audio von mehreren Minuten Länge in wenigen Sekunden und eröffne damit neue Möglichkeiten für Echtzeitprodukte und Workflows
- Auch bei alltäglicher Sprache liefere es starke und zuverlässige Transkriptionsqualität, und die Nutzungserfahrung sei reibungslos gewesen
Weitere Entwicklung
- Cohere plant, Transcribe in die AI-Agent-Orchestrierungsplattform North zu integrieren
- Künftig soll Transcribe über ein reines Transkriptionsmodell hinaus zu einer Grundlage für Enterprise-Sprachintelligenz ausgebaut werden
Nutzung und Bereitstellung
- Das Modell kann über Hugging Face heruntergeladen werden und lässt sich auch lokal oder in Edge-Umgebungen ausführen
- Über die Cohere API kann kostenlos damit experimentiert werden, es gelten jedoch Request-Limits
- Eine Anleitung zur Nutzung und Integration steht in der offiziellen Dokumentation bereit
- Mit Model Vault ist latenzarme Inferenz in einer privaten Cloud ohne Infrastrukturmanagement möglich
- Es gilt ein stundenbasiertes Instanz-Preismodell, bei längerer Nutzung werden Rabatte angeboten
- Anfragen zur Enterprise-Bereitstellung sind über das Vertriebsteam von Cohere möglich
2 Kommentare
Ist es nicht Open Source, sondern ein kostenpflichtiger Dienst?
Hacker-News-Kommentare
Ich mache mir Sorgen, dass ASR (automatische Spracherkennung) am Ende wie OCR wird
Wenn multimodale große KI-Modelle schnell genug sind und Kontext tief genug verstehen, scheinen sie bestehende Technologien einfach zu absorbieren
Bei OCR ist es schon so, dass die KI selbst bei unscharf gescanntem Text aus der Bedeutung des Dokuments schließt und Muster wie „Die Bestell-ID steht normalerweise unter dem Bestelldatum“ erkennt
Wenn ASR auf diese Weise kontextbasiert zu „raten“ beginnt, besteht das Risiko, die tatsächliche Sprache zu verfälschen
Gute ASR versteht auch verrauschte Sprache, die ich selbst kaum verstehe, korrigiert aber manchmal zu stark und ersetzt seltene Wörter durch häufige
Auch bei OCR können wie im Xerox-Fall plausibel wirkende, aber falsche Daten entstehen
Deshalb nutze ich OCR nur für die Suche und bewahre den Originalscan immer auf
Multimodale LLMs wie gpt-4o-transcribe sind viel leistungsfähiger als reine Spracherkennung
Man kann Fachbegriffe oder das Organigramm eines Unternehmens in den Prompt einfügen, sodass Sätze wie „Lass Kaitlyn den PR reviewen“ Personen korrekt auseinanderhalten
Mit meinem Open-Source-Tool für Mac kann man OpenAI-API-Schlüssel und benutzerdefinierte Prompts ausprobieren
Wenn Technik voranschreitet, ist es doch letztlich eine Verbesserung, selbst wenn dabei manche Technologien verschwinden, oder?
Seit Whisper erschienen ist, hat die Zahl lokal laufender Spracherkennungsmodelle explosionsartig zugenommen
Beispiele: superwhisper.com, carelesswhisper.app, macwhisper.com
Wenn direkt auf Geräten mit Mikrofon verarbeitet wird, lässt sich die Bandbreite stark reduzieren und Cloud-Übertragung ist womöglich gar nicht nötig
Schade, dass dem Modell Zeitstempel oder Sprechertrennung (Diarization) fehlen
Ich frage mich, ob WhisperX dafür immer noch die beste Wahl ist
Google Chirp hatte viele Probleme wie ausgelassene Segmente, Halluzinationen und inkonsistente Zeitstempel
AWS ist etwas besser, aber die Synchronisierung auf Wortebene ist immer noch instabil
Whisper halluziniert ebenfalls häufig, und OpenAIs neues Modell ist zwar präzise, unterstützt aber keine Zeitstempel
Am Ende lässt sich das per Post-Processing lösen, aber ich hätte gern einfach eine API, der man direkt vertrauen kann
Eine integrierte Version für Cohere Transcribe dürfte bald erscheinen
Unten auf der Seite gibt es Beispiele mit Zeitstempeln
Das nutzt ohne Zusatzmodell die Cross-Attention-Gewichte von Whisper und richtet per Dynamic Time Warping aus
Ich bin mit den Diensten von Cohere sehr zufrieden
Ich bin vor ein paar Monaten auf ein clip-style embedding-Modell umgestiegen, und von allen externen Diensten, die ich bisher genutzt habe, ist dort die P50-Latenz am stabilsten
Cohere-Modelle sind meist eher klein und leistungsschwächer
Viele STT-Modelle werden nur mit perfekt ausgesprochener Sprache trainiert und sind daher bei fremdem Akzent schwach
Als jemand mit französisch geprägtem englischem Akzent würde ich dieses Modell unbedingt testen wollen
In meiner Sprachlern-App (Copycat Cafe) hat bislang Soniox am besten funktioniert, während Whisper-basierte Modelle eher dazu neigten, halluzinierte Sätze zu erzeugen
Ich habe es mit unserem internen Datensatz getestet (250 gesprochene britische Postleitzahlen), und es war ziemlich konkurrenzfähig
Soniox 71 %, ElevenLabs 68,5 %, AssemblyAI 66,9 %, Deepgram 63,7 %, Cohere 59,7 %, Speechmatics etwa 54 %
Schade, dass dieses Modell kein benutzerdefiniertes Wörterbuch, kein Word Boosting und keine zusätzlichen Prompts unterstützt
Wahrscheinlich ist das wieder ein benchmark-fokussiertes ASR-Modell
Ich lade bearbeitete Twitch-Streams auf YouTube hoch und erstelle Untertitel mit Whisper-large-v3
Anforderungen an gutes ASR sind
Mit WhisperX ist eine Transkription in 5 Minuten möglich, aber ausgelassene Sätze sind immer noch das größte Problem
Wenn es „Open Source“ ist, frage ich mich, ob damit der Quellcode gemeint ist oder nur die Modellgewichte veröffentlicht wurden
und es gibt auch eine in ONNX konvertierte Version, die auf der CPU laufen kann
Das Training von Modellen ist zu teuer, daher ist schon das Teilen des Endergebnisses sehr nützlich
Ich frage mich, ob dieses Modell innerhalb seiner Größenklasse SOTA ist
Ich würde gern wissen, ob es besser ist als Parakeet
ist Parakeet (0,6B) schnell, liegt bei der WER aber nur ungefähr in den Top 10
Früher habe ich Dragon Dictate benutzt, aber das Training dauerte lange und die Ergebnisse waren nicht besonders gut
Kürzlich habe ich ein Podcast-Interview gemacht, und Apple Podcasts hat automatisch eine KI-Transkription erstellt
Es gab nicht viele Fehler, aber am störendsten war, dass keine Sprecherunterscheidung möglich war
Als Kind habe ich viel zu viel solcher TTS-/Spracherkennungs-Shareware heruntergeladen