Cohere Transcribe - SOTA-Open-Source-Spracherkennungsmodell

(cohere.com)

3 Punkte von GN⁺ 26 일 전 | 2 Kommentare | Auf WhatsApp teilen

Ein modernes automatisches Spracherkennungsmodell (ASR) mit 2B (2 Milliarden) Parametern, das 14 Sprachen unterstützt, darunter Englisch, Koreanisch und Chinesisch
Nutzt eine Conformer-basierte Encoder-Decoder-Architektur und wird unter der Apache-2.0-Lizenz veröffentlicht
Erzielt im Englischen eine durchschnittliche Word Error Rate (WER) von 5,42 %, übertrifft damit wichtige Konkurrenzmodelle wie Whisper Large v3 und erreicht Platz 1 im Hugging Face Open ASR Leaderboard
Zeigt sowohl in Real-World-Evaluierungen als auch in menschlichen Bewertungen hohe Genauigkeit und Konsistenz und liefert auch bei mehrsprachiger Transkription stabile Leistung
Vereint geringe Latenz und hohe Verarbeitungseffizienz und eignet sich damit für Echtzeitprodukte und Workflows

Überblick über Cohere Transcribe

Sprache entwickelt sich zu einer zentralen Eingabeform für AI-basierte Arbeitsautomatisierung, etwa für Meeting-Protokolle, Sprachanalyse und Echtzeit-Kundensupport
Das Modell wurde von Grund auf mit dem Ziel trainiert, die Word Error Rate (WER) zu minimieren, und ist nicht nur für die Forschung, sondern ausdrücklich für den Einsatz in realen Service-Umgebungen konzipiert
Effiziente Inferenz ist sowohl auf GPUs als auch in lokalen Umgebungen möglich; außerdem ist das Modell auf Cohere’s gemanagter Inferenzplattform Model Vault verfügbar
Mit Platz 1 bei der Genauigkeit im Open ASR Leaderboard von Hugging Face setzt es einen neuen Maßstab für Transkriptionsleistung in realen Umgebungen

Modellarchitektur

Der Modellname lautet cohere-transcribe-03-2026 und es verwendet eine Conformer-basierte Encoder-Decoder-Architektur
- Die Eingabe besteht aus Audiosignalen, die in log-Mel-Spektrogramme umgewandelt werden, die Ausgabe ist der transkribierte Text
- Ein großer Conformer-Encoder mit 2B (2 Milliarden) Parametern extrahiert akustische Repräsentationen, während ein leichter Transformer-Decoder die Token erzeugt
Das Training erfolgte von Grund auf überwacht mit standardisiertem Kreuzentropie-Verlust
Unterstützung für 14 Sprachen
- Europa: Englisch, Französisch, Deutsch, Italienisch, Spanisch, Portugiesisch, Griechisch, Niederländisch, Polnisch
- Asien-Pazifik: Chinesisch (Mandarin), Japanisch, Koreanisch, Vietnamesisch
- Naher Osten und Nordafrika: Arabisch
- Veröffentlicht unter der Apache-2.0-Lizenz

Modellleistung

Erreicht einen modernen Spitzenstandard bei der englischen Spracherkennungsgenauigkeit; mit einer durchschnittlichen WER von 5,42 % liefert es die beste Leistung unter offenen und proprietären ASR-Modellen
- Übertrifft wichtige Konkurrenzmodelle wie Whisper Large v3, ElevenLabs Scribe v2 und Qwen3-ASR-1.7B
Liefert auch in unterschiedlichsten realen Umgebungen robuste Leistung, etwa bei mehreren Sprechern, Meetingraum-Akustik und verschiedenen Akzenten
Wichtige Benchmark-Ergebnisse
- AMI: 8.13, LS clean: 1.25, LS other: 2.37, Voxpopuli: 5.87
- Mit einer durchschnittlichen WER von 5,42 ist es besser als Zoom Scribe v1 (5.47), IBM Granite 4.0 (5.52) und NVIDIA Canary Qwen 2.5B (5.63)
Das Hugging Face Open ASR Leaderboard bewertet anhand standardisierter WER über mehrere Datensätze hinweg; eine niedrige WER bedeutet dabei höhere Transkriptionsgenauigkeit

Ergebnisse menschlicher Bewertungen

Auch in Real-World-Evaluierungen außerhalb klassischer Benchmarks wurde dieselbe starke Leistung bestätigt
- Erfahrene Evaluatoren bewerteten die Transkriptionsergebnisse realer Audiodaten anhand von Genauigkeit, Konsistenz und Nutzbarkeit
- Sowohl automatische als auch menschliche Bewertungen zeigten durchgängig starke Ergebnisse
In Vergleichsbewertungen zur Qualität englischer Transkriptionen erzielte das Modell hohe Präferenzwerte bei Bedeutungserhalt, Vermeidung von Halluzinationen, Erkennung von Eigennamen und Formatierungsgenauigkeit
Auch in menschlichen Bewertungen je unterstützter Sprache erreichte es Präferenzraten von über 50 % und bewies damit stabile Leistung in mehrsprachigen Umgebungen

Verarbeitungsgeschwindigkeit und Effizienz

In realen Service-Umgebungen sind Latenz und Durchsatz zentrale Einschränkungen
- Selbst bei hoher Genauigkeit wirken sich langsame Verarbeitung oder hoher Ressourcenverbrauch direkt auf Nutzererlebnis und Kosten aus
Cohere Transcribe hält innerhalb der Modellklasse mit mehr als 1B Parametern ein Spitzenniveau bei der Verarbeitungseffizienz und erreicht gleichzeitig niedrige WER und hohe RTFx-Werte (Real-Time-Faktor)
RTFx ist ein Maß dafür, wie viel schneller Audioeingaben im Vergleich zur Echtzeit verarbeitet werden; Transcribe erweitert damit die Pareto-Front sowohl bei Genauigkeit als auch bei Geschwindigkeit
Bewertung von Radical Ventures
- Paige Dickie, Vice President bei Radical Ventures, bewertete Geschwindigkeit und Qualität von Transcribe sehr positiv
- Sie erklärte, das Modell transkribiere Audio von mehreren Minuten Länge in wenigen Sekunden und eröffne damit neue Möglichkeiten für Echtzeitprodukte und Workflows
- Auch bei alltäglicher Sprache liefere es starke und zuverlässige Transkriptionsqualität, und die Nutzungserfahrung sei reibungslos gewesen

Weitere Entwicklung

Cohere plant, Transcribe in die AI-Agent-Orchestrierungsplattform North zu integrieren
- Künftig soll Transcribe über ein reines Transkriptionsmodell hinaus zu einer Grundlage für Enterprise-Sprachintelligenz ausgebaut werden

Nutzung und Bereitstellung

Das Modell kann über Hugging Face heruntergeladen werden und lässt sich auch lokal oder in Edge-Umgebungen ausführen
Über die Cohere API kann kostenlos damit experimentiert werden, es gelten jedoch Request-Limits
- Eine Anleitung zur Nutzung und Integration steht in der offiziellen Dokumentation bereit
Mit Model Vault ist latenzarme Inferenz in einer privaten Cloud ohne Infrastrukturmanagement möglich
- Es gilt ein stundenbasiertes Instanz-Preismodell, bei längerer Nutzung werden Rabatte angeboten
- Anfragen zur Enterprise-Bereitstellung sind über das Vertriebsteam von Cohere möglich

2 Kommentare

j2sus91 26 일 전

Ist es nicht Open Source, sondern ein kostenpflichtiger Dienst?

GN⁺ 26 일 전

Hacker-News-Kommentare

Ich mache mir Sorgen, dass ASR (automatische Spracherkennung) am Ende wie OCR wird
Wenn multimodale große KI-Modelle schnell genug sind und Kontext tief genug verstehen, scheinen sie bestehende Technologien einfach zu absorbieren
Bei OCR ist es schon so, dass die KI selbst bei unscharf gescanntem Text aus der Bedeutung des Dokuments schließt und Muster wie „Die Bestell-ID steht normalerweise unter dem Bestelldatum“ erkennt
Wenn ASR auf diese Weise kontextbasiert zu „raten“ beginnt, besteht das Risiko, die tatsächliche Sprache zu verfälschen
- Das hat gute und schlechte Seiten
  Gute ASR versteht auch verrauschte Sprache, die ich selbst kaum verstehe, korrigiert aber manchmal zu stark und ersetzt seltene Wörter durch häufige
  Auch bei OCR können wie im Xerox-Fall plausibel wirkende, aber falsche Daten entstehen
  Deshalb nutze ich OCR nur für die Suche und bewahre den Originalscan immer auf
- In der Praxis entwickelt es sich bereits genau in diese Richtung
  Multimodale LLMs wie gpt-4o-transcribe sind viel leistungsfähiger als reine Spracherkennung
  Man kann Fachbegriffe oder das Organigramm eines Unternehmens in den Prompt einfügen, sodass Sätze wie „Lass Kaitlyn den PR reviewen“ Personen korrekt auseinanderhalten
  Mit meinem Open-Source-Tool für Mac kann man OpenAI-API-Schlüssel und benutzerdefinierte Prompts ausprobieren
- Ich verstehe nicht, warum dich das beunruhigt
  Wenn Technik voranschreitet, ist es doch letztlich eine Verbesserung, selbst wenn dabei manche Technologien verschwinden, oder?
- ASR ist bereits eine Technologie mit nachgewiesenem Nutzen
  Seit Whisper erschienen ist, hat die Zahl lokal laufender Spracherkennungsmodelle explosionsartig zugenommen
  Beispiele: superwhisper.com, carelesswhisper.app, macwhisper.com
- STT (Sprache→Text) dürfte noch eine ganze Weile lokal verarbeitet besser funktionieren
  Wenn direkt auf Geräten mit Mikrofon verarbeitet wird, lässt sich die Bandbreite stark reduzieren und Cloud-Übertragung ist womöglich gar nicht nötig
Schade, dass dem Modell Zeitstempel oder Sprechertrennung (Diarization) fehlen
Ich frage mich, ob WhisperX dafür immer noch die beste Wahl ist
- Selbst unter kommerziellen APIs gibt es kaum Anbieter, die Sprechertrennung und Zeitstempel auf Wortebene zuverlässig unterstützen
  Google Chirp hatte viele Probleme wie ausgelassene Segmente, Halluzinationen und inkonsistente Zeitstempel
  AWS ist etwas besser, aber die Synchronisierung auf Wortebene ist immer noch instabil
  Whisper halluziniert ebenfalls häufig, und OpenAIs neues Modell ist zwar präzise, unterstützt aber keine Zeitstempel
  Am Ende lässt sich das per Post-Processing lösen, aber ich hätte gern einfach eine API, der man direkt vertrauen kann
- WhisperX ist kein Modell, sondern ein Softwarepaket, das Whisper und andere Modelle zusammenbindet
  Eine integrierte Version für Cohere Transcribe dürfte bald erscheinen
- Ich empfehle Qwen-ASR
  Unten auf der Seite gibt es Beispiele mit Zeitstempeln
- Mistral Voxtral unterstützt Zeitstempel und Sprechertrennung und zeigte bei Deutsch gute Leistung
- Es gibt auch whisper-timestamped
  Das nutzt ohne Zusatzmodell die Cross-Attention-Gewichte von Whisper und richtet per Dynamic Time Warping aus
Ich bin mit den Diensten von Cohere sehr zufrieden
Ich bin vor ein paar Monaten auf ein clip-style embedding-Modell umgestiegen, und von allen externen Diensten, die ich bisher genutzt habe, ist dort die P50-Latenz am stabilsten
- Mich würde interessieren, wie die Gesamtqualität ist
  Cohere-Modelle sind meist eher klein und leistungsschwächer
Viele STT-Modelle werden nur mit perfekt ausgesprochener Sprache trainiert und sind daher bei fremdem Akzent schwach
Als jemand mit französisch geprägtem englischem Akzent würde ich dieses Modell unbedingt testen wollen
In meiner Sprachlern-App (Copycat Cafe) hat bislang Soniox am besten funktioniert, während Whisper-basierte Modelle eher dazu neigten, halluzinierte Sätze zu erzeugen
Ich habe es mit unserem internen Datensatz getestet (250 gesprochene britische Postleitzahlen), und es war ziemlich konkurrenzfähig
Soniox 71 %, ElevenLabs 68,5 %, AssemblyAI 66,9 %, Deepgram 63,7 %, Cohere 59,7 %, Speechmatics etwa 54 %
- Laut compare-stt.com lag Gladia in Blindtests auf Platz 1
- Für das Rendern von Tabellen muss man zwischen den Zeilen einfach zwei Leerzeilen einfügen
- Ich frage mich, ob der menschliche Referenzwert 248/248 ist
Schade, dass dieses Modell kein benutzerdefiniertes Wörterbuch, kein Word Boosting und keine zusätzlichen Prompts unterstützt
Wahrscheinlich ist das wieder ein benchmark-fokussiertes ASR-Modell
Ich lade bearbeitete Twitch-Streams auf YouTube hoch und erstelle Untertitel mit Whisper-large-v3
Anforderungen an gutes ASR sind
1. Unterstützung für Zeitstempel
2. Erkennung gleichzeitig sprechender Personen
3. präzise Transkription
4. nichtsprachliche Ausdrücke wie [Husten], [Lachen]
5. Kontext-Injektion mit mehr als 10.000 Wörtern
  Mit WhisperX ist eine Transkription in 5 Minuten möglich, aber ausgelassene Sätze sind immer noch das größte Problem
- Punkt 3 und 4 könnten für die meisten Kunden eher unnötige Funktionen sein
Wenn es „Open Source“ ist, frage ich mich, ob damit der Quellcode gemeint ist oder nur die Modellgewichte veröffentlicht wurden
- Auf Hugging Face kann man die Dateien herunterladen,
  und es gibt auch eine in ONNX konvertierte Version, die auf der CPU laufen kann
- In den meisten Fällen bedeutet „Open Source“, dass die Gewichte offengelegt werden
  Das Training von Modellen ist zu teuer, daher ist schon das Teilen des Endergebnisses sehr nützlich
- Wahrscheinlich bezieht sich die Bezeichnung einfach auf das Modell selbst
Ich frage mich, ob dieses Modell innerhalb seiner Größenklasse SOTA ist
Ich würde gern wissen, ob es besser ist als Parakeet
- Laut dem Hugging Face ASR Leaderboard
  ist Parakeet (0,6B) schnell, liegt bei der WER aber nur ungefähr in den Top 10
- Das Cohere-Modell hat 2B Parameter, ist also größer als Parakeet (0,6B, 1,1B), und zeigt in Benchmarks auch bessere Leistung
Früher habe ich Dragon Dictate benutzt, aber das Training dauerte lange und die Ergebnisse waren nicht besonders gut
Kürzlich habe ich ein Podcast-Interview gemacht, und Apple Podcasts hat automatisch eine KI-Transkription erstellt
Es gab nicht viele Fehler, aber am störendsten war, dass keine Sprecherunterscheidung möglich war
- Damals gab es Spracherkennungssoftware, die sogar mit 64 MB RAM lief
  Als Kind habe ich viel zu viel solcher TTS-/Spracherkennungs-Shareware heruntergeladen

Cohere Transcribe - SOTA-Open-Source-Spracherkennungsmodell

Überblick über Cohere Transcribe

Modellarchitektur

Unterstützung für 14 Sprachen

Modellleistung

Ergebnisse menschlicher Bewertungen

Verarbeitungsgeschwindigkeit und Effizienz

Bewertung von Radical Ventures

Weitere Entwicklung

Nutzung und Bereitstellung

Verwandte Beiträge

2 Kommentare

Hacker-News-Kommentare