3 Punkte von GN⁺ 26 일 전 | 2 Kommentare | Auf WhatsApp teilen
  • Ein modernes automatisches Spracherkennungsmodell (ASR) mit 2B (2 Milliarden) Parametern, das 14 Sprachen unterstützt, darunter Englisch, Koreanisch und Chinesisch
  • Nutzt eine Conformer-basierte Encoder-Decoder-Architektur und wird unter der Apache-2.0-Lizenz veröffentlicht
  • Erzielt im Englischen eine durchschnittliche Word Error Rate (WER) von 5,42 %, übertrifft damit wichtige Konkurrenzmodelle wie Whisper Large v3 und erreicht Platz 1 im Hugging Face Open ASR Leaderboard
  • Zeigt sowohl in Real-World-Evaluierungen als auch in menschlichen Bewertungen hohe Genauigkeit und Konsistenz und liefert auch bei mehrsprachiger Transkription stabile Leistung
  • Vereint geringe Latenz und hohe Verarbeitungseffizienz und eignet sich damit für Echtzeitprodukte und Workflows

Überblick über Cohere Transcribe

  • Sprache entwickelt sich zu einer zentralen Eingabeform für AI-basierte Arbeitsautomatisierung, etwa für Meeting-Protokolle, Sprachanalyse und Echtzeit-Kundensupport
  • Das Modell wurde von Grund auf mit dem Ziel trainiert, die Word Error Rate (WER) zu minimieren, und ist nicht nur für die Forschung, sondern ausdrücklich für den Einsatz in realen Service-Umgebungen konzipiert
  • Effiziente Inferenz ist sowohl auf GPUs als auch in lokalen Umgebungen möglich; außerdem ist das Modell auf Cohere’s gemanagter Inferenzplattform Model Vault verfügbar
  • Mit Platz 1 bei der Genauigkeit im Open ASR Leaderboard von Hugging Face setzt es einen neuen Maßstab für Transkriptionsleistung in realen Umgebungen

Modellarchitektur

  • Der Modellname lautet cohere-transcribe-03-2026 und es verwendet eine Conformer-basierte Encoder-Decoder-Architektur
    • Die Eingabe besteht aus Audiosignalen, die in log-Mel-Spektrogramme umgewandelt werden, die Ausgabe ist der transkribierte Text
    • Ein großer Conformer-Encoder mit 2B (2 Milliarden) Parametern extrahiert akustische Repräsentationen, während ein leichter Transformer-Decoder die Token erzeugt
  • Das Training erfolgte von Grund auf überwacht mit standardisiertem Kreuzentropie-Verlust
  • Unterstützung für 14 Sprachen

    • Europa: Englisch, Französisch, Deutsch, Italienisch, Spanisch, Portugiesisch, Griechisch, Niederländisch, Polnisch
    • Asien-Pazifik: Chinesisch (Mandarin), Japanisch, Koreanisch, Vietnamesisch
    • Naher Osten und Nordafrika: Arabisch
    • Veröffentlicht unter der Apache-2.0-Lizenz

Modellleistung

  • Erreicht einen modernen Spitzenstandard bei der englischen Spracherkennungsgenauigkeit; mit einer durchschnittlichen WER von 5,42 % liefert es die beste Leistung unter offenen und proprietären ASR-Modellen
    • Übertrifft wichtige Konkurrenzmodelle wie Whisper Large v3, ElevenLabs Scribe v2 und Qwen3-ASR-1.7B
  • Liefert auch in unterschiedlichsten realen Umgebungen robuste Leistung, etwa bei mehreren Sprechern, Meetingraum-Akustik und verschiedenen Akzenten
  • Wichtige Benchmark-Ergebnisse
    • AMI: 8.13, LS clean: 1.25, LS other: 2.37, Voxpopuli: 5.87
    • Mit einer durchschnittlichen WER von 5,42 ist es besser als Zoom Scribe v1 (5.47), IBM Granite 4.0 (5.52) und NVIDIA Canary Qwen 2.5B (5.63)
  • Das Hugging Face Open ASR Leaderboard bewertet anhand standardisierter WER über mehrere Datensätze hinweg; eine niedrige WER bedeutet dabei höhere Transkriptionsgenauigkeit

Ergebnisse menschlicher Bewertungen

  • Auch in Real-World-Evaluierungen außerhalb klassischer Benchmarks wurde dieselbe starke Leistung bestätigt
    • Erfahrene Evaluatoren bewerteten die Transkriptionsergebnisse realer Audiodaten anhand von Genauigkeit, Konsistenz und Nutzbarkeit
    • Sowohl automatische als auch menschliche Bewertungen zeigten durchgängig starke Ergebnisse
  • In Vergleichsbewertungen zur Qualität englischer Transkriptionen erzielte das Modell hohe Präferenzwerte bei Bedeutungserhalt, Vermeidung von Halluzinationen, Erkennung von Eigennamen und Formatierungsgenauigkeit
  • Auch in menschlichen Bewertungen je unterstützter Sprache erreichte es Präferenzraten von über 50 % und bewies damit stabile Leistung in mehrsprachigen Umgebungen

Verarbeitungsgeschwindigkeit und Effizienz

  • In realen Service-Umgebungen sind Latenz und Durchsatz zentrale Einschränkungen
    • Selbst bei hoher Genauigkeit wirken sich langsame Verarbeitung oder hoher Ressourcenverbrauch direkt auf Nutzererlebnis und Kosten aus
  • Cohere Transcribe hält innerhalb der Modellklasse mit mehr als 1B Parametern ein Spitzenniveau bei der Verarbeitungseffizienz und erreicht gleichzeitig niedrige WER und hohe RTFx-Werte (Real-Time-Faktor)
  • RTFx ist ein Maß dafür, wie viel schneller Audioeingaben im Vergleich zur Echtzeit verarbeitet werden; Transcribe erweitert damit die Pareto-Front sowohl bei Genauigkeit als auch bei Geschwindigkeit
  • Bewertung von Radical Ventures

    • Paige Dickie, Vice President bei Radical Ventures, bewertete Geschwindigkeit und Qualität von Transcribe sehr positiv
    • Sie erklärte, das Modell transkribiere Audio von mehreren Minuten Länge in wenigen Sekunden und eröffne damit neue Möglichkeiten für Echtzeitprodukte und Workflows
    • Auch bei alltäglicher Sprache liefere es starke und zuverlässige Transkriptionsqualität, und die Nutzungserfahrung sei reibungslos gewesen

Weitere Entwicklung

  • Cohere plant, Transcribe in die AI-Agent-Orchestrierungsplattform North zu integrieren
    • Künftig soll Transcribe über ein reines Transkriptionsmodell hinaus zu einer Grundlage für Enterprise-Sprachintelligenz ausgebaut werden

Nutzung und Bereitstellung

  • Das Modell kann über Hugging Face heruntergeladen werden und lässt sich auch lokal oder in Edge-Umgebungen ausführen
  • Über die Cohere API kann kostenlos damit experimentiert werden, es gelten jedoch Request-Limits
    • Eine Anleitung zur Nutzung und Integration steht in der offiziellen Dokumentation bereit
  • Mit Model Vault ist latenzarme Inferenz in einer privaten Cloud ohne Infrastrukturmanagement möglich
    • Es gilt ein stundenbasiertes Instanz-Preismodell, bei längerer Nutzung werden Rabatte angeboten
    • Anfragen zur Enterprise-Bereitstellung sind über das Vertriebsteam von Cohere möglich

2 Kommentare

 
j2sus91 26 일 전

Ist es nicht Open Source, sondern ein kostenpflichtiger Dienst?

 
GN⁺ 26 일 전
Hacker-News-Kommentare
  • Ich mache mir Sorgen, dass ASR (automatische Spracherkennung) am Ende wie OCR wird
    Wenn multimodale große KI-Modelle schnell genug sind und Kontext tief genug verstehen, scheinen sie bestehende Technologien einfach zu absorbieren
    Bei OCR ist es schon so, dass die KI selbst bei unscharf gescanntem Text aus der Bedeutung des Dokuments schließt und Muster wie „Die Bestell-ID steht normalerweise unter dem Bestelldatum“ erkennt
    Wenn ASR auf diese Weise kontextbasiert zu „raten“ beginnt, besteht das Risiko, die tatsächliche Sprache zu verfälschen

    • Das hat gute und schlechte Seiten
      Gute ASR versteht auch verrauschte Sprache, die ich selbst kaum verstehe, korrigiert aber manchmal zu stark und ersetzt seltene Wörter durch häufige
      Auch bei OCR können wie im Xerox-Fall plausibel wirkende, aber falsche Daten entstehen
      Deshalb nutze ich OCR nur für die Suche und bewahre den Originalscan immer auf
    • In der Praxis entwickelt es sich bereits genau in diese Richtung
      Multimodale LLMs wie gpt-4o-transcribe sind viel leistungsfähiger als reine Spracherkennung
      Man kann Fachbegriffe oder das Organigramm eines Unternehmens in den Prompt einfügen, sodass Sätze wie „Lass Kaitlyn den PR reviewen“ Personen korrekt auseinanderhalten
      Mit meinem Open-Source-Tool für Mac kann man OpenAI-API-Schlüssel und benutzerdefinierte Prompts ausprobieren
    • Ich verstehe nicht, warum dich das beunruhigt
      Wenn Technik voranschreitet, ist es doch letztlich eine Verbesserung, selbst wenn dabei manche Technologien verschwinden, oder?
    • ASR ist bereits eine Technologie mit nachgewiesenem Nutzen
      Seit Whisper erschienen ist, hat die Zahl lokal laufender Spracherkennungsmodelle explosionsartig zugenommen
      Beispiele: superwhisper.com, carelesswhisper.app, macwhisper.com
    • STT (Sprache→Text) dürfte noch eine ganze Weile lokal verarbeitet besser funktionieren
      Wenn direkt auf Geräten mit Mikrofon verarbeitet wird, lässt sich die Bandbreite stark reduzieren und Cloud-Übertragung ist womöglich gar nicht nötig
  • Schade, dass dem Modell Zeitstempel oder Sprechertrennung (Diarization) fehlen
    Ich frage mich, ob WhisperX dafür immer noch die beste Wahl ist

    • Selbst unter kommerziellen APIs gibt es kaum Anbieter, die Sprechertrennung und Zeitstempel auf Wortebene zuverlässig unterstützen
      Google Chirp hatte viele Probleme wie ausgelassene Segmente, Halluzinationen und inkonsistente Zeitstempel
      AWS ist etwas besser, aber die Synchronisierung auf Wortebene ist immer noch instabil
      Whisper halluziniert ebenfalls häufig, und OpenAIs neues Modell ist zwar präzise, unterstützt aber keine Zeitstempel
      Am Ende lässt sich das per Post-Processing lösen, aber ich hätte gern einfach eine API, der man direkt vertrauen kann
    • WhisperX ist kein Modell, sondern ein Softwarepaket, das Whisper und andere Modelle zusammenbindet
      Eine integrierte Version für Cohere Transcribe dürfte bald erscheinen
    • Ich empfehle Qwen-ASR
      Unten auf der Seite gibt es Beispiele mit Zeitstempeln
    • Mistral Voxtral unterstützt Zeitstempel und Sprechertrennung und zeigte bei Deutsch gute Leistung
    • Es gibt auch whisper-timestamped
      Das nutzt ohne Zusatzmodell die Cross-Attention-Gewichte von Whisper und richtet per Dynamic Time Warping aus
  • Ich bin mit den Diensten von Cohere sehr zufrieden
    Ich bin vor ein paar Monaten auf ein clip-style embedding-Modell umgestiegen, und von allen externen Diensten, die ich bisher genutzt habe, ist dort die P50-Latenz am stabilsten

    • Mich würde interessieren, wie die Gesamtqualität ist
      Cohere-Modelle sind meist eher klein und leistungsschwächer
  • Viele STT-Modelle werden nur mit perfekt ausgesprochener Sprache trainiert und sind daher bei fremdem Akzent schwach
    Als jemand mit französisch geprägtem englischem Akzent würde ich dieses Modell unbedingt testen wollen
    In meiner Sprachlern-App (Copycat Cafe) hat bislang Soniox am besten funktioniert, während Whisper-basierte Modelle eher dazu neigten, halluzinierte Sätze zu erzeugen

  • Ich habe es mit unserem internen Datensatz getestet (250 gesprochene britische Postleitzahlen), und es war ziemlich konkurrenzfähig
    Soniox 71 %, ElevenLabs 68,5 %, AssemblyAI 66,9 %, Deepgram 63,7 %, Cohere 59,7 %, Speechmatics etwa 54 %

    • Laut compare-stt.com lag Gladia in Blindtests auf Platz 1
    • Für das Rendern von Tabellen muss man zwischen den Zeilen einfach zwei Leerzeilen einfügen
    • Ich frage mich, ob der menschliche Referenzwert 248/248 ist
  • Schade, dass dieses Modell kein benutzerdefiniertes Wörterbuch, kein Word Boosting und keine zusätzlichen Prompts unterstützt

  • Wahrscheinlich ist das wieder ein benchmark-fokussiertes ASR-Modell
    Ich lade bearbeitete Twitch-Streams auf YouTube hoch und erstelle Untertitel mit Whisper-large-v3
    Anforderungen an gutes ASR sind

    1. Unterstützung für Zeitstempel
    2. Erkennung gleichzeitig sprechender Personen
    3. präzise Transkription
    4. nichtsprachliche Ausdrücke wie [Husten], [Lachen]
    5. Kontext-Injektion mit mehr als 10.000 Wörtern
      Mit WhisperX ist eine Transkription in 5 Minuten möglich, aber ausgelassene Sätze sind immer noch das größte Problem
    • Punkt 3 und 4 könnten für die meisten Kunden eher unnötige Funktionen sein
  • Wenn es „Open Source“ ist, frage ich mich, ob damit der Quellcode gemeint ist oder nur die Modellgewichte veröffentlicht wurden

    • Auf Hugging Face kann man die Dateien herunterladen,
      und es gibt auch eine in ONNX konvertierte Version, die auf der CPU laufen kann
    • In den meisten Fällen bedeutet „Open Source“, dass die Gewichte offengelegt werden
      Das Training von Modellen ist zu teuer, daher ist schon das Teilen des Endergebnisses sehr nützlich
    • Wahrscheinlich bezieht sich die Bezeichnung einfach auf das Modell selbst
  • Ich frage mich, ob dieses Modell innerhalb seiner Größenklasse SOTA ist
    Ich würde gern wissen, ob es besser ist als Parakeet

    • Laut dem Hugging Face ASR Leaderboard
      ist Parakeet (0,6B) schnell, liegt bei der WER aber nur ungefähr in den Top 10
    • Das Cohere-Modell hat 2B Parameter, ist also größer als Parakeet (0,6B, 1,1B), und zeigt in Benchmarks auch bessere Leistung
  • Früher habe ich Dragon Dictate benutzt, aber das Training dauerte lange und die Ergebnisse waren nicht besonders gut
    Kürzlich habe ich ein Podcast-Interview gemacht, und Apple Podcasts hat automatisch eine KI-Transkription erstellt
    Es gab nicht viele Fehler, aber am störendsten war, dass keine Sprecherunterscheidung möglich war

    • Damals gab es Spracherkennungssoftware, die sogar mit 64 MB RAM lief
      Als Kind habe ich viel zu viel solcher TTS-/Spracherkennungs-Shareware heruntergeladen