1 Punkte von GN⁺ 2025-07-23 | 1 Kommentare | Auf WhatsApp teilen
  • Wenn man dem Whisper-Modell eine vollständig stille wav-Datei als Eingabe gibt, gibt es halluzinierend stets denselben Text auf Arabisch aus: "ترجمة نانسي قنقر" (Übersetzung von Nancy Qunqar)
  • Erzeugt man mit ffmpeg eine stumme Audiodatei und führt Whisper mit Arabisch und dem Modell large-v3 aus, wird immer dasselbe Ergebnis ausgegeben
  • Dieses Problem scheint darauf hinzudeuten, dass das Whisper-Modell darauf trainiert wurde, stille Audiodaten als bestimmten Text zu interpretieren
  • Bei früheren Modellen (small usw.) ließ sich dies durch das Anpassen von Parametern wie suppress_tokens, initial prompt und logprob_threshold teilweise unterdrücken, bei v3 (insbesondere large-v3) ist der Effekt jedoch gering
  • Als Workaround werden die „Verwendung von VAD (Voice Activity Detection)“ oder das vorabige Herausfiltern stiller Audiobereiche vorgeschlagen

Beschreibung des Problems

  • Es wurde berichtet, dass Whisper large-v3 bei stillen Audiodaten stets den arabischen Satz "ترجمة نانسي قنقر" halluziniert und ausgibt
  • Mit ffmpeg wird wie folgt eine 30 Sekunden lange stille wav-Datei erzeugt
    ffmpeg -f lavfi -i anullsrc=r=44100\:cl=stereo -t 30 silence.wav
  • Beispiel für die Ausführung des Whisper-Befehls
    whisper ./silence.wav --language Arabic --model large-v3
  • Ergebnis:
    \[00:00.000 --> 00:29.980] ترجمة نانسي قنقر

Ursache und Analyse

  • Neuere Whisper-Modelle wie large-v3 neigen dazu, bei Stille willkürliche halluzinierte Ausgaben zu erzeugen, statt wie früher Audiobeschreibungen oder Ähnliches
  • Auch frühere Modelle (small usw.) erzeugen bei Stille allerlei (zufällige) Ausgaben, diese lassen sich jedoch mit verschiedenen Optionen wie suppress_tokens, initial prompt und logprob_threshold teilweise steuern
  • Bei v3 greifen diese Methoden kaum, und es erscheint ein festes halluziniertes Ergebnis

Vorschläge für Workarounds und Lösungen

  • VAD (Voice Activity Detection) anwenden: Nur die Abschnitte mit tatsächlicher Sprache an Whisper übergeben und Stille gar nicht erst einspeisen
  • Parameter wie suppress_tokens, initial prompt und logprob_threshold anpassen: Bei manchen Modellen wirksam, bei large-v3 jedoch nur geringfügig
  • Bei vollständig stillen oder signalarmen Audiodaten ist möglicherweise eine Nachbearbeitung mit anderen Methoden als Whisper erforderlich

Sonstige Diskussionen

  • Es gab zusätzlich Diskussionen darüber, ob es für Arabisch ein besseres Modell als large-v3 gibt, jedoch wurde kein klar überlegenes Alternativmodell genannt

1 Kommentare

 
GN⁺ 2025-07-23
Hacker-News-Kommentar
  • Beim Transkribieren chinesischer Sprache mit whisper-large-v3 habe ich mehrfach erlebt, dass stille Passagen als unsinnige Sätze wie „Bitte liken, teilen und zu den Favoriten hinzufügen“ ausgegeben wurden; das lässt vermuten, dass beim Training Daten wahllos aus YouTube-Videos gesammelt und nicht sorgfältig auf nützliches Material ausgewählt wurden.

    • Bei chinesischen Transkriptionen sieht man oft auch Zusätze wie „Untertitel zu Forschungs-/Lernzwecken. Bitte nach 48 Stunden löschen.“ Das ist ein Haftungsausschluss, den Untertitel-Freiwillige zu Untertiteln von (illegalen) Filmen oder Serien hinzufügen.
    • Auch mit anderen Modellen habe ich immer wieder erlebt, dass stille Passagen in Dinge wie „Danke fürs Zuschauen!“ oder „[MUSIC]“ umgewandelt werden. Schade ist, dass solche Fehler den QA-Prozess offenbar nicht herausfiltern und dass sie sich über verschiedene Transkriptionsmodelle hinweg wiederholen; stille Abschnitte im Audio sind schließlich ein extrem häufiger Fall.
    • Als ich whisper getestet habe, hatte ich den Eindruck, dass es bei Videos von YouTube oder vom Handy nicht gut abschneidet. Ich vermute, dass der Großteil des Trainingsmaterials aus Untertiteln oder Skripten bestand. Die Videos, die ich ausprobiert habe, waren auf Chinesisch (Mandarin), und mit whisper-large-v3 gab es typische Missverständnisse und bedeutungslosen Output; im Vergleich zu anderer Software war die Leistung aber trotzdem ziemlich gut. Allerdings erfand es gelegentlich Sprechernamen oder stellte sie an den Anfang von Dialogzeilen, wechselte sporadisch zwischen vereinfachtem und traditionellem Chinesisch und gab in stillen Passagen wiederholt den letzten Satz aus oder fügte manchmal englischen Text ein, der wie Regieanweisungen wirkte. Untertitel oder Abspann habe ich nicht gesehen, aber in einem Video war der Sprecher erkältet und schniefte, worauf whisper das als weinend transkribierte („* crying “), und Husten wurde als „ door closing *“ übersetzt. Die nächste Zeile wurde dann sogar als ziemlich unfreundlicher Inhalt transkribiert. Als ich den schniefenden Teil herausschnitt, verschwand die seltsame Transkription, dafür wechselte es wieder zurück zu traditionellem Chinesisch.
    • Es fühlt sich ein bisschen an wie: „Wenn man Jeans in einen Taschenrechner steckt, kommt dann eine richtige Antwort heraus?“
    • Als YouTube anfing, automatische Untertitel zu erstellen, wurde Rauschen oder Musik — besonders Lärm aus Industrieumgebungen — immer als „[foreign]“ markiert. Unverständliche Geräusche wurden lange Zeit einfach als „foreign“ behandelt.
  • Auch bei LLMs ist das ein klassisches Beispiel für „Overfitting“ auf unklare Daten, ähnlich wie wenn eine Abwesenheitsnotiz unverändert als Übersetzungsergebnis ausgegeben wird. Passender Artikel dazu: https://www.theguardian.com/theguardian/2008/nov/01/5

    • Ich frage mich, ob das wirklich Overfitting ist oder eher ein Problem der Datenqualität oder Klassifizierung.
  • Um Suchzeit zu sparen: Das arabische „رجمة نانسي قنقر“ bedeutet „Übersetzung von Nancy Qanqar“ oder „von Nancy Qanqar übersetzt“. „رجمة“ bedeutet Übersetzung, „نانسي قنقر“ ist ein Name.

    • Im Tschechischen transkribiert whisper Stille oft als „Titulky vytvořil JohnyX“ (Untertitel erstellt von JohnyX), aus ähnlichen Gründen.
    • Es wird darauf hingewiesen, dass die Schreibweise falsch ist: Nicht „رجمة“, sondern mit vorangestelltem ت, also „ترجمة“, ist die korrekte Form für „Übersetzung“.
    • Ursache solcher Transkriptionen ist, dass die Trainingsdaten offenbar überwiegend aus inoffiziellen Untertiteln zu Filmen stammen. In solchen Untertiteln steht am Ende oft etwas wie „übersetzt von XXX“, während im Bild zwar Untertitel zu sehen sind, im Audio aber tatsächlich Stille herrscht.
  • Whisper halluziniert so häufig, dass es praktisch unbrauchbar ist; dieses Verhalten ist vielfach gut dokumentiert. Wenn man Stille aus dem Audio entfernt, wird es etwas besser, aber es gibt auch Probleme wie automatische Grammatik-Korrektur, etwa bei zweisprachiger Speech-Übersetzung. In neueren Audiomodellen wurde das verbessert, aber nicht vollständig gelöst. https://news.ycombinator.com/item?id=43427376

    • Persönlich würde ich eher sagen: nicht „unbrauchbar“, sondern man muss zuerst die Grenzen von Whisper verstehen und Workarounds finden. Ich habe ein Business auf Whisper aufgebaut, und entscheidend zur Reduzierung von Halluzinationen war die frühe Einführung eines Voice-Activity-Detection-(VAD)-Modells. Siehe https://speechischeap.com
    • Das Problem tritt auf, wenn man nur das große Modell verwendet. Man sollte es immer mit einem kleinen Satellitenmodell oder zusätzlicher Logik kombinieren. Halluzinationen lassen sich auch mit klassischen ML-/DL-Modellen leicht erkennen. Für stille Passagen sollte kein Text vorhanden sein, und Code zur Erkennung davon ist leicht zu schreiben.
    • Automatische Grammatik-Korrektur ist auch bei normalen Untertiteln häufig. Siehe das Video „Warum unterscheiden sich Untertitel von der Synchronfassung?“ https://youtu.be/pU9sHwNKc2c
  • Auch in der englischen Version von Whisper tauchen bei stiller Wiedergabe oft Dinge wie „[ sub by sk cn2 ]“, „Wie auch immer, danke fürs Zuschauen! Bitte abonnieren und liken! Tschüss!“ oder „Dieses Video ist beendet. Danke fürs Zuschauen. Wenn es hilfreich war, abonniert bitte den Kanal.“ auf.

    • Das liegt daran, dass das Modell auf illegalen Medien oder YouTube-Videos trainiert wird. Das ist zwar ein praktikabler Weg, birgt aber Risiken bei Qualitätskontrolle und Urheberrecht.
  • Im Russischen taucht am Ende oft die Halluzination „Субтитры сделал DimaTorzok“ (Untertitel erstellt von DimaTorzok) auf. Ich habe mich sogar gefragt, ob es wirklich viele Untertitel mit diesem Eintrag gibt, und auf YouTube danach gesucht, aber es scheint nicht viele zu geben.

  • Wenn bei aufgezeichneten Telefonaten die ersten 30 Sekunden nur aus Klingelton oder DTMF bestehen — was beim Anruf bei Unternehmen fast immer vorkommt — wählt Whisper die Sprache oft fälschlich als Nynorsk oder Walisisch. Ich habe nicht geprüft, welcher Text dann transkribiert wird, aber vermutlich ist es ähnlich abwegiger Inhalt. Für mich ist das praktisch kein Problem, aber für zweisprachige Callcenter könnte es ziemlich störend sein.

  • Zur Frage „Wer ist Nicolai Winther?“: https://medium.com/@lehandreassen/who-is-nicolai-winther-985409568201

    • Dort steht sinngemäß: „In Zukunft wird jeder in seiner eigenen mikro-nischigen Tech-Sprach-Community im Zeitalter des AI-Hypes 15 Minuten berühmt sein.“
  • Es wird argumentiert, der Titel sollte in „OpenAI: Beweis veröffentlicht, dass mit illegalen Filmen trainiert wurde“ geändert werden.

    • Natürlich — mit genug Geld wird sogar das Training auf illegalen Inhalten legal.
    • Ich frage mich, ob das wirklich als Beweis gelten kann. Dass Online-Untertitel-Communities oder DVDs ohnehin urheberrechtlich erlaubtes Material verwenden, ist in der Branche bereits weithin bekannt. Dass AI-Modelle auf verschiedensten urheberrechtlich geschützten Materialien trainieren, wurde ebenfalls schon gezeigt.
    • Hacker News ist bei subjektiven Titeländerungen sehr streng. Selbst wenn es faktisch außer Zweifel stünde, würde ein solcher Titel sofort gemeldet werden.
  • Es gibt auch den Scherz, ob „Nancy Qunqar“ nicht vielleicht alles manuell, Stück für Stück, transkribiert hat. Dazu kommen aufmunternde Sprüche wie „Los Nancy! Weiter so!“

    • Es besteht der Verdacht, dass der Beitrag Spam sein könnte. Dieser Name taucht nur auf Instagram und in diesem Thread auf; vielleicht ist das eine neue Spam-Masche, um Instagram-Follower zu sammeln.