- Es kam zu einem massiven Leak, bei dem Stimm-Biometriedaten und staatlich ausgestellte Ausweisdokumente in einer einzigen Datenzeile verknüpft waren; laut Index der geleakten Samples sind mehr als 40.000 KI-Vertragskräfte betroffen
- Pro Vertragskraft enthalten die Daten im Schnitt 2–5 Minuten saubere Aufnahmen und liegen damit deutlich über der Schwelle für Voice Cloning, das oft schon mit etwa 15 Sekunden Referenz-Audio möglich ist
- Die geleakten Daten liefern sowohl Sprachklone als auch verifizierte Identitäten und können für Umgehung von Sprach-Bankauthentifizierung, vishing gegen Unternehmen, Deepfake-Videoanrufe, Versicherungsbetrug und Notruf-Betrug durch Identitätsvortäuschung gegenüber Familienmitgliedern missbraucht werden
- Wer Sprachproben bei Mercor oder anderen bis 2025 aktiven Vermittlern für KI-Training hochgeladen hat, sollte sie wie ein geleaktes Passwort behandeln; nötig sind das Entfernen öffentlicher Sprachspuren, das Festlegen von Codewörtern sowie die Neuregistrierung und Deaktivierung von Voice Prints
- Verdächtige Stimmen sollten per forensischer Analyse auf Codec-Abweichungen, Atemmuster, Mikro-Jitter, Formantverläufe, Konsistenz der Raumakustik sowie Anomalien bei Prosodie und Sprechtempo geprüft werden; der Vorfall zeigt grundsätzliche Schwächen sprachbasierter Authentifizierung
Überblick über den Sicherheitsvorfall
- Am 4. April 2026 veröffentlichte Lapsus$ Mercor auf seiner Leak-Seite; das Datenleck soll rund 4 TB umfassen
- Im geleakten Archiv waren Stimm-Biometriedaten und staatlich ausgestellte Ausweise derselben Personen gemeinsam gebündelt; laut Index der geleakten Samples sind mehr als 40.000 Vertragskräfte betroffen
- Betroffen waren Personen, die sich als Vertragskräfte für KI-Trainings-Datenlabeling, das Einsprechen vorgelesener Sätze und Verifikationsanrufe registriert hatten
- Innerhalb von 10 Tagen nach der Veröffentlichung wurden fünf Klagen von Vertragskräften eingereicht; darin wird behauptet, dass Voice Prints als „Trainingsdaten“ gesammelt wurden, ohne klar offenzulegen, dass es sich um dauerhafte biometrische Identifikatoren handelt
Warum dieser Leak anders ist
- Sprachlecks der vergangenen zehn Jahre betrafen meist entweder Anrufaufzeichnungen mit schwer herstellbarem Personenbezug oder Ausweis- und Selfie-Leaks ohne Audio
- Der Registrierungsprozess von Mercor kombinierte Pass- oder Führerschein-Scans, Webcam-Selfies und Sprachaufnahmen beim Vorlesen eines Skripts in ruhiger Umgebung zu einer einzigen Datenzeile
- Diese Kombination entspricht exakt dem Format, das synthetische Voice-Cloning-Dienste als Eingabe benötigen
- Laut einem Bericht des Wall Street Journal vom Februar 2026 benötigen marktübliche Tools für hochwertiges Voice Cloning nur etwa 15 Sekunden sauberes Referenz-Audio
- Die Mercor-Aufnahmen sollen im Schnitt 2–5 Minuten Sprachmaterial in Studioqualität pro Vertragskraft enthalten und liegen damit weit über der Klonschwelle
- In Kombination mit verifizierten Ausweisdokumenten verfügen Angreifer damit sowohl über einen Sprachklon als auch über die Nachweise, um ihn in realen Angriffen einzusetzen
Mögliche Angriffe mit den gestohlenen Sprachdaten
-
Umgehung von Bankauthentifizierung
- Mehrere Banken in den USA und Großbritannien behandeln Voice-Print-Abgleich weiterhin als einen von zwei Faktoren
- Liest ein Sprachklon des Kontoinhabers einen Challenge-Text vor, kann er die Audio-Hürde überwinden; übrig bleiben dann nur wissensbasierte Fragen, deren Antworten ebenfalls aus demselben Leak stammen könnten
-
vishing gegen Unternehmen
- Angreifer können HR- oder Finanzabteilungen anrufen, sich als Mitarbeiter ausgeben und Änderungen bei Gehaltszahlungen, Überweisungsanfragen oder das Entsperren von Workstations verlangen
- Im Archiv von Krebs on Security sind seit 2023 mehr als 24 bestätigte Fälle dokumentiert
-
Deepfake-Videoanrufe
- 2024 überwies bei Arup ein Finanzmitarbeiter nach einem Deepfake-Videoanruf mit mehreren angeblichen Teilnehmern rund 25 Millionen US-Dollar
- Damals wurden Stimme und Gesicht aus öffentlich verfügbarem Videomaterial erzeugt; das Mercor-Leak enthält dagegen Studio-Audio und verifizierte Ausweise, also deutlich besseres Material als öffentliche Videos
-
Versicherungsbetrug
- Pindrop verzeichnete 2025 bei synthetischen Sprachangriffen auf Versicherungs-Callcenter einen Anstieg von 475 % gegenüber dem Vorjahr
- Besonders im Visier stehen telefonisch bearbeitete Auto-, Lebens- und Invaliditätsansprüche
-
Notfall-Betrug durch Familien-Identitätsvortäuschung
- Das FBI Internet Crime Complaint Center bezifferte die Verluste von Opfern ab 60 Jahren im Jahr 2026 auf 2,3 Milliarden US-Dollar
- Die am schnellsten wachsende Kategorie waren Notrufe von angeblichen Angehörigen in Gefahr
Missbrauch von Stimmen erkennen und sofort reagieren
- Wer Sprachproben bei Mercor oder anderen bis 2025 aktiven Vermittlern für KI-Training hochgeladen hat, sollte sie wie ein geleaktes Passwort behandeln
- Die Stimme selbst lässt sich nicht austauschen, aber die Authentifizierungsverfahren, die damit geöffnet werden können, schon
-
Öffentliche Audiospuren prüfen
- Es sollte nach öffentlich indexierbaren Sprachproben auf YouTube, in Podcast-Verzeichnissen und alten Zoom-Aufzeichnungen gesucht werden
- Öffentlich verfügbare Sprachaufnahmen, die entfernt werden können, sollten möglichst gelöscht werden
- Je weniger öffentliches Referenz-Audio vorhanden ist, desto weniger robust wird der Klon eines Angreifers
-
Mündliche Codewörter mit Familie und Finanzkontakten festlegen
- Es sollte ein Ausdruck gewählt werden, der weder aufgezeichnet noch jemals in einen Chat eingegeben wurde
- Personen, die stellvertretend mit Geldangelegenheiten zu tun haben, sollten vorab informiert werden
- Bei Anrufen mit Überweisungsforderungen ist es sicherer, ein Codewort als Pflichtschritt festzulegen
-
Dort neu registrieren, wo Voice Prints genutzt werden
- Google Voice Match, Amazon Alexa Voice ID, Apple personal voice sowie bei Banken hinterlegte Voice Prints können gelöscht und ersetzt werden
- Sinnvoll ist eine erneute Registrierung mit einer neuen Aufnahme in einer anderen akustischen Umgebung als bei den geleakten Samples
-
Sprach-Authentifizierung bei Banken deaktivieren
- Man kann schriftlich verlangen, dass der Voice Print als Authentifizierungsfaktor entfernt wird
- Besser ist es, Multi-Faktor-Authentifizierung mit App-Token oder Hardware-Key kombiniert mit wissensbasierten Faktoren zu verlangen
- Viele Banken bieten bereits die Option, Stimme nicht als primären Authentifizierungsfaktor zu nutzen, kommunizieren das aber kaum
-
Forensische Prüfung verdächtiger Aufnahmen
- Wenn eine Audiodatei oder Sprachnachricht von einer angeblich bekannten Person Geld, Zugriff oder Sofortmaßnahmen verlangt, sollte nicht sofort gehandelt, sondern zunächst ein Deepfake-Detektor eingesetzt werden
- ORAVYS bietet Opfern des Vorfalls für die ersten drei eingereichten Samples eine kostenlose Prüfung an
- Run a forensic check →
Checkliste für die forensische Analyse
- Forensische Analysen beginnen zunächst mit der Suche nach typischen Fehlern synthetischer Stimmen
- Codec-Abweichungen zeigen sich, wenn die spektrale Signatur eines angeblichen Telefonats nicht zu bekannten Telefon-Codecs passt
- Atemmuster weichen ab, wenn eine synthetische Stimme Atemzüge auslässt oder an falschen Silbengrenzen setzt, statt wie ein realer Sprecher entsprechend Satzlänge und Lungenkapazität einzuatmen
- Mikro-Jitter bezeichnet die feinen Unregelmäßigkeiten natürlicher Stimmbandvibrationen; generiertes Audio wirkt auf Millisekundenebene oft übermäßig sauber
- Formantverläufe folgen bei realer Sprache den Vokalübergängen des Artikulationsapparats; geklonte Stimmen springen mitunter auf physikalisch unmögliche Weise zwischen Formanten
- Konsistenz der Raumakustik bedeutet, dass Nachhalleigenschaften vom Anfang bis zum Ende einer Datei gleich bleiben sollten; generiertes Audio kann trocken wirken, während angesetzter Umgebungskontext Nachhall enthält
- Abgeflachte Prosodie zeigt sich darin, dass synthetische Stimmen geringere Schwankungen bei Tonhöhe und Energie aufweisen als echte Sprecher
- Stabilität des Sprechtempos verrät sich dadurch, dass generierte Stimmen über lange Passagen metronomartig gleichmäßig bleiben, anders als reale Menschen mit natürlicher Beschleunigung und Verlangsamung
Wie ORAVYS prüft
- Für jedes eingereichte Sample werden mehr als 3.000 forensische Engines parallel ausgeführt, die Signal-, Prosodie-, Artikulations-, Codec- und Herkunftsmerkmale gemeinsam auswerten
- AudioSeal-Wasserzeichenerkennung kann Dateien markieren, die von wichtigen kommerziellen Sprachmodellen erzeugt wurden, sofern das Wasserzeichen erhalten blieb; in diesem Fall liefert sie ein eindeutiges positives Ergebnis
- Anti-Spoofing-Module wurden auf Basis des öffentlichen Benchmarks ASVspoof trainiert und bewerten, wie wahrscheinlich es ist, dass ein Sample synthetisch statt aufgenommen wurde
- Es wird eine DSGVO-konforme Verarbeitung biometrischer Daten angewendet; ohne ausdrückliche Einwilligung wird Audio nicht für das Training kommerzieller Modelle genutzt und gemäß festgelegten Aufbewahrungsfristen gelöscht
- Wenn man Mercor-Vertragskraft ist und die eigene Stimme bereits im Umlauf sein könnte, werden die ersten drei verdächtigen Samples kostenlos analysiert
- Der kostenlose Bericht enthält Wasserzeichenerkennung, Anti-Spoofing-Score und die oben genannte Artefakt-Checkliste
- Laut Anbieter sind weder Kartendaten noch Nutzungslimits erforderlich
Quellen und Einschränkungen
- Als Quellen werden der Lapsus$-Leak-Site-Index, das Wall Street Journal vom Februar 2026, der Pindrop Voice Intelligence Report 2025, der FBI IC3 Elder Fraud Report 2026 und das Archiv von Krebs on Security genannt
- ORAVYS hostet oder verteilt den geleakten Datensatz nicht weiter und akzeptiert ihn auch nicht als Eingabematerial
1 Kommentare
Hacker-News-Kommentare
Die Ironie ist gewaltig. Um den Schaden zu begrenzen, dass meine Stimme an eine AI-Firma geraten ist, soll ich meine Stimme also an noch eine andere AI-Firma schicken — absurd.
Wahrscheinlich hat auch Mercor sich mit ausdrücklicher Einwilligung irgendwo in den AGB eine juristische Hintertür offengehalten.
Man musste sprachstudio-taugliche Sprachaufnahmen und Scans von Ausweisdokumenten abgeben, obwohl für die eigentliche Data-Labeling-Arbeit beides nicht nötig war, die Einwilligung tief in den AGB versteckt war und die Leute aus Geldnot ohnehin nur klicken konnten.
Jetzt haben 40.000 Menschen gelernt, dass biometrische Daten keine Passwörter sind, und dass man seine Stimme nicht austauschen kann.
Im Idealfall sollte das Recht ein zugängliches Mittel sein, Konflikte statt mit Gewalt zu lösen, aber heute wird es viel öfter als kafkaeskes System eingesetzt, das Unternehmensmacht über Einzelpersonen absichert.
In der Praxis blockiert es fast alle Möglichkeiten rechtlicher Abhilfe, während andere Reaktionsmöglichkeiten dauerhaft hohe Kosten verursachen, etwa mehrere Wohnsitze vorzuhalten oder Sicherheitspersonal zu beschäftigen.
Das ist keine Befürwortung von Gewalt, sondern die Aussage, dass wir ein flacheres und zugänglicheres Rechtssystem brauchen.
Viele Leute haben damit faktisch sich selbst und sogar ihre eigenen Unternehmen abgehört.
Selbst wenn Mercor-Auftragnehmer eine exzessive Datenerhebung über Insightful geltend machen, ist die Konstruktion aus Unternehmenssicht ziemlich clever. Wer sich laut beschwert, riskiert nicht nur seinen Hauptjob, sondern aus Angst vor vorsätzlichem Fehlverhalten sogar unbegrenzte Haftung.
https://www.wsj.com/tech/ai/mercor-ai-startup-personal-data-lawsuit-0b5c349b?st=5qmCSK&reflink=desktopwebshare_permalink
Ich bin der Autor. Ich habe diesen Beitrag geschrieben, nachdem ich Anfang dieses Monats das Mercor-Archiv gesehen hatte, das Lapsus$ auf seiner Leak-Seite veröffentlicht hat.
Besonders auffällig war für mich die Kombination aus Sprachproben und Ausweis-Scans. Bei Leaks sieht man normalerweise das eine oder das andere; hier wurde im Grunde ein komplettes Kit übergeben, das sich direkt für Deepfakes nutzen lässt.
Ich wollte praktisch aufbereiten, was Angreifer mit dieser Kombination tatsächlich tun können, etwa Sprachverifikation bei Banken umgehen, Video-Call-Imitationen im Stil von Arup, Versicherungsbetrug und außerdem eine 5-Punkte-Checkliste für betroffene Auftragnehmer.
Über forensische Erkennung kann ich auch sprechen. AudioSeal-Wasserzeichen, AASIST-Anti-Spoofing und die Frage, wie sich die Erkennungslandschaft verändert, wenn biometrische Sprachdaten in großem Maßstab geleakt werden, sind ebenfalls wichtig.
Ein Social-Media-Post ist vielleicht keine offizielle Mitteilung, aber ich habe dieses in Kalifornien eingereichte Muster einer Benachrichtigung über die Datenpanne gefunden.
Mal sehen, ob unsere Gesetzgeber Datenschutz diesmal ernst nehmen.
https://oag.ca.gov/ecrime/databreach/reports/sb24-621099
Auch auf Apple-Geräten nutze ich keine Biometrie, sondern nur eine 6-stellige PIN.
Ich fand das von Anfang an eine dumme Idee.
Immer wieder wird Bequemlichkeit gegen Sicherheit eingetauscht, und wer sich nicht für Bequemlichkeit entscheidet, gilt als paranoid — und wenn dann tatsächlich etwas passiert, gilt man aus einem anderen Grund immer noch als paranoid.
Nur Daten, die nicht existieren, können nicht gestohlen oder geleakt werden. Eine schmerzhafte Lehre sowohl für Nutzer als auch für Unternehmen.
Im Deutschen gibt es dafür sogar das Wort Datensparsamkeit. Es bedeutet ungefähr, sparsam mit Daten umzugehen.
In den 1970er Jahren gab es in Deutschland große Debatten über Privatsphäre und Datenspeicherung, und Begriffe wie Datenschatten wurden ebenfalls verwendet.
Diese Tradition kommt vermutlich aus der Reflexion nach dem Zweiten Weltkrieg und dem Nachdenken über Verwaltungssysteme.
Heute will jeder von allem mehr sammeln, weil es Daten für AI sein könnten.
Sie können kopiert oder gelöscht werden, manchmal auch beides gleichzeitig.
Man kann nur dann sagen, dass Daten wirklich verschwunden sind, wenn auch die letzte Kopie gelöscht wurde.
In Enterprise-Bedrohungsmodellen tauchen die eigenen Nutzer mit auf, und operativ bedeutet das oft, möglichst viele Informationen über genau diese Bedrohung zu horten.
Zum Beispiel ist Mozillas Common Voice-Datensatz nichts, was irgendjemand stehlen könnte.
Ich war gestern in Houston in der Nähe ehemaliger Behördenleute und früherer GS15er, und mir wurde erklärt, dass die israelische Cybersecurity-Seite sich in den letzten 20 Jahren irgendwo in die Voicemail-Lieferkette eingeklinkt habe und so die Mailboxen aller mitnehmen konnte.
Es ist unheimlich, wie viele Möglichkeiten es inzwischen gibt, Audiodaten zu verwerten.
Dann müssten jetzt wohl alle einfach ihre Stimme austauschen, oder?
Scherz beiseite: Die meisten normalen Menschen, die ich kenne, geben ihre biometrischen Daten einfach her, weil es bequemer ist.
Man sollte Biometrie eher als dauerhaftes Passwort branden, damit die Leute verstehen, was sie da eigentlich abgeben, wenn sie damit auf ihr Bankkonto zugreifen oder Disney World betreten.
Fingerabdrücke, DNA, Iris, Gangbild und Ähnliches sind dauerhafte Identifikatoren, die sich kaum ändern lassen und wie eine E-Mail-Adresse ständig in der Welt exponiert werden.
Dazu kommt, dass die Polizei in den USA Fingerabdrücke erzwingen kann, während Passwörter unter dem Schutz des fünften Verfassungszusatzes stehen.
Sie leben gut mit sozialem Vertrauen und plausibler Abstreitbarkeit und machen sich wenig daraus, solange ihnen selbst kein Fehler angelastet wird.
Sich Risiken auszusetzen und dafür verantwortlich zu sein, ist für sie nicht dasselbe.
In gewisser Weise beneide ich sie ein wenig. Sie leben mit der Annahme, dass die Welt eigentlich so funktionieren sollte.
Gemeint war, dass Kunden sie nicht vergessen und weniger Support brauchen, daher könnten viele Leute den Begriff tatsächlich positiv aufnehmen.
Dass Mercor 40.000 Auftragnehmer getäuscht und die Datensicherheit völlig vermasselt hat, ist wirklich schlimm.
So etwas sollte stärkere Konsequenzen nach sich ziehen.
Deshalb könnte das Ergebnis dieses ganzen Chaos am Ende sogar in mehr Geschäft für Mercor münden.
Etwas Ähnliches hat man schon bei Crowdstrike gesehen.
Wenn ein Angreifer 30 Sekunden saubere Sprachaufnahme von jemandem und einen Scan seines Führerscheins hat, kann er ziemlich viel anstellen.
Allein meine Bank und mein Broker verwenden Voice ID.
Es wirkt fast so, als sei der eigentliche Zweck dieser Firma, genau solche Daten abzugreifen.
Dort sammeln sie massenhaft Videos, Stimmen und allerlei andere Dinge.
Falls das stimmt, ist das größere Problem vielleicht nicht einmal der Leak selbst.
Wir gleiten stillschweigend in eine Welt, in der man mit Stimme + Ausweis jemanden vollständig imitieren kann, während die meisten Systeme noch gar nicht für diese Realität entworfen wurden.
Darin steckt auch eine unschöne Arbeitsfrage.
Die Menschen, die solche Systeme labeln und trainieren, sind genau dann am schlechtesten geschützt, wenn die Datenpipeline selbst zur Angriffsfläche wird.