Bei Mercor wurden 4 TB Sprachproben von 40.000 KI-Vertragskräften geleakt

(app.oravys.com)

1 Punkte von GN⁺ 2 일 전 | 1 Kommentare | Auf WhatsApp teilen

Es kam zu einem massiven Leak, bei dem Stimm-Biometriedaten und staatlich ausgestellte Ausweisdokumente in einer einzigen Datenzeile verknüpft waren; laut Index der geleakten Samples sind mehr als 40.000 KI-Vertragskräfte betroffen
Pro Vertragskraft enthalten die Daten im Schnitt 2–5 Minuten saubere Aufnahmen und liegen damit deutlich über der Schwelle für Voice Cloning, das oft schon mit etwa 15 Sekunden Referenz-Audio möglich ist
Die geleakten Daten liefern sowohl Sprachklone als auch verifizierte Identitäten und können für Umgehung von Sprach-Bankauthentifizierung, vishing gegen Unternehmen, Deepfake-Videoanrufe, Versicherungsbetrug und Notruf-Betrug durch Identitätsvortäuschung gegenüber Familienmitgliedern missbraucht werden
Wer Sprachproben bei Mercor oder anderen bis 2025 aktiven Vermittlern für KI-Training hochgeladen hat, sollte sie wie ein geleaktes Passwort behandeln; nötig sind das Entfernen öffentlicher Sprachspuren, das Festlegen von Codewörtern sowie die Neuregistrierung und Deaktivierung von Voice Prints
Verdächtige Stimmen sollten per forensischer Analyse auf Codec-Abweichungen, Atemmuster, Mikro-Jitter, Formantverläufe, Konsistenz der Raumakustik sowie Anomalien bei Prosodie und Sprechtempo geprüft werden; der Vorfall zeigt grundsätzliche Schwächen sprachbasierter Authentifizierung

Überblick über den Sicherheitsvorfall

Am 4. April 2026 veröffentlichte Lapsus$ Mercor auf seiner Leak-Seite; das Datenleck soll rund 4 TB umfassen
Im geleakten Archiv waren Stimm-Biometriedaten und staatlich ausgestellte Ausweise derselben Personen gemeinsam gebündelt; laut Index der geleakten Samples sind mehr als 40.000 Vertragskräfte betroffen
Betroffen waren Personen, die sich als Vertragskräfte für KI-Trainings-Datenlabeling, das Einsprechen vorgelesener Sätze und Verifikationsanrufe registriert hatten
Innerhalb von 10 Tagen nach der Veröffentlichung wurden fünf Klagen von Vertragskräften eingereicht; darin wird behauptet, dass Voice Prints als „Trainingsdaten“ gesammelt wurden, ohne klar offenzulegen, dass es sich um dauerhafte biometrische Identifikatoren handelt

Warum dieser Leak anders ist

Sprachlecks der vergangenen zehn Jahre betrafen meist entweder Anrufaufzeichnungen mit schwer herstellbarem Personenbezug oder Ausweis- und Selfie-Leaks ohne Audio
Der Registrierungsprozess von Mercor kombinierte Pass- oder Führerschein-Scans, Webcam-Selfies und Sprachaufnahmen beim Vorlesen eines Skripts in ruhiger Umgebung zu einer einzigen Datenzeile
Diese Kombination entspricht exakt dem Format, das synthetische Voice-Cloning-Dienste als Eingabe benötigen
Laut einem Bericht des Wall Street Journal vom Februar 2026 benötigen marktübliche Tools für hochwertiges Voice Cloning nur etwa 15 Sekunden sauberes Referenz-Audio
Die Mercor-Aufnahmen sollen im Schnitt 2–5 Minuten Sprachmaterial in Studioqualität pro Vertragskraft enthalten und liegen damit weit über der Klonschwelle
In Kombination mit verifizierten Ausweisdokumenten verfügen Angreifer damit sowohl über einen Sprachklon als auch über die Nachweise, um ihn in realen Angriffen einzusetzen

Mögliche Angriffe mit den gestohlenen Sprachdaten

Umgehung von Bankauthentifizierung
- Mehrere Banken in den USA und Großbritannien behandeln Voice-Print-Abgleich weiterhin als einen von zwei Faktoren
- Liest ein Sprachklon des Kontoinhabers einen Challenge-Text vor, kann er die Audio-Hürde überwinden; übrig bleiben dann nur wissensbasierte Fragen, deren Antworten ebenfalls aus demselben Leak stammen könnten
vishing gegen Unternehmen
- Angreifer können HR- oder Finanzabteilungen anrufen, sich als Mitarbeiter ausgeben und Änderungen bei Gehaltszahlungen, Überweisungsanfragen oder das Entsperren von Workstations verlangen
- Im Archiv von Krebs on Security sind seit 2023 mehr als 24 bestätigte Fälle dokumentiert
Deepfake-Videoanrufe
- 2024 überwies bei Arup ein Finanzmitarbeiter nach einem Deepfake-Videoanruf mit mehreren angeblichen Teilnehmern rund 25 Millionen US-Dollar
- Damals wurden Stimme und Gesicht aus öffentlich verfügbarem Videomaterial erzeugt; das Mercor-Leak enthält dagegen Studio-Audio und verifizierte Ausweise, also deutlich besseres Material als öffentliche Videos
Versicherungsbetrug
- Pindrop verzeichnete 2025 bei synthetischen Sprachangriffen auf Versicherungs-Callcenter einen Anstieg von 475 % gegenüber dem Vorjahr
- Besonders im Visier stehen telefonisch bearbeitete Auto-, Lebens- und Invaliditätsansprüche
Notfall-Betrug durch Familien-Identitätsvortäuschung
- Das FBI Internet Crime Complaint Center bezifferte die Verluste von Opfern ab 60 Jahren im Jahr 2026 auf 2,3 Milliarden US-Dollar
- Die am schnellsten wachsende Kategorie waren Notrufe von angeblichen Angehörigen in Gefahr

Missbrauch von Stimmen erkennen und sofort reagieren

Wer Sprachproben bei Mercor oder anderen bis 2025 aktiven Vermittlern für KI-Training hochgeladen hat, sollte sie wie ein geleaktes Passwort behandeln
Die Stimme selbst lässt sich nicht austauschen, aber die Authentifizierungsverfahren, die damit geöffnet werden können, schon
Öffentliche Audiospuren prüfen
- Es sollte nach öffentlich indexierbaren Sprachproben auf YouTube, in Podcast-Verzeichnissen und alten Zoom-Aufzeichnungen gesucht werden
- Öffentlich verfügbare Sprachaufnahmen, die entfernt werden können, sollten möglichst gelöscht werden
- Je weniger öffentliches Referenz-Audio vorhanden ist, desto weniger robust wird der Klon eines Angreifers
Mündliche Codewörter mit Familie und Finanzkontakten festlegen
- Es sollte ein Ausdruck gewählt werden, der weder aufgezeichnet noch jemals in einen Chat eingegeben wurde
- Personen, die stellvertretend mit Geldangelegenheiten zu tun haben, sollten vorab informiert werden
- Bei Anrufen mit Überweisungsforderungen ist es sicherer, ein Codewort als Pflichtschritt festzulegen
Dort neu registrieren, wo Voice Prints genutzt werden
- Google Voice Match, Amazon Alexa Voice ID, Apple personal voice sowie bei Banken hinterlegte Voice Prints können gelöscht und ersetzt werden
- Sinnvoll ist eine erneute Registrierung mit einer neuen Aufnahme in einer anderen akustischen Umgebung als bei den geleakten Samples
Sprach-Authentifizierung bei Banken deaktivieren
- Man kann schriftlich verlangen, dass der Voice Print als Authentifizierungsfaktor entfernt wird
- Besser ist es, Multi-Faktor-Authentifizierung mit App-Token oder Hardware-Key kombiniert mit wissensbasierten Faktoren zu verlangen
- Viele Banken bieten bereits die Option, Stimme nicht als primären Authentifizierungsfaktor zu nutzen, kommunizieren das aber kaum
Forensische Prüfung verdächtiger Aufnahmen
- Wenn eine Audiodatei oder Sprachnachricht von einer angeblich bekannten Person Geld, Zugriff oder Sofortmaßnahmen verlangt, sollte nicht sofort gehandelt, sondern zunächst ein Deepfake-Detektor eingesetzt werden
- ORAVYS bietet Opfern des Vorfalls für die ersten drei eingereichten Samples eine kostenlose Prüfung an
- Run a forensic check →

Checkliste für die forensische Analyse

Forensische Analysen beginnen zunächst mit der Suche nach typischen Fehlern synthetischer Stimmen
Codec-Abweichungen zeigen sich, wenn die spektrale Signatur eines angeblichen Telefonats nicht zu bekannten Telefon-Codecs passt
Atemmuster weichen ab, wenn eine synthetische Stimme Atemzüge auslässt oder an falschen Silbengrenzen setzt, statt wie ein realer Sprecher entsprechend Satzlänge und Lungenkapazität einzuatmen
Mikro-Jitter bezeichnet die feinen Unregelmäßigkeiten natürlicher Stimmbandvibrationen; generiertes Audio wirkt auf Millisekundenebene oft übermäßig sauber
Formantverläufe folgen bei realer Sprache den Vokalübergängen des Artikulationsapparats; geklonte Stimmen springen mitunter auf physikalisch unmögliche Weise zwischen Formanten
Konsistenz der Raumakustik bedeutet, dass Nachhalleigenschaften vom Anfang bis zum Ende einer Datei gleich bleiben sollten; generiertes Audio kann trocken wirken, während angesetzter Umgebungskontext Nachhall enthält
Abgeflachte Prosodie zeigt sich darin, dass synthetische Stimmen geringere Schwankungen bei Tonhöhe und Energie aufweisen als echte Sprecher
Stabilität des Sprechtempos verrät sich dadurch, dass generierte Stimmen über lange Passagen metronomartig gleichmäßig bleiben, anders als reale Menschen mit natürlicher Beschleunigung und Verlangsamung

Wie ORAVYS prüft

Für jedes eingereichte Sample werden mehr als 3.000 forensische Engines parallel ausgeführt, die Signal-, Prosodie-, Artikulations-, Codec- und Herkunftsmerkmale gemeinsam auswerten
AudioSeal-Wasserzeichenerkennung kann Dateien markieren, die von wichtigen kommerziellen Sprachmodellen erzeugt wurden, sofern das Wasserzeichen erhalten blieb; in diesem Fall liefert sie ein eindeutiges positives Ergebnis
Anti-Spoofing-Module wurden auf Basis des öffentlichen Benchmarks ASVspoof trainiert und bewerten, wie wahrscheinlich es ist, dass ein Sample synthetisch statt aufgenommen wurde
Es wird eine DSGVO-konforme Verarbeitung biometrischer Daten angewendet; ohne ausdrückliche Einwilligung wird Audio nicht für das Training kommerzieller Modelle genutzt und gemäß festgelegten Aufbewahrungsfristen gelöscht
Wenn man Mercor-Vertragskraft ist und die eigene Stimme bereits im Umlauf sein könnte, werden die ersten drei verdächtigen Samples kostenlos analysiert
Der kostenlose Bericht enthält Wasserzeichenerkennung, Anti-Spoofing-Score und die oben genannte Artefakt-Checkliste
Laut Anbieter sind weder Kartendaten noch Nutzungslimits erforderlich

Quellen und Einschränkungen

Als Quellen werden der Lapsus$-Leak-Site-Index, das Wall Street Journal vom Februar 2026, der Pindrop Voice Intelligence Report 2025, der FBI IC3 Elder Fraud Report 2026 und das Archiv von Krebs on Security genannt
ORAVYS hostet oder verteilt den geleakten Datensatz nicht weiter und akzeptiert ihn auch nicht als Eingabematerial

1 Kommentare

GN⁺ 2 일 전

Hacker-News-Kommentare

Die Ironie ist gewaltig. Um den Schaden zu begrenzen, dass meine Stimme an eine AI-Firma geraten ist, soll ich meine Stimme also an noch eine andere AI-Firma schicken — absurd.
Wahrscheinlich hat auch Mercor sich mit ausdrücklicher Einwilligung irgendwo in den AGB eine juristische Hintertür offengehalten.
- Noch bitterer als das Angebot einer kostenlosen Analyse ist, dass schon die Vertragsstruktur von Mercor von Anfang an genau diesem Muster folgte.
  Man musste sprachstudio-taugliche Sprachaufnahmen und Scans von Ausweisdokumenten abgeben, obwohl für die eigentliche Data-Labeling-Arbeit beides nicht nötig war, die Einwilligung tief in den AGB versteckt war und die Leute aus Geldnot ohnehin nur klicken konnten.
  Jetzt haben 40.000 Menschen gelernt, dass biometrische Daten keine Passwörter sind, und dass man seine Stimme nicht austauschen kann.
- Der Ausdruck CYA scheint die Realität viel zu harmlos zu verpacken.
  Im Idealfall sollte das Recht ein zugängliches Mittel sein, Konflikte statt mit Gewalt zu lösen, aber heute wird es viel öfter als kafkaeskes System eingesetzt, das Unternehmensmacht über Einzelpersonen absichert.
  In der Praxis blockiert es fast alle Möglichkeiten rechtlicher Abhilfe, während andere Reaktionsmöglichkeiten dauerhaft hohe Kosten verursachen, etwa mehrere Wohnsitze vorzuhalten oder Sicherheitspersonal zu beschäftigen.
  Das ist keine Befürwortung von Gewalt, sondern die Aussage, dass wir ein flacheres und zugänglicheres Rechtssystem brauchen.
- Im WSJ-Artikel von letzter Woche wirkt es so, als ziele Mercor auf Grauzonen im Vertragsrecht. Es ging nicht nur um Stimmen.
  Viele Leute haben damit faktisch sich selbst und sogar ihre eigenen Unternehmen abgehört.
  Selbst wenn Mercor-Auftragnehmer eine exzessive Datenerhebung über Insightful geltend machen, ist die Konstruktion aus Unternehmenssicht ziemlich clever. Wer sich laut beschwert, riskiert nicht nur seinen Hauptjob, sondern aus Angst vor vorsätzlichem Fehlverhalten sogar unbegrenzte Haftung.
  https://www.wsj.com/tech/ai/mercor-ai-startup-personal-data-lawsuit-0b5c349b?st=5qmCSK&reflink=desktopwebshare_permalink
- Als ich mein Airbnb-Konto löschen wollte, verlangten sie Scans der Vorder- und Rückseite meines Ausweises, also habe ich es einfach aufgegeben und die Firma seitdem nicht mehr genutzt.
- Klingt ein bisschen so, als müsste man erst seine Identität nachweisen, um eine Entschädigung wegen Identitätsdiebstahls zu bekommen.
Ich bin der Autor. Ich habe diesen Beitrag geschrieben, nachdem ich Anfang dieses Monats das Mercor-Archiv gesehen hatte, das Lapsus$ auf seiner Leak-Seite veröffentlicht hat.
Besonders auffällig war für mich die Kombination aus Sprachproben und Ausweis-Scans. Bei Leaks sieht man normalerweise das eine oder das andere; hier wurde im Grunde ein komplettes Kit übergeben, das sich direkt für Deepfakes nutzen lässt.
Ich wollte praktisch aufbereiten, was Angreifer mit dieser Kombination tatsächlich tun können, etwa Sprachverifikation bei Banken umgehen, Video-Call-Imitationen im Stil von Arup, Versicherungsbetrug und außerdem eine 5-Punkte-Checkliste für betroffene Auftragnehmer.
Über forensische Erkennung kann ich auch sprechen. AudioSeal-Wasserzeichen, AASIST-Anti-Spoofing und die Frage, wie sich die Erkennungslandschaft verändert, wenn biometrische Sprachdaten in großem Maßstab geleakt werden, sind ebenfalls wichtig.
- Interessantes Material. Mercor hat nach dem Vorfall fast keine öffentliche Stellungnahme abgegeben.
  Ein Social-Media-Post ist vielleicht keine offizielle Mitteilung, aber ich habe dieses in Kalifornien eingereichte Muster einer Benachrichtigung über die Datenpanne gefunden.
  Mal sehen, ob unsere Gesetzgeber Datenschutz diesmal ernst nehmen.
  https://oag.ca.gov/ecrime/databreach/reports/sb24-621099
- Als HSBC vor ein paar Jahren Sprachauthentifizierung vorgeschlagen hat, habe ich sofort abgelehnt.
  Auch auf Apple-Geräten nutze ich keine Biometrie, sondern nur eine 6-stellige PIN.
  Ich fand das von Anfang an eine dumme Idee.
  Immer wieder wird Bequemlichkeit gegen Sicherheit eingetauscht, und wer sich nicht für Bequemlichkeit entscheidet, gilt als paranoid — und wenn dann tatsächlich etwas passiert, gilt man aus einem anderen Grund immer noch als paranoid.
Nur Daten, die nicht existieren, können nicht gestohlen oder geleakt werden. Eine schmerzhafte Lehre sowohl für Nutzer als auch für Unternehmen.
Im Deutschen gibt es dafür sogar das Wort Datensparsamkeit. Es bedeutet ungefähr, sparsam mit Daten umzugehen.
- Dass es im Deutschen überhaupt so ein Wort gibt, hat auch einen historischen Kontext.
  In den 1970er Jahren gab es in Deutschland große Debatten über Privatsphäre und Datenspeicherung, und Begriffe wie Datenschatten wurden ebenfalls verwendet.
  Diese Tradition kommt vermutlich aus der Reflexion nach dem Zweiten Weltkrieg und dem Nachdenken über Verwaltungssysteme.
- Vor LLMs konnte man noch gut argumentieren, dass unnötige Daten einfach nur Haftung und Risiko erhöhen.
  Heute will jeder von allem mehr sammeln, weil es Daten für AI sein könnten.
- Daten sind keine physischen Gegenstände, also werden sie streng genommen nicht gestohlen.
  Sie können kopiert oder gelöscht werden, manchmal auch beides gleichzeitig.
  Man kann nur dann sagen, dass Daten wirklich verschwunden sind, wenn auch die letzte Kopie gelöscht wurde.
- Unternehmen lernen diese Lektion aber fast nie.
  In Enterprise-Bedrohungsmodellen tauchen die eigenen Nutzer mit auf, und operativ bedeutet das oft, möglichst viele Informationen über genau diese Bedrohung zu horten.
- Bei bereits öffentlichen Daten ist der Begriff Leak oder Diebstahl schwer anwendbar.
  Zum Beispiel ist Mozillas Common Voice-Datensatz nichts, was irgendjemand stehlen könnte.
Ich war gestern in Houston in der Nähe ehemaliger Behördenleute und früherer GS15er, und mir wurde erklärt, dass die israelische Cybersecurity-Seite sich in den letzten 20 Jahren irgendwo in die Voicemail-Lieferkette eingeklinkt habe und so die Mailboxen aller mitnehmen konnte.
Es ist unheimlich, wie viele Möglichkeiten es inzwischen gibt, Audiodaten zu verwerten.
Dann müssten jetzt wohl alle einfach ihre Stimme austauschen, oder?
Scherz beiseite: Die meisten normalen Menschen, die ich kenne, geben ihre biometrischen Daten einfach her, weil es bequemer ist.
Man sollte Biometrie eher als dauerhaftes Passwort branden, damit die Leute verstehen, was sie da eigentlich abgeben, wenn sie damit auf ihr Bankkonto zugreifen oder Disney World betreten.
- Funktional ist Biometrie einem Benutzernamen näher als einem Passwort.
  Fingerabdrücke, DNA, Iris, Gangbild und Ähnliches sind dauerhafte Identifikatoren, die sich kaum ändern lassen und wie eine E-Mail-Adresse ständig in der Welt exponiert werden.
  Dazu kommt, dass die Polizei in den USA Fingerabdrücke erzwingen kann, während Passwörter unter dem Schutz des fünften Verfassungszusatzes stehen.
- Menschen, die sagen weil es bequemer ist, haben oft eine grundsätzlich andere Denkweise.
  Sie leben gut mit sozialem Vertrauen und plausibler Abstreitbarkeit und machen sich wenig daraus, solange ihnen selbst kein Fehler angelastet wird.
  Sich Risiken auszusetzen und dafür verantwortlich zu sein, ist für sie nicht dasselbe.
  In gewisser Weise beneide ich sie ein wenig. Sie leben mit der Annahme, dass die Welt eigentlich so funktionieren sollte.
- Als ich bei einer Bank gearbeitet habe, wurde der Ausdruck forever passwords sogar positiv verwendet.
  Gemeint war, dass Kunden sie nicht vergessen und weniger Support brauchen, daher könnten viele Leute den Begriff tatsächlich positiv aufnehmen.
Dass Mercor 40.000 Auftragnehmer getäuscht und die Datensicherheit völlig vermasselt hat, ist wirklich schlimm.
So etwas sollte stärkere Konsequenzen nach sich ziehen.
- Was jetzt wahrscheinlich passiert, ist, dass ahnungslosen CTOs, die dieses Unternehmen bisher nicht kannten, nun der Name bekannt wird.
  Deshalb könnte das Ergebnis dieses ganzen Chaos am Ende sogar in mehr Geschäft für Mercor münden.
  Etwas Ähnliches hat man schon bei Crowdstrike gesehen.
- Wenn man schon Stimmabdrücke sammelt, sollten dafür mindestens deutlich strengere Anforderungen an Einwilligung, Aufbewahrung und Sicherheit gelten als für gewöhnliche Trainingsdaten.
Wenn ein Angreifer 30 Sekunden saubere Sprachaufnahme von jemandem und einen Scan seines Führerscheins hat, kann er ziemlich viel anstellen.
Allein meine Bank und mein Broker verwenden Voice ID.
Es wirkt fast so, als sei der eigentliche Zweck dieser Firma, genau solche Daten abzugreifen.
- In der Datenschutzerklärung wird das noch deutlicher.
  Dort sammeln sie massenhaft Videos, Stimmen und allerlei andere Dinge.
Falls das stimmt, ist das größere Problem vielleicht nicht einmal der Leak selbst.
Wir gleiten stillschweigend in eine Welt, in der man mit Stimme + Ausweis jemanden vollständig imitieren kann, während die meisten Systeme noch gar nicht für diese Realität entworfen wurden.
Darin steckt auch eine unschöne Arbeitsfrage.
Die Menschen, die solche Systeme labeln und trainieren, sind genau dann am schlechtesten geschützt, wenn die Datenpipeline selbst zur Angriffsfläche wird.

Bei Mercor wurden 4 TB Sprachproben von 40.000 KI-Vertragskräften geleakt

Überblick über den Sicherheitsvorfall

Warum dieser Leak anders ist

Mögliche Angriffe mit den gestohlenen Sprachdaten

Umgehung von Bankauthentifizierung

vishing gegen Unternehmen

Deepfake-Videoanrufe

Versicherungsbetrug

Notfall-Betrug durch Familien-Identitätsvortäuschung

Missbrauch von Stimmen erkennen und sofort reagieren

Öffentliche Audiospuren prüfen

Mündliche Codewörter mit Familie und Finanzkontakten festlegen

Dort neu registrieren, wo Voice Prints genutzt werden

Sprach-Authentifizierung bei Banken deaktivieren

Forensische Prüfung verdächtiger Aufnahmen

Checkliste für die forensische Analyse

Wie ORAVYS prüft

Quellen und Einschränkungen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare