- Ein großer Datensatz mit insgesamt 1.957.476.021 eindeutigen E-Mail-Adressen und 1,3 Milliarden Passwörtern wurde veröffentlicht und neu zu Have I Been Pwned (HIBP) hinzugefügt
- Davon waren 625 Millionen Passwörter zuvor noch nie entdeckt worden, was dies zum umfangreichsten Datensatz macht, den HIBP je verarbeitet hat
- Die Daten stammen aus von Synthient gesammelten Threat-Intelligence-Daten und enthalten Credential-Stuffing-Material mit E-Mail-/Passwort-Kombinationen aus mehreren Sicherheitsverletzungen
- Um die Echtheit der Daten zu prüfen, bat HIBP Abonnenten um direkte Bestätigung; dabei stellte sich heraus, dass einige noch tatsächlich verwendete Passwörter enthalten waren
- Diese Indexierung ist kein Gmail-Leak, sondern das Ergebnis der Sammlung von Zugangsdaten von Opfern von Malware-Infektionen; Nutzer können über HIBP oder Pwned Passwords prüfen, ob sie betroffen sind
Datenüberblick
- Der Datensatz enthält 1.957.476.021 eindeutige E-Mail-Adressen und 1,3 Milliarden Passwörter
- Davon sind 625 Millionen Passwörter Einträge, die HIBP erstmals entdeckt hat
- Es ist der größte Datensatz, den HIBP bisher verarbeitet hat, etwa dreimal so groß wie der bisher größte Leak
- Die Daten sind Teil von von Synthient gesammelten Threat-Intelligence-Daten und enthalten Credential-Stuffing-Listen
- Credential-Stuffing-Daten entstehen durch die Wiederverwendung von aus mehreren Sicherheitsverletzungen stammenden E-Mail-/Passwort-Kombinationen
- Weil viele dasselbe Passwort auf mehreren Websites nutzen, kann ein einzelner Leak zur Kompromittierung von Konten bei anderen Diensten führen
Prozess der Datenvalidierung
- Die Validierung begann mit der persönlichen E-Mail-Adresse des Autors; einige ältere Passwörter stimmten tatsächlich überein
- Andere Passwörter kamen ihm unbekannt vor, und einige enthielten ungewöhnliche Werte wie etwa IP-Adressen
- Auch HIBP-Abonnenten wurden um Validierung gebeten, um mehrere Fälle zu sammeln
- Bei einem Nutzer waren sowohl ein altes Passwort als auch ein aktuelleres Passwort enthalten, woraufhin er es sofort änderte
- Ein anderer Nutzer stellte fest, dass Passwörter enthalten waren, die er vor 10 bis 20 Jahren verwendet hatte
- Einige Antwortende fanden Passwörter offengelegt, die sie noch immer in aktiven Konten verwenden
- Das Ergebnis der Validierung zeigt, dass die Daten eine Mischung aus alten Informationen und tatsächlich noch verwendeten Passwörtern enthalten
- Einige Einträge waren automatisch generierte Passwörter oder so alt, dass man sich nicht mehr daran erinnerte
Suchfunktion von Pwned Passwords
- Der Pwned-Passwords-Dienst von HIBP speichert E-Mail-Adressen und Passwörter getrennt
- Das dient Sicherheit und Datenschutz und verhindert das Risiko, dass E-Mail-/Passwort-Paare offengelegt werden
- Nutzer können auf folgende Weise prüfen, ob ein Passwort offengelegt wurde
- Nutzung der Pwned Passwords-Suchseite
- Codebasierte Suche über die k-anonymity API
- Automatische Prüfung über die 1Password Watchtower-Funktion
- Alle 4-stelligen PIN-Kombinationen sind bereits offengelegt worden, und es gibt auch eine Visualisierung der PIN-Nutzungsmuster auf Basis der HIBP-Daten
Kein Gmail-Leak
- Dieser Vorfall steht in keinem Zusammenhang mit einer Gmail-Sicherheitslücke, sondern betrifft Zugangsdaten von Opfern, die durch Malware-Infektionen gesammelt wurden
- Der vollständige Datensatz enthält 32 Millionen E-Mail-Domains, davon entfallen 394 Millionen auf gmail.com
- Gmail-Adressen machen nur etwa 20 % des Gesamtbestands aus, die übrigen 80 % gehören zu anderen Domains
- Es besteht kein Zusammenhang mit einem Sicherheitsfehler von Google
Technischer Verarbeitungsprozess
- Diese Datenmenge ist etwa dreimal so groß wie der bisher größte Leak, was die Verarbeitung äußerst komplex machte
- HIBP verarbeitete die Daten rund zwei Wochen lang in einer Azure SQL Hyperscale(80-Core)-Umgebung
- Bei der Erzeugung der SHA1-Hashes der E-Mail-Adressen schlugen Mass Updates fehl, weshalb auf Batch-Verarbeitung in Einheiten zu je 1 Million Datensätzen umgestellt wurde
- 2,9 Millionen von 5,9 Millionen Abonnenten sind in diesen Daten enthalten
- Um Spam-Filter und Serverlimits beim Massenversand von E-Mails zu vermeiden, wurde eine schrittweise Versandstrategie eingesetzt
- Das Versandvolumen wurde mit einer Steigerung um den Faktor 1,015 pro Stunde angepasst, was pro Tag etwa 45 % Wachstum entspricht
- DKIM-, DMARC- und SPF-Konfigurationen sowie dedizierte IPs sorgten für die notwendige Vertrauenswürdigkeit
- Die Antwortgröße der Pwned Passwords API stieg im Durchschnitt von 26 KB auf 40 KB
- Der Grund ist, dass die Größe der Hash-Bereiche um etwa 50 % gewachsen ist; die Effizienz blieb dank brotli-Komprimierung erhalten
Fazit und empfohlene Maßnahmen
- Dieser Datensatz ist in HIBP unter „Synthient Credential Stuffing Threat Data“ auffindbar
- Es handelt sich um einen vom bisherigen Synthient-Datensatz getrennten Datensatz, mit einigen Überschneidungen
- HIBP hat die Integrität der Daten geprüft und bietet datenschutzorientierte Suchfunktionen an
- Empfohlene Sicherheitsmaßnahmen für Nutzer
- Einen Passwort-Manager verwenden
- Starke und einzigartige Passwörter erzeugen
- Passkeys verwenden und Multi-Faktor-Authentifizierung (MFA) aktivieren
- HIBP weist darauf hin, dass diese Arbeit ein sehr zeit- und kostenintensives Projekt war, und bittet Nutzer, sich statt auf Anfragen nach Datenzugang auf bessere Sicherheitsgewohnheiten zu konzentrieren
1 Kommentare
Hacker-News-Kommentare
Es gab inzwischen einfach zu viele Datenlecks. Meine Adresse, SSN, Telefonnummer, E-Mail und praktisch alles andere scheinen mehrfach offengelegt worden zu sein
Ich habe Benachrichtigungen über Lecks von Universitäten, Jobportalen, sozialen Medien usw. erhalten, und darüber hinaus kursieren meine Daten vermutlich auch durch legale Big-Data-Analysen
Inzwischen speichere und verwalte ich starke Passwörter in Bitwarden, aber ich habe das Gefühl, dass alte Konten von früher weiterhin gefährdet sind
Ehrlich gesagt weiß ich nicht, was ich jetzt noch tun kann. Es ist frustrierend, dass meine Daten bereits draußen sind
In meiner Freizeit räume ich alte Konten auf. Dadurch kann ich Spam oder die Quelle eines Lecks sofort an der E-Mail-Adresse erkennen
Mit Sieve-Filterung lässt sich das noch viel präziser sortieren. Wenn man
envelope toundheader tozusammen verwendet, lassen sich auch BCC- oder Alias-Mails zuverlässig herausfilternZugehörige Dokumentation: RFC5228 Sieve Filtering
Früher habe ich dank Spam-Mails, die eines meiner alten Passwörter enthielten, sogar vergessene Konten wiedergefunden
Meine Frau sagt, der Schutz von Informationen im Internet sei bereits ein verlorener Kampf. Vielleicht hat sie damit recht
Telefonnummern standen früher schließlich auch alle im Telefonbuch. Es fühlt sich immer noch wie öffentliche Information an
Früher hat jemand mit meinen Daten Kabelfernsehen angemeldet, und ich musste mich abmühen, das wieder aus meiner Kredithistorie entfernen zu lassen
Troy kann jetzt wohl eine Menge DB-Speicherplatz sparen
Im Grunde könnte man einfach
schreiben, so sehr fühlt es sich an, als wäre inzwischen jede E-Mail kompromittiert
Dafür haben meine Wegwerf- oder Nebenadressen jeweils schon 9 Lecks auf dem Konto
In diesen Daten scheint auch nicht öffentlich bekanntes Leak-Material von Spotify enthalten zu sein
Anfang 2020 wurde bei meinem Spotify-Konto mit schwachem Passwort einmal von einer US-IP aus eingeloggt
Ein paar Stunden später schickte Spotify automatisch eine Passwort-Zurücksetzung, aber eine offizielle Meldung über ein Leak gab es nie
Erst jetzt taucht diese E-Mail bei HIBP auf
Ich habe großen Respekt vor Troy Hunts Arbeit, aber wenn ich meine E-Mail bei Have I Been Pwned suche, gibt es praktisch keine konkreten Handlungsmöglichkeiten
Auf der Website steht im Wesentlichen nur, dass man vorsichtig sein und seine Passwörter gut verwalten solle
Es ist unrealistisch, mehr als 500 Passwörter komplett auszutauschen. Am Ende bleibt einem nur, sich auf Passwortmanager wie Bitwarden, 1Password oder Chrome zu verlassen
Ich habe früher auch Passwörter wiederverwendet und irgendwann wurden dadurch sämtliche Konten kompromittiert
Heute merke ich mir nur noch das Master-Passwort meines Passwortmanagers, Gmail und das Passwort für die Datenträgerverschlüsselung; alles andere wird vom Manager generiert
Wo immer es möglich ist, aktiviere ich außerdem 2FA (U2F/WebAuthn)
1Password funktioniert nach demselben Prinzip, und der Kontoname wird dabei nicht gespeichert, wodurch kein neues Leak-Risiko entsteht
Aber meistens stammten sie ohnehin aus älteren Leaks, daher versuche ich heute, unnötige Maßnahmen zu vermeiden
Weil ich viele benutzerdefinierte E-Mail-Adressen nutze, brauche ich für Prüfungen bei HIBP ein kostenpflichtiges Abo
Ich betreibe Hunderte von E-Mail-Adressen, was unpraktisch ist. Trotzdem lohnt es sich weiterhin, für jede Website eine eigene Adresse zu verwenden
Früher wurde durch das Facebook-Leak eine meiner alten E-Mail-Adressen offengelegt, und später hat jemand diese Domain erneut registriert und versucht, Konten zu übernehmen
Zum Glück konnte ich das dank 2FA und den Sicherheitswarnungen von Facebook verhindern
Ungenutzte E-Mail-Adressen sollte man unbedingt aus Konten entfernen
Seit sich benutzerdefinierte Domains in iCloud oder Gmail so einfach anbinden lassen, ist dieses Risiko größer geworden
Der Teil darüber, dass Azure SQL Hyperscale zwei Wochen lang mit 80 Kernen lief, war interessant
Für die Verwaltung von E-Mails und Passwörtern wirkt SQL wie eine übertriebene Wahl.
Selbst bei 15 Milliarden Einträgen sollten etwa 600 GB doch auch auf einem normalen Server handhabbar sein
In-Place-Updates waren langsam, deshalb wurde eine separate Tabelle angelegt, und beim Versand von E-Mail-Benachrichtigungen stieß man außerdem an Limits der Mail-Provider
Der Titel „Microsoft Regional Director and MVP“ wirkt etwas verwirrend
Man könnte eine 20-GB-Datei mit sortierten SHA1-Hashes erstellen und mit Binary Search oder einem Index auf Basis der Hash-Verteilung Abfragen mit nur einem I/O durchführen
Wenn man sie in 65.536 Chunks aufteilt und jeweils sortiert, lassen sich auch Speicherprobleme lösen
So eine Struktur ließe sich in Blob Storage für ungefähr ein Fünfzigstel der Kosten von Azure SQL betreiben
Es scheint, als hätten HIBP-Daten eine Art Ablaufzeit. Früher war meine E-Mail beim Dropbox-Leak gelistet, jetzt ist der Eintrag verschwunden
Dropbox-Leak-Seite
Ich frage mich, was besser ist: Bitwarden, 1Password oder Proton Pass
Proton Pass erscheint mir noch nicht vertrauenswürdig genug, und außerdem denke ich an das Sprichwort, man solle nicht „alles in einen Korb legen“
Ich habe mich für das Open-Source-Produkt Bitwarden entschieden und hoffe, dass Probleme durch die große kostenlose Nutzerbasis schnell sichtbar werden und behoben werden
Wenn man ein Business-Konto hat, ist auch das kostenlose Familienkonto ein Vorteil
Trotzdem ist die Open-Source-Philosophie von Bitwarden definitiv ein valider Gesichtspunkt
Der Titel dieses Beitrags wäre als „1,3 Milliarden Passwörter geleakt“ vielleicht treffender gewesen
Die Zahl ist etwas kleiner, aber die Aussage deutlich bedeutsamer