1 Punkte von GN⁺ 1 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • auto-identity-remove ist ein Tool, das Data-Broker-Websites anhand von Name und Standortinformationen durchsucht und Opt-out-Formulare automatisch absendet, um dabei zu helfen, persönliche Informationen aus monatlich mehr als 500 Personensuchseiten und Data-Broker-Datenbanken zu entfernen
  • Der Ablauf besteht aus brokerspezifischer Suche, Erkennung bestimmter Profillisten, Absenden von Opt-out-Formularen, CAPTCHA-Verarbeitung bei Bedarf, Überspringen kürzlich abgeschlossener Einträge, Ergebnisbenachrichtigungen und dem Öffnen des Browsers für Websites, die manuelle Bearbeitung erfordern
  • Statusverfolgung speichert den Zeitpunkt des letzten Erfolgs und die Ausführungshistorie in state.json; das standardmäßige Intervall für die erneute Prüfung beträgt 90 Tage, sodass abgeschlossene Opt-outs nicht jedes Mal erneut eingereicht werden
  • Formulare mit CAPTCHA können über CapSolver verarbeitet werden; die Kosten liegen ungefähr bei $0.001 pro Lösung. Wenn es nicht konfiguriert ist, wird die betreffende Website in die Liste für manuelle Bearbeitung verschoben
  • Voraussetzungen sind Node.js 18+, macOS, Linux oder Windows sowie ein Playwright-Browser; setup.js führt durch die Eingabe persönlicher Daten, Aliasnamen, des CapSolver-Schlüssels, eines Einwegkontos, von Benachrichtigungen und der Registrierung eines monatlichen Zeitplans
  • Die monatliche Aufgabe wird so registriert, dass sie jeweils am 1. eines Monats um 9 Uhr morgens ausgeführt wird; je nach Plattform werden launchd, systemd, crontab oder schtasks automatisch erkannt und verwendet
  • Auch die Ausführung mit Docker wird unterstützt; dabei wird das offizielle Playwright-Image verwendet, das Chromium und Systemabhängigkeiten enthält, und um den Abschlussverlauf zwischen Containern beizubehalten, muss state.json gemountet werden
  • Benachrichtigungen unterstützen auf macOS eine Ergebniszusammenfassung über iMessage; in Headless- oder Docker-Umgebungen kann über notify.webhook ein {"text": "<summary>"} an ntfy.sh, einen Slack Incoming Webhook oder einen Discord-Webhook per POST gesendet werden
  • Die Broker-Unterstützung ist in zwei Stufen unterteilt: 42 explizite Broker, die in STATUS.md aufgeführt sind, werden einzelnen Selektoren zugeordnet; bei rund 490 weiteren wird heuristisch nacheinander versucht, einen Do Not Sell-Button, OneTrust, TrustArc, Osano, allgemeine Formulare und DSAR-Links zu finden
  • ✅ Submitted bedeutet nur, dass der Broker das Formular entgegengenommen hat, garantiert aber keine Löschung; node watcher.js --verify durchsucht protokollierte erfolgreiche Einträge erneut und klassifiziert sie als VERIFIED CLEAR, STILL LISTED oder UNVERIFIABLE
  • Zu den unterstützten wichtigen Zielen für die automatische Verarbeitung gehören Spokeo, WhitePages, FastPeopleSearch, TruePeopleSearch, BeenVerified, Radaris, Acxiom, LexisNexis, ZoomInfo und Clearbit; Google Results About You und Google Outdated Content werden zur manuellen Bearbeitung geöffnet
  • Für Nutzer außerhalb der USA werden Ländercode, Province/Region, Postal code, Speicherung der Telefonnummer im Originalformat und das Ausfüllen von Feldern zur Länderauswahl unterstützt; nur in den USA verfügbare Broker wie Spokeo, WhitePages und FastPeopleSearch werden jedoch automatisch übersprungen, wenn das konfigurierte Land nicht US ist
  • --dry-run führt nur die Website-Navigation und das Ausfüllen von Formularen aus, sendet sie aber nicht ab; die experimentelle Funktion --pollute N übermittelt an einige mit acceptsBogus: true markierte Broker gefälschte Datensätze, weist jedoch ausdrücklich auf mögliche Verstöße gegen die Nutzungsbedingungen und rechtliche Risiken hin und ist standardmäßig deaktiviert
  • Die personenbezogene Daten enthaltende config.json, die Opt-out-Historie in state.json und Ausführungsprotokolle sind in .gitignore eingetragen; die Lizenz des Repositories ist MIT

1 Kommentare

 
GN⁺ 1 시간 전
Hacker-News-Kommentare
  • Ich war Spam-Anrufe und -SMS leid und habe deshalb ein Skript gebaut, das jeden Monat die Opt-out-Verfahren von über 500 Datenbrokern automatisiert.
    Wobei ich Hilfe brauche: Der heuristische Ansatz verfehlt vieles. Viele normale Websites haben eigene Abläufe, die sich nicht mit vier allgemeinen Strategien abdecken lassen.
    Ich brauche jemanden, der prüft, welche normalen Websites tatsächlich funktionieren und welche still scheitern, für wertvolle Websites explizite Broker-Definitionen ergänzt, auf Umgebungen außerhalb von macOS testet und E-Mail-Bestätigungsabläufe behandelt.
    Repo: https://github.com/stephenlthorn/auto-identity-remove
    Das Repository enthält keine personenbezogenen Daten; das Setup-Skript fragt die Informationen lokal ab und nimmt sie in .gitignore auf.
    • Ich frage mich, ob der aktuelle Ansatz auf vielen Websites erfolgreich ist. Das Repository wirkt so, als wäre es eindeutig vibe coded oder zumindest stark mit AI geschrieben worden, daher ist schwer nachzuvollziehen, was schon erledigt ist und was noch fehlt, damit es zuverlässig funktioniert.
      Für die E-Mail-Bestätigung könnte man vorübergehend wohl auch einfach anweisen: „Klicke auf den Bestätigungslink in der Mail dieses Absenders.“ Einen echten Posteingang über mehrere Anbieter hinweg zuverlässig zu lesen, könnte schwierig sein, weil man dafür praktisch einen E-Mail-Client bräuchte.
      Und vielleicht liege ich daneben, aber auch dieser Kommentar selbst wirkt AI-generiert. Falls ja, verstößt das gegen die Richtlinien der Seite.

      Don't post generated comments or AI-edited comments. HN is for conversation between humans.
      https://news.ycombinator.com/newsguidelines.html#generated

  • Ich habe es in Kanada ausprobiert; es wollte die Anmeldung bei anderen Diensten wie Spokeo, verlangte E-Mail-Zugriff über die Apple Mail App, die ich gar nicht benutze, es gab viele 404er, und viele Websites erforderten manuelle Eingriffe.
    Die Idee ist gut, aber bis das allgemein nützlich wird, muss noch sehr viel daran überarbeitet werden. Postleitzahlen, die nicht numerisch sind, und Adressen außerhalb der USA scheinen viel der Automatisierung zu zerstören.
    • Es ist schon ziemlich erstaunlich, einfach vorauszusetzen, dass Leute standardmäßig Apple-Dienste benutzen.
  • Auch um 2011 herum lieferte Yellow Pages noch Papier-Telefonbücher an sämtliche Adressen im Bundesstaat. Unsere Stadt schickte am nächsten Tag einen zusätzlichen Recycling-Lkw herum, um alles wieder einzusammeln, und alle haben sie weggeworfen.
    Mit meinen Kollegen stellte ich fest, dass das Opt-out-Formular nur eine Adresse verlangte. Wir dachten darüber nach, alle bekannten Adressen landesweit zu sammeln und über einige Monate hinweg automatisiert einzureichen, um sie alle abzumelden, aber daraus wurde nichts. Wir lachten nur bei der Vorstellung, ab welchem Prozentsatz an Opt-outs die Yellow-Pages-Webentwickler wohl eine Krisensitzung einberufen hätten.
    • Etwa zur gleichen Zeit vermietete mein Bruder ein paar Zimmer in seinem Haus an Leute, die Telefonbücher auslieferten. Das war in einem anderen Land, aber Yellow Pages schien es überall zu geben.
      Die Zusteller kamen damit irgendwann nicht mehr klar und begannen schließlich einfach, Stapel von Telefonbüchern aufzuschichten und zu verbrennen. Es dauerte ziemlich lange, bis sie erwischt wurden, weil niemand Telefonbücher vermisste.
    • Yellow Pages hätte vermutlich so getan, als wären die Opt-outs nie eingegangen, so wie die Hälfte der Direktmailing-Firmen und Spammer.
      Ich habe mich ziemlich bemüht zu verhindern, dass Uline zwei- oder dreimal im Jahr riesige Papierkataloge an ein Postfach schickt. Es gibt zwar ein Formular, aber sie ignorieren die Anfrage einfach.
      https://www.uline.com/CustomerService/ULINE_FAQ_Ans?FAQ_ID=4...
    • Als wir bei Australia Post über den Datenschutz des Projekts sprachen, konnte ich mir einen Scherz nicht verkneifen: „Verteilt ihr nicht jedes Jahr routinemäßig die personenbezogenen Daten von Millionen Menschen und legt diese Informationen so vor deren Haustüren, dass sie jeder sehen kann?“
  • Was sie tun, verbessert die Gesellschaft real nicht, also sollte eine gesunde Gesellschaft so etwas verbieten können. Aber wir tun das nicht, also können wir es derzeit nicht.
    • Man kann es sehr wohl verbieten. Unter der DSGVO ist es deutlich schwieriger, personenbezogene Daten in großem Umfang legal zu sammeln und zu verkaufen.
      Das heißt nicht, dass es nicht trotzdem passiert, aber sie gibt eine rechtliche Grundlage, dagegen vorzugehen. noyb.eu / Max Schrems und andere leisten an dieser Front äußerst wichtige und großartige Arbeit.
  • „Löst CAPTCHA mit CapSolver (AI-basiert, etwa $0.001 pro Lösung)“ – da hatte ich mit meinem Verdacht also recht. Ich dachte schon, nur ich würde noch unter diesen altmodischen CAPTCHAs leiden.
    • Hängt von der Art des CAPTCHA ab, aber es gibt einen Grund, warum Apple, Cloudflare und Google für den Nachweis, dass man ein Mensch ist, in Richtung Remote Attestation gehen.
      reCAPTCHA v3 Enterprise und MtCaptcha kosten ganze dreimal so viel, nämlich $3 pro 1000 Lösungen. Deshalb wirken sie wie attraktive CAPTCHAs für dieses Vorgehen.
    • Ich bekomme Lust, einen kostenpflichtigen CAPTCHA-Lösedienst zu kaufen, um mir das Leben einfacher zu machen.
    • Es scheint auch eine Browser-Erweiterung zu geben: https://www.capsolver.com/products/browser-extension
  • An macOS gebunden scheint nur launchd zu sein, und diese Information wäre in der Dokumentation wohl nützlich. Ich weiß nicht, ob man es einfach über die CLI ausführen kann.
    systemd-Unterstützung dürfte leicht sein. Bei Windows weiß ich nicht genau, was man dafür verwendet.
    • Windows-Dienste zu erstellen ist etwas schwieriger. Windows benutzt dafür echte APIs für Dienste, statt sich einfach auf Prozessstart und Skripting zu verlassen.
      Allerdings kann man mit dem Aufgabenplaner auf verschiedene Arten Dinge wie eine monatliche Ausführung einplanen.
    • Man kann einfach sc.exe oder tasksched verwenden.
  • Für mich sind Statusverfolgung und ein manueller Fallback-Pfad am interessantesten. Bei einem solchen Tool sollte es unbedingt einen Dry-run-/Audit-Modus geben, der vor dem tatsächlichen Absenden zeigt, welche Felder an welchen Broker übermittelt werden.
    Das Bedrohungsmodell ist etwas unklar: Das Tool kann die Offenlegung verringern, aber ein kaputter Selektor könnte personenbezogene Daten auch an die falsche Stelle leaken.
  • Ich frage mich, ob das nicht eher eine gute Automatisierungsmethode wäre, um meine Informationen an 500 Datenbroker zu schicken.
    • Ich habe nicht geprüft, welche Informationen man in Schritt 3 angeben muss, aber wenn es die Opt-out-Formulare automatisch ausfüllt und absendet, braucht es vermutlich mehr als nur Name und Adresse.
      Eine deutlich bessere Lösung wäre es, in den USA Gesetze ähnlich der DSGVO voranzutreiben.
  • Zumindest in Kalifornien soll das DROP-Formular ab diesem Herbst online verfügbar sein.
    • Wer in der Branche arbeitet, für den hängt der 1. August wie ein Damoklesschwert über ungefähr 500 in Kalifornien registrierten Datenbrokern.
      Für Verbraucher ist es bereits geöffnet. Man kann sich zusammen mit seinen 275.000 Nachbarn anmelden.
  • Interessant. Mich würde interessieren, ob du das schon eine Weile benutzt hast und ob es tatsächlich Spam reduziert.