1 Punkte von GN⁺ 3 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • Rauschinjektion, die bei der Erstellung veröffentlichter Statistiken aus vertraulichen Datensätzen verwendet wird, ist ein Disclosure-Avoidance-Werkzeug, das personenbezogene Informationen in den Rohdaten verbirgt und zugleich den statistischen Nutzen erhält
  • Eine Anordnung des US-Handelsministeriums verbietet die Injektion von Rauschen in allen Statistikprodukten des Census Bureau und des Bureau of Economic Analysis und zielt dabei direkt auf Differential Privacy
  • Das Census Bureau nutzte bei den Volkszählungen 1990 bis 2010 vor allem Swapping, übernahm aber nach der Erkenntnis, dass sich individuelle Datensätze aus veröffentlichten Statistiken leicht rekonstruieren lassen, für die Volkszählung 2020 Differential Privacy
  • Differential Privacy kombiniert Beitragsbegrenzung mit sorgfältig kalibriertem zusätzlichem Rauschen und bietet bei ähnlichem Datenschutzniveau einen höheren Nutzen
  • Nimmt man das Rauschen weg, könnten künftige statistische Veröffentlichungen entweder deutlich weniger brauchbar sein als frühere oder sehr unsichere Daten werden

Hintergrund

  • Statistikprodukte sind verschiedene Zahlen, die aus vertraulichen Datensätzen veröffentlicht werden; wenn diese Datensätze sensible Informationen enthalten, dürfen die veröffentlichten Zahlen diese Informationen nicht offenlegen
  • Der U.S. Census ist ein typisches Beispiel: Die Statistiken werden veröffentlicht, aber der Inhalt einzelner von US-Einwohnern ausgefüllter Formulare muss vertraulich bleiben
  • In der Statistik nennt man Techniken, mit denen nützliche Statistiken veröffentlicht werden, während die Privatsphäre der Rohdaten geschützt wird, Disclosure Avoidance
  • Zu den Disclosure-Avoidance-Techniken gehören Unterdrückung, bei der Daten entfernt werden, die bestimmte Schwellenwerte nicht erreichen, Generalisierung, die Attribute weniger präzise macht, sowie Stichprobenziehung, bei der einige Datensätze zufällig entfernt werden
  • Zu den Disclosure-Avoidance-Techniken gehören auch Swapping, bei dem Attribute zwischen verschiedenen Datensätzen zufällig vertauscht werden, Beitragsbegrenzung, die den maximalen Einfluss einer einzelnen Person begrenzt, sowie das Hinzufügen von Rauschen, bei dem zufällige Zahlen zu Statistiken addiert werden
  • Differential Privacy und die Volkszählung 2020

    • Durch die Kombination einiger dieser Verfahren lässt sich Differential Privacy erreichen, die unter Wissenschaftlern weithin als Goldstandard des Datenschutzes gilt
    • Differential Privacy beruht typischerweise auf der Kombination aus Beitragsbegrenzung und sorgfältig kalibriertem zusätzlichem Rauschen
    • Das Census Bureau verwendete von 1990 bis 2010 bei den zehnjährlichen Volkszählungen hauptsächlich Swapping
    • Später wurde erkannt, dass Swapping bei weitem nicht sicher genug ist und dass sich individuelle Datensätze allein aus veröffentlichten Statistiken leicht rekonstruieren lassen
    • Da die Behörde diese Datensätze nach Bundesrecht vertraulich halten muss, testete sie mehrere Alternativen und entschied sich für die Volkszählung 2020 für Differential Privacy, weil dieses Verfahren Angriffe verhinderte und zugleich den statistischen Nutzen am besten erhielt
  • Geringerer Nutzen und Gegenreaktionen

    • Differential Privacy wurde nicht wegen eleganter Mathematik gewählt, sondern weil sie unter mehreren Möglichkeiten zur Abschwächung von Angriffen den Datennutzen am stärksten bewahrte
    • Auch die konkreten Datenschutzparameter wurden nicht wegen ihrer starken formalen Beweisgarantien gewählt, sondern um ein akzeptables Datenschutzniveau zu erreichen und zugleich den Datennutzen maximal auszuschöpfen
    • Dass unter neu erkannten Datenschutzbeschränkungen der Nutzen am besten erhalten blieb, bedeutete nicht, dass der Nutzen auf dem Niveau der Volkszählung 2010 blieb
    • Die Zahlen wurden ungenauer, und diese Ungenauigkeit wurde viel transparenter und damit schwerer zu ignorieren
    • Demografen und Sozialwissenschaftler konnten nicht länger ignorieren, dass die von ihnen verwendeten Daten verrauscht sind, und mussten einen großen Wandel in der Art vollziehen, wie sie diese Daten konzeptualisieren und behandeln
    • Menschen, die Census-Daten tatsächlich zur Rekonstruktion individueller Datensätze nutzten, konnten das nicht mehr tun, und Demografen räumten ein, dass dies eine gängige Praxis gewesen sei
    • Es ist zudem ein offenes Geheimnis, dass politische Praktiker solche Rekonstruktionen im Rahmen mancher Gerrymandering-Bemühungen durchführten

Inhalt der Anordnung

  • Die Regierung hat entschieden, dass die Injektion von Rauschen keine akzeptable Disclosure-Avoidance-Technik mehr ist
  • Die Anordnung zielt ausdrücklich auf Differential Privacy, scheint aber auch andere Verfahren zu betreffen, die Zufälligkeit verwenden
  • Im Wortlaut der Anordnung heißt es, Generalisierung müsse immer bevorzugt werden und Unterdrückung dürfe nur als „letztes Mittel“ verwendet werden
  • Warum die Anordnung so spezifisch ist, ist unklar
  • Die Anordnung stellt vorsorglich klar, dass sie „nicht so ausgelegt werden darf, dass sie mit Verfassung, Gesetzen, Vorschriften oder anderen rechtlichen Bestimmungen kollidiert“, und dass die Geheimhaltungspflichten rund um die betreffenden Statistikprodukte weiterhin gelten

Tatsächliche Auswirkungen

  • Die Folgen könnten für den Nutzen, den Datenschutz oder beides gravierend sein
  • Künftige statistische Veröffentlichungen könnten weniger brauchbar sein als frühere oder in einem kaum glaubhaften Maß unsicher werden
  • Wenn man ein nützliches Werkzeug aus dem Disclosure-Avoidance-Werkzeugkasten entfernt, wird der Trade-off zwischen Datenschutz und Nutzen immer schmerzhafter
  • Ziel dieses Forschungsfelds ist es, Datenschutzrisiken besser zu verstehen und zu quantifizieren sowie bessere Werkzeuge zu entwickeln, die diese Risiken mindern und zugleich den Nutzen erhalten
  • Die Rolle von Differential Privacy

    • In der Veröffentlichung statistischer Daten ist Differential Privacy derzeit das beste verfügbare Werkzeug
    • Differential Privacy bietet eine Möglichkeit, den Trade-off viel feiner zu quantifizieren, und erzielt bei ähnlichem Datenschutzniveau mehr Datennutzen als konkurrierende Verfahren
    • Entfernt man Differential Privacy, bleiben nur Verfahren übrig, die bei ähnlichem Datenschutzniveau weniger Nutzen liefern oder bei gleichem Nutzen schlechteren Datenschutz bieten
    • Auch konkurrierende Verfahren beruhen auf dem Hinzufügen von Rauschen
  • Andere Verfahren nutzen ebenfalls Zufälligkeit

    • Die von anderen Statistikbehörden verwendete Cell Key method fügt Statistiken Rauschen hinzu
    • Auch das Swapping, das das Census Bureau von 1990 bis 2010 nutzte, injiziert Zufälligkeit in den Prozess
    • Stichprobenziehung ist in der Statistik breit eingesetzt
    • Auch Imputation) fügt den Daten technisch gesehen Rauschen hinzu
  • Grenzen von Generalisierung und Unterdrückung

    • Generalisierung und Unterdrückung sind sehr grobe Werkzeuge
    • Sie funktionieren nur dann, wenn die Statistiken bereits sehr grob sind und nur wenige Statistiken veröffentlicht werden
    • Bei komplexen Datenprodukten wie dem U.S. Census, die viele Statistiken über kleine Gruppen enthalten, zerstören Generalisierung und Unterdrückung entweder den gesamten Datennutzen oder machen die Daten sehr anfällig für Datenschutzangriffe
    • Die Zerstörung des Nutzens fällt besonders bei Minderheitengruppen ins Gewicht
  • Warum Rauschen Angriffe erschwert

    • Datenschutzangriffe auf veröffentlichte Statistiken ähneln dem Lösen von Gleichungssystemen
    • Wenn sicher bekannt ist, dass alle Statistiken perfekt exakt sind, wird diese Aufgabe sehr viel leichter
    • Rauschen zwingt Angreifer dazu, Wahrscheinlichkeiten zu berechnen, Unsicherheit zu quantifizieren und Baselines sorgfältig zu berücksichtigen
    • Zufälligkeit ist auch ohne formale Garantien für Disclosure Avoidance nützlich und macht Angriffe deutlich schwieriger
    • Entfernt man die Zufälligkeit, werden Angriffe trivial

Warum das passiert

  • Die Motivation ist unbekannt
  • Es ist unklar, ob das Ziel darin besteht, künftige Gerrymandering-Bemühungen zu unterstützen, indem der U.S. Census gezwungen wird, Statistiken zu veröffentlichen, die echte Re-Identifizierung ermöglichen
  • Umgekehrt ist auch unklar, ob das Ziel darin besteht, die Veröffentlichung nützlicher demografischer Daten zu verhindern, damit Forscher unfaire Unterschiede in der Bevölkerung nicht sichtbar machen können
  • Hanlon's razor bietet eine alternative Deutung
  • Bei der Veröffentlichung statistischer Daten gibt es einen grundlegenden Trade-off zwischen Datenschutz und Nutzen, und dieser Trade-off ist lästig
  • Wäre es möglich, viele Statistiken zu veröffentlichen, ohne dass automatisch ein hohes Datenschutzrisiko entsteht, wäre die Lage viel einfacher
  • Differential Privacy macht diesen Trade-off explizit sichtbar und damit unmöglich zu ignorieren
  • Ein Verbot von Differential Privacy könnte ein Weg sein, so zu tun, als existiere das Problem nicht, und darauf zu hoffen, dass es verschwindet

1 Kommentare

 
GN⁺ 3 시간 전
Hacker-News-Kommentare
  • Ich habe bei der letzten Volkszählung als Enumerator gearbeitet, und das Vertrauen in der Gemeinschaft war schon damals gering, obwohl es auch viele interessante Begegnungen gab
    Mit freundlichem Gesicht ziemlich invasive Daten zu sammeln und dabei aufrichtig zu glauben, dass diese Daten verantwortungsvoll verwendet und verwaltet würden
    Jetzt, da die Firewall zusammengebrochen ist, die verhindern sollte, dass sensible Regierungsdaten instrumentalisiert oder zu Geld gemacht werden, tun mir die Leute leid, die 2030 von Tür zu Tür gehen werden, und noch mehr die Menschen, die freiwillig Informationen preisgeben, die ihnen schaden könnten
    Ich finde auch die Reaktion amüsant, dass man bei einer „teuren Volkszählung doch einfach nur Köpfe zählen“ müsse. Die erhobenen Daten waren eine wichtige gemeinsame Grundlage, und das wird ihrer Qualität in Zukunft nicht guttun
    Zur Einordnung: Mir wurden überwiegend Haushalte ohne Rückmeldung zugeteilt, daher wirkte es ganz natürlich so, als würden die Leute in meiner Gegend die Regierung hassen, seltsam bedrohliche Flugblätter ignorieren oder erst kürzlich zugezogen sein und die Bewohner während des Erhebungszeitraums nicht kennen

    • Das gilt schon für die Produkte der Volkszählung, aber demografische Daten sind de facto die Grundlage für die Extrapolation fast aller anderen Umfragestudien
      Von landesweiten Meinungsumfragen mit Zehntausenden Befragten bis zu kleinen Untersuchungen in einzelnen Gemeinden stützt sich alles darauf
      Volkszählungsergebnisse mit der breitesten Beteiligung bringen den USA nahezu unbegrenzten Nutzen und kommen allen zugute, von landesweiten Zeitungen bis zu ländlichen Countys
      Wenn die kleinsten Gemeinden auch noch das restliche Vertrauen in den Datenschutz der Volkszählung verlieren, werden sie in all diesen Hinsichten am meisten verlieren
    • Ich habe etwas Ähnliches gemacht, und das fasst die Gefühle sehr gut zusammen. Dieses Vertrauen wieder aufzubauen ist wirklich traurig und schwer
      Und es ist entmutigend, dass sich die Menschen weiter zu einer Partei hingezogen fühlen, die offen damit prahlt, diese Daten missbrauchen zu wollen
    • Der eigentliche Abwärtstrend begann meiner Ansicht nach nach Edward Snowden, als all die NSA-Enthüllungen herauskamen
      Das hat das Misstrauen gegenüber der Regierung stark angeheizt, und Menschen zu Umfrageantworten zu bewegen, war ohnehin schon schwierig
      Warum sollte ein normaler Bürger glauben, dass das Census Bureau seine Daten tatsächlich sicher aufbewahrt?
      Unabhängig davon, was im Gesetz oder in der Verfassung steht: Wer für irgendeine Behörde arbeitet, wirkt am Ende einfach wie die Regierung. Die Rücklaufquoten sinken weiter, und jetzt greift der Präsident sogar Wirtschaftsstatistiken an
      Zynisch betrachtet wird man die Statistikbehörden wohl weiter schrumpfen lassen und die Statistiken noch unbrauchbarer machen. Diese politische Änderung geht ebenfalls in diese Richtung, und am Ende wird man versuchen, das an die Privatwirtschaft abzugeben
      Aber die Privatwirtschaft kann nicht leisten, was der Staat vor Ort leisten kann
    • Ein Staat führt eine Volkszählung durch, um sehr genau zu verstehen, in welchem Zustand sich die Menschen befinden, aus denen das Land besteht
      Nur mit genauen Informationen kann man Pläne zur Verbesserung aufstellen und das Leben aller besser machen
      Die Haltung „Einfach nur Köpfe zählen“ zeigt auf interessante Weise die Denkweise vieler Menschen heute
      Es wirkt, als wollten sie das Leben nicht besser machen oder könnten sich nicht einmal vorstellen, wie das gehen soll. Das ist wirklich traurig
  • Auf dem Parteitag der Republikaner in Texas in dieser Woche wurde vorgeschlagen, per Änderungsantrag eine Formulierung gegen Differential Privacy in den Programmentwurf aufzunehmen
    Als Beispiel von jemandem, der mit der Volkszählung zu tun gehabt habe, hieß es zur Rechtfertigung, dass aus einem Obdachlosen unter einer Brücke durch Differential Privacy fünf werden könnten, was offenkundig lächerlich sei
    Ich weiß nicht, ob es angenommen wurde, aber so sieht der Graswurzel-Druck aus, mit dem solche Dinge vorangetrieben werden

    • Woher weißt du, dass das Graswurzelbewegung ist?
  • Ich finde das ziemlich traurig. Im Idealfall sollte ein Staat sehen können, wie die derzeit existierenden Menschen zusammengesetzt sind, damit wir gute Entscheidungen über die Organisation treffen können, die wir gemeinsam betreiben
    Die Infrastruktur zur Datenerhebung absichtlich zu beschädigen, ist meiner Meinung nach ein Fehler, den man später bereuen wird
    Ein großer Teil des amerikanischen Erfolgs beruhte meines Erachtens auf guten Institutionen im Umgang mit granularen Daten. Dadurch konnte man Politik schneller an die Ergebnisse anpassen
    Ich verstehe, warum Menschen alle staatlichen Fähigkeiten zurückfahren wollen. Sie haben das Gefühl, die Regierung sei mit ihren Gegnern besetzt und diese Fähigkeiten würden gegen sie eingesetzt
    Aber je schwächer die relative Macht wird, desto geringer wird auch die Fähigkeit, diese Trägheit zu überwinden, die Regierung wird weniger kompetent, und am Ende beginnt sich das Leben zu verschlechtern
    Daten auf Wohneinheitenebene braucht man nicht sofort, aber es könnte Ausnahmen geben, etwa wenn Zensusblöcke den passenden Wahlbezirken zugeordnet werden. Dennoch sollte man ab einer gewissen Aggregationsebene möglichst gute Informationen verwenden

    • Infrastruktur absichtlich kaputtzumachen ist ein wiederkehrendes Thema dieser Regierung
    • Das schwächt die Macht des Staates nicht
      Es macht den Staat nur dümmer, sodass ihm später die Informationen fehlen, um wirksame Entscheidungen zu treffen, selbst wenn er das Richtige tun will
    • Ich finde es interessanter, den Bundesstaaten die Detailinformationen zu geben und sie die Programme betreiben zu lassen
      Der Bund braucht dann nur aggregierte Daten
    • Darüber hinaus ist das kaum noch von einer Ermöglichung von Völkermord zu unterscheiden, wie damals, als die US-Regierung das Zensusgeheimnis brach und Menschen japanischer Herkunft anhand ihrer Ethnie in Lager brachte
      Es geht nicht um „alle“ staatlichen Fähigkeiten; der Staat sollte nur das absolut notwendige Mindestmaß an Fähigkeiten haben, um seine erforderlichen Aufgaben zu erfüllen
      Zum Beispiel ist das Erheben von Angaben zur ethnischen Zugehörigkeit nicht absolut notwendig und sollte daher nicht erfolgen
      Denn in Zukunft kann die Regierung mit Gegnern besetzt sein. Darüber hinaus sind die größten Schäden durch staatliches Handeln immer wieder nicht aus absichtlicher Bosheit entstanden, sondern aus dem Versuch heraus, „zu helfen“
    • In diesem Artikel geht es um eine Entscheidung, die die Volkszählung weniger kaputtmacht
      Wenn dir eine genaue Volkszählung wichtig ist, solltest du das eher begrüßen
  • Bei einer Volkszählung setzt alles, was man tut, ein gewisses Maß an Vertrauen voraus
    Vertrauen darauf, dass diese Daten nicht so identifizierbar gemacht werden, dass sie für Betrug, Finanzbetrug oder andere Formen des Missbrauchs eingesetzt werden können
    In New York sind Immobilienverkaufsunterlagen jedoch öffentlich, und als Nebeneffekt verschicken viele Hypothekenfirmen Schreiben, die wie Zahlungsaufforderungen aussehen
    Differential Privacy ist absolut notwendig, und dass Sozialwissenschaftler Daten nicht auf Individualebene rekonstruieren können, ist ein beabsichtigtes Ergebnis
    Für die meisten Zwecke reicht eine makroskopische Beschreibung aus, und mehr zu verlangen kommt einer Forderung nach einem Überwachungsstaat gleich

    • Das wirkt ehrlich gesagt eher wie ein Vollzugsversagen und ein Versagen im Design des Finanzsystems
      In Deutschland ist es nicht üblich, dass Hypotheken oder die Banken, die sie halten, wie heiße Kartoffeln an den nächsten Dummen weiterverkauft werden, daher würden solche Briefe dort sofort Verdacht erregen
  • In Datensätzen sollte es verboten sein, und in der Analysephase kann man es hinzufügen. Man kann die gewünschte Art von Rauschen wählen
    Ich weiß nicht genau, welche politische Bedeutung das hier hat, aber auf einer gewissen Ebene braucht man den tatsächlichen Basiswert, einschließlich „diese Person/dieser Haushalt hat die Antwort verweigert“
    Die Rohdaten zu veröffentlichen wirkt allerdings aus Sicht der nationalen Sicherheit, als würde man sich selbst ins Bein schießen, und es gibt auch viele andere Gründe, warum man das nicht tun sollte

    • Ich weiß nicht genau, was der Vorschlag ist, aber wenn man das Rauschen für jede Person unabhängig hinzufügt, kann man es verringern, indem man mehrere Kopien kauft und den Durchschnitt bildet
      Es gibt sehr viele Möglichkeiten, das falsch zu machen, und deshalb ist in Differential Privacy so viel Analyse eingeflossen
    • Das Rauschen gehört in die veröffentlichten Daten, nicht in die nicht öffentlichen Daten
  • Differential Privacy macht diesen Zielkonflikt vielleicht nicht ausdrücklich sichtbar und dadurch unvermeidbar, sondern könnte eher bedeuten, dass eines der beiden Ziele wertvoller ist als das andere und deshalb nicht geopfert werden darf

  • Die Reaktionen hier im Sinne von „man muss alles veröffentlichen“ sind überraschend eindimensional im schlechten Sinn
    Bei einer Volkszählung stellt man nur Fragen
    Wenn man beginnt, Daten über Menschen mit verschiedenen Eigenschaften zu veröffentlichen und zu weaponisieren, dann werden die Leute einfach lügen oder nicht antworten
    Dann bleiben Daten übrig, die schlimmer sind als gar keine, weil Menschen versuchen werden, auf Grundlage dieser schlechten Daten zu handeln

    • Erst sammelt man die Daten, solange die Leute es nicht wissen oder sich nicht darum kümmern, und später weaponisiert man sie
      Das ist vor nicht allzu langer Zeit in einem anderen Land mindestens einmal passiert, daher halte ich die Sorge nicht für übertrieben
    • Der Akteur, der die Daten weaponisiert, ist genau die US-Regierung
      Das offensichtlichste Beispiel ist, dass das Census Bureau im Zweiten Weltkrieg Listen japanischstämmiger Menschen erstellte, die für Internierungen verwendet wurden
      Der eigentliche aktuelle Antrieb besteht meiner Meinung nach darin, Listen zu erstellen, mit denen Menschen das Wahlrecht entzogen werden kann
    • Die einfache Lösung ist, Auflösung und Umfang der Daten auf das absolut notwendige Maß zu reduzieren
      Die Volkszählung existiert, um Informationen für die Festlegung repräsentativer Vertretung bereitzustellen. Alles andere ist Zusatzfunktion
      Auf County- oder Wahlbezirksebene kann man Daten haben, aber je höher die Auflösung wird, desto mehr sollte man Daten entfernen, sodass auf Nachbarschafts- oder Blockebene nur noch die Bevölkerungszahl bleibt
      Die ethnische Zugehörigkeit, Herkunft oder der sozioökonomische Hintergrund der Bewohner eines Blocks zu kennen, ist nur nützlich, um sie zu diskriminieren
    • Die eigentliche Frage ist, warum Menschen solche Fragen überhaupt beantworten
      Ich warte, bis ein Volkszähler kommt, und sage nur, wie viele Menschen an meinem Wohnort leben
      Das ist für eine angemessene Wahlrepräsentation nötig, und sonst überhaupt nicht
    • Diese Regierung interessiert sich überhaupt nicht für Fakten
  • Es ist einfach zu schwer, diese Dinge miteinander in Einklang zu bringen
    Es heißt, bei der Volkszählung 2020 sei Differential Privacy eingeführt worden, und wenn man diesen einen Filter entfernt, habe das „schreckliche Folgen“ für Nutzbarkeit oder Datenschutz oder beides
    Gleichzeitig führt man seit Jahrhunderten Volkszählungen durch und es war in Ordnung, und erst bei der letzten Volkszählung kam dieses Datenschutzelement hinzu
    Wenn das Entfernen eines davon plötzlich zu einer schrecklichen Situation führt, wirkt das seltsam. Früher gab es diese Datenschutzfunktion ja nicht, also müsste es doch tatsächlich viel besser sein als vor Hunderten von Jahren
    Deshalb fühlt es sich emotional nach einem übertriebenen Problem an

    • Ob man es glaubt oder nicht: In den letzten Jahrhunderten haben mathematische Methoden und Rechenleistung zugenommen, und außerdem ist alles digital geworden
      Datenschutzangriffe, die früher wegen der Kosten unmöglich waren, sind heute für ein paar Cent machbar
      Außerdem haben Menschen, wie bereits angemerkt wurde, Volkszählungsdaten schon für Gerrymandering benutzt, daher sind solche Angriffe real und laufen schon lange
    • Ein wichtiger Gegenstand, den es vor 100 Jahren nicht gab und heute gibt, ist der Computer
      Früher konnte man sagen, dass die Rekonstruktion individueller Datensätze zumindest im großen Maßstab nicht praktikabel war. Heute kann man das nicht mehr sagen
      Eine 4-stellige PIN war vielleicht über Jahrhunderte sicher, ist heute aber aus demselben Grund ein Sicherheitsrisiko
    • Diese Sorgen wirken wie die meisten Datenschutzsorgen zunächst wie übertriebene hypothetische Hysterie, bis sie es irgendwann nicht mehr sind
    • Die Entwicklung von Computern sowie Data Science und Machine Learning erklärt fast alles
      Viele der Techniken, mit denen Daten heute reidentifiziert werden, benötigen Rechenleistung, die früher nicht verfügbar war
      Selbst wenn es möglich gewesen wäre, hätten die nötigen Ressourcen die Skalierung begrenzt. Ich sage das als jemand mit Statistikabschluss
      Hinzu kommt die Vernetzung. Durch Internet, soziale Medien, Web-Tracking und Hacking gibt es viel mehr Datenquellen zum Abgleich
      In den 1970er- und 1980er-Jahren hinterließen Menschen in den USA dramatisch weniger Datenspuren als heute
    • Wie im Artikel klar steht, gab es Datenschutzfunktionen bei der Volkszählung schon seit 1990
      Die früheren Schutzmechanismen waren nur nicht stark und konnten gebrochen werden, deshalb wurden sie durch stärkere ersetzt
      1990 war die Zeit, in der sich Personal Computer verbreiteten und die für Einzelpersonen verfügbare Rechenleistung explodierte, und ab da wurde es möglich, aus den von der Volkszählung veröffentlichten Daten persönliche Informationen herauszulösen
      Deshalb wurde es damals ein Problem. Es ist kein übertriebenes Problem
  • Aus Sicht von jemandem aus einem bestimmten europäischen Land weiß man bei einer Volkszählung nicht, welche Antwort Probleme verursachen könnte
    „Welcher Religion gehören Sie an?“ wirkt völlig harmlos, aber als ein ausländischer Besatzer in den 1940er-Jahren diese Antwort einzelnen Personen zuordnen konnte, wurde sie nachträglich zu einer tödlichen Antwort

    • Würde ein solcher ausländischer Besatzer nicht einfach die unveränderten Rohdaten verlangen?
    • Bei der US-Volkszählung wird nicht nach der Religion gefragt
      Die Fragen von 2020 waren, wie viele Personen am 1. April in diesem Haus, dieser Wohnung oder diesem Mobilheim lebten oder sich dort aufhielten, ob noch weitere Personen ausgelassen wurden, um welche Art von Unterkunft es sich handelt, Telefonnummer, Name der ersten Person, Geschlecht, Alter und Geburtsdatum, ob die Person Hispanic, Latino oder spanischer Herkunft ist, sowie ihre ethnische Zuordnung
      Es gibt auch nichts, was Lügen wirklich verhindert
    • In den USA ist es gesetzeswidrig, bei der Volkszählung nach der Religion zu fragen
      Niemand darf gezwungen werden, Informationen über religiöse Überzeugungen oder die Mitgliedschaft in einer religiösen Organisation offenzulegen
      https://www.congress.gov/94/statute/STATUTE-90/STATUTE-90-Pg...
    • Frankreich hat früher sehr viele Listen erstellt. Man mochte Listen und hielt Listen für gut
      Man erstellte auch Listen von Juden, weil sie irgendwann für irgendetwas nützlich sein könnten, und die Deutschen waren sehr erfreut, sie zu finden
      Die Besessenheit der USA davon, Menschen nach zugeschriebener Herkunft zu fragen, etwa AAPI, AA, Latino usw., ist nicht nur seltsam, sondern offen gefährlich
      Solche Fragen sollte man nicht stellen und schon gar nicht zusammen mit dem Namen erfassen
      Zum Glück ist es für sie jetzt noch einfacher geworden, weil sie die Daten bei Datenbrokern kaufen und von Palantir für das Targeting verwenden lassen können
    • „Welcher Religion gehören Sie an?“ ergibt bei einer Volkszählung überhaupt keinen Sinn
  • Ich denke eher, die Aussage, dass Differential Privacy den Trade-off explizit macht, ist gerade umgekehrt zu verstehen
    Techniken wie Differential Privacy verbergen für alle außer den wenigen Expert:innen, die in diesem Bereich zuhause sind, eher die Tatsache, dass dieser Trade-off überhaupt existiert
    Ich weiß nicht genug, um diese Entscheidung zu verteidigen, aber wenn es tatsächlich einen realen Trade-off gibt, werden ihm vermutlich auch Nicht-Statistiker begegnen, sobald ihnen der Zugang zu solchen Techniken verwehrt wird
    Wenn Daten über die Öffentlichkeit so riskant sind, dass die Ergebnisse verschleiert werden müssen, dann sind es vielleicht Daten, die man von vornherein gar nicht hätte erheben sollen

    • Nicht-öffentliche Daten von Menschen werden regelmäßig unbeabsichtigt offengelegt. Netflix-Sehverläufe und Krankenakten sind typische Beispiele
      Menschen unterschätzen fortlaufend, wie viele Informationen nach außen dringen, und können den Trade-off deshalb nicht gut beurteilen
      Deshalb ist ein Ansatz richtig, der erzwingt, dass nur eine sichere Menge an Informationen nach außen dringt
      Es mag Fälle geben, in denen es besser ist, Daten nicht zu teilen oder gar nicht erst zu erheben, aber diese Daten haben eindeutig einen Wert, daher ist die optimale Menge zum Speichern und Veröffentlichen nicht 0
    • Persönlich denke ich, dass einer der großen Gründe dafür, dass Data Science als Funktion großer Organisationen in Tech-Unternehmen an Einfluss verloren hat, die Tendenz war, Data-Science-Teams wie Torwächter der Daten zu behandeln
      Indem man die Verantwortung für statistisches Denken auslagert, entsteht ein seltsames Machtgefühl, bei dem eine Person die Trade-offs vorab festlegt, ohne dass die Menschen um sie herum sie richtig verstehen müssen
    • Nach dieser Logik dürfte niemand aus irgendeinem Grund jemals Adressen erfassen
      Wenn man in keinem Kontext personenbezogene Daten austauschen oder erheben dürfte, wie sollte die Gesellschaft dann funktionieren?
      Anonymisierung und Sicherheit sind zentral und ermöglichen viele wichtige Funktionen
      Wie sollte man in einer Welt, in der potenziell riskante Informationen niemals bereitgestellt oder erhoben werden dürfen, überhaupt Post empfangen?