1 Punkte von GN⁺ 2026-02-06 | 1 Kommentare | Auf WhatsApp teilen
  • Das vom US-Justizministerium veröffentlichte Epstein-E-Mail-Archiv steht wegen fehlerhafter Kodierung und übermäßiger Schwärzung in der Kritik und weist gravierende Mängel auf
  • Einige E-Mails enthalten Anhänge weiterhin direkt im Format Content-Transfer-Encoding: base64, sodass sich aus diesen Daten das ursprüngliche PDF rekonstruieren lässt
  • Wegen minderwertiger OCR-Qualität, der Verwechslungsgefahr von 1 und l in der Schrift Courier New sowie schlechter Scanqualität ist eine automatische Wiederherstellung jedoch nahezu unmöglich
  • Der Autor versuchte die Rekonstruktion mit tesseract, Adobe Acrobat Pro und AWS Textract, erhielt jedoch in allen Fällen nur unvollständige Ergebnisse
  • Der Fall zeigt die Grenzen digitaler Forensik und der Dokumentenrekonstruktion und wird als technische Herausforderung dargestellt, die nur gemeinschaftlich lösbar ist

Probleme in den Veröffentlichungen des Justizministeriums

  • Das kürzlich veröffentlichte Epstein-Archiv wurde in stark geschwärzter Form verteilt, von den Namen mutmaßlicher Mittäter bis hin zu Fotos nicht beteiligter Frauen
    • Einige Dateien waren durch Quoted-Printable-Kodierungsfehler beschädigt und konnten gar nicht geöffnet werden
    • Sogar E-Mail-Zugangsdaten wurden offengelegt, sodass Reddit-Nutzer auf Epsteins Konto zugreifen konnten
  • Diese nachlässige Aufbereitung führte zu Kritik an der mangelnden Professionalität des von Pam Bondi geführten Justizministeriums

Entdeckung von base64-Anhängen

  • In der E-Mail EFTA00400459 wurden 76 Seiten base64-kodierter Daten gefunden
    • Dabei handelt es sich um die für den SMTP-Versand kodierte Datei DBC12 One Page Invite with Reply.pdf
    • Durch einfaches Kopieren und den Befehl base64 -d > output.pdf sollte eine Wiederherstellung möglich sein, tatsächlich lag aber nur ein OCR-Scan mit zahlreichen Fehlern vor
  • Die OCR-Ergebnisse enthielten falsch eingefügte Zeichen, Auslassungen und ungültige base64-Zeichen (z. B. [, ,), wodurch das Dekodieren scheiterte

OCR- und Schriftprobleme

  • Versuche, die Seiten mit Adobe Acrobat Pro und tesseract erneut per OCR zu verarbeiten, führten in allen Fällen zu eingefügten Leerzeichen und Zeichenerkennungsfehlern
  • Obwohl bei tesseract der Zeichensatz auf gültige base64-Zeichen beschränkt wurde, traten weiterhin abweichende Zeilenlängen und abgebrochene Teilerkennung auf
  • Die größte Ursache war die Schrift Courier New, bei der 1 und l fast nicht zu unterscheiden sind
    • Wegen niedrig aufgelöster JPEG-Scans und Kompressionsartefakten ist selbst die visuelle Unterscheidung schwierig
    • Dadurch wurde manuelle Korrektur unvermeidlich, und beim Dekodieren musste wiederholt zwischen 1 und l variiert werden

Wiederherstellungsversuche und Werkzeugvergleich

  • imagemagick und ghostscript scheiterten bei der Verarbeitung großer Datenmengen an Speicherüberschreitungen, weshalb pdftoppm als Alternative verwendet wurde
  • AWS Textract lieferte die besten Resultate, zeigte aber weiterhin Fehler bei den Zeilenlängen und nichtdeterministische Ergebnisse
    • Durch eine 2-fache Vergrößerung der Eingabebilder wurde die Erkennungsrate verbessert, eine vollständige Rekonstruktion gelang jedoch nicht
  • Ein Versuch, mit qpdf die PDF-Struktur wiederherzustellen, scheiterte an einer beschädigten Cross-Reference-Tabelle

Vorschläge aus der Community und weitere Diskussionen

  • Am Ende des Beitrags regt der Autor die Community dazu an, auch andere Anhänge zu rekonstruieren
    • Bei der Suche nach Content-Transfer-Encoding und base64 finden sich teilweise nützliche Daten
  • Mehrere Nutzer schlugen verschiedene Ansätze vor, darunter ML-basierte OCR, CNN-Training pro Schriftart und Crowdsourcing im Captcha-Stil
    • Einige teilten erfolgreiche Beispiele der PDF-Wiederherstellung und berichteten, dass pdfimages schärfere Ergebnisse als pdftoppm liefert
  • Abschließend wurden fortgeschrittene Techniken diskutiert, etwa Algorithmen zur automatischen Unterscheidung von 1/l, fehlererkennende Verfahren auf Basis von Streaming-Decompressoren und Vergleiche auf Pixelebene

Technische Bedeutung

  • Der Vorfall zeigt, wie Kodierungsfehler in digitalen Dokumenten und OCR-Grenzen den tatsächlichen Informationszugang behindern können
  • Er unterstreicht die Bedeutung von Qualitätssicherung bei der digitalen Verarbeitung rechtlicher Beweismittel und von Automatisierungstechniken in der Dokumentenforensik
  • Der gemeinschaftliche Wiederherstellungsversuch wird als Beispiel für Transparenz bei öffentlichen Daten und technische Überprüfbarkeit gewertet

1 Kommentare

 
GN⁺ 2026-02-06
Hacker-News-Kommentare
  • Es sieht nicht so aus, als hätte Pam Bondis Justizministeriumsteam dafür die besten Leute eingesetzt.

    • Der Nachrichtenverlauf zwischen den FBI-Agenten am Anfang war interessant. Ich hatte den Gedanken, dass es vielleicht absichtliche Schlamperei als malicious compliance war, damit Informationen nach draußen sickern, bevor sie erneut zensiert werden.
    • Das Internet findet alle ihre Fehler, daher wird das Ganze ironischerweise per Crowdsourcing ganz gut gelöst. Dank der Leute werden die Fehler laufend korrigiert.
  • Jemand teilt ein von Claude Opus erzeugtes Skript.
    Link zum Skript / Textausgabe / Bereinigte Version
    Es erzeugt ein PDF, bei dem man ungefähr die erste Seite lesen kann.

    • Ich frage mich, ob jemand es noch einmal als normalisiertes PDF exportieren oder Screenshots teilen kann. Meine PDF-Reader weigern sich alle, es zu öffnen.
    • Es wurde bestätigt, dass es eine öffentliche Veranstaltung mit 450 Teilnehmern war. Die Namen stimmen mit einem Artikel von Mount Sinai und einem Artikel von Business Insider überein, aber die Daten unterscheiden sich.
    • Tolle Arbeit.
  • Tesseract kann auf eine bestimmte Schriftart trainiert werden. Das scheint ein guter Ausgangspunkt zu sein.
    Referenz: Leitfaden zu Tesseract-Trainingsdaten

  • Das ist ein Problem der binären PDF-Dekodierung. Da die Zahl möglicher Kodierungen begrenzt ist, schlage ich folgenden Ansatz vor:

    1. Einen Open-Source-PDF-Decoder verwenden
    2. Die Bytes bis zum ersten mehrdeutigen Zeichen dekodieren
    3. Wenn das nächste Bit gültig ist, als 1 werten, sonst als l
    4. Wenn beides gültig ist, Backtracking
      So kann man die mittleren Zeichen schnell testen, wodurch eine vollständige Suche linear möglich wird.
    • Allerdings gibt es dazwischen noch einen Kompressionsschritt, daher könnte es deutlich mehr Backtracking geben.
    • So etwas passt gut zu afl.
  • Das sieht nach einem nerd snipe aus, aber tatsächlich ließe es sich mit Brute Force schneller erledigen. Wenn 76 Leute jeweils eine Seite abtippen, ist man fertig, bevor der Blogpost erscheint.

    • Eine einzelne Person könnte auch alle 76 Seiten abtippen. Früher habe ich solche Arbeiten öfter gemacht.
    • Aber 76 Leute zu exakter Transkription zu bringen, ist nicht einfach.
    • Ich habe keine 76 Freunde, also müsste ich es wohl bei Craigslist oder Fiverr einstellen. Die Koordination dürfte ziemlich aufwendig sein.
  • Da PDF ein so komplexes Format ist, wäre es meiner Meinung nach besser, wenn der Staat ein neues sicheres offenes Format schaffen und standardisieren würde.

    • XPS ist ein XML-basiertes offizielles Standardformat und hat ordentliche Open-Source-Unterstützung, aber die Qualität der Tools ist schwach und es ist immer noch komplex.
      DjVu ist einfach und hat gute Open-Source-Tools, aber es fehlt an Funktionen.
      TIFF ist sogar noch komplexer als PDF und daher ungeeignet.
      Referenz: XPS, DjVu, TIFF
    • Aber das ist kein Tool-Problem, sondern ein Problem der Missachtung des Gesetzes oder einer absichtlich schlampigen Arbeitsweise.
    • Selbst wenn man ein neues Format schafft, wird es in 3–5 Jahren am Ende genauso komplex wie PDF sein.
    • Halb im Scherz, halb im Ernst gibt es auch die Meinung, man solle einfach JPEG nehmen.
  • Über das Suchfeld von justice.gov ließen sich mehrere Versionen derselben E-Mail finden.
    Original: EFTA00400459.pdf
    Weitere Versionen:
    EFTA02153691.pdf
    EFTA02154109.pdf
    EFTA02154246.pdf
    Wenn man mehrere Versionen vergleicht, dürfte sich das leichter lösen lassen.

    • Es wurde auch eine Version mit anderer base64-Kodierung und anderen Schriftarten gefunden: EFTA00775520.pdf.
      Das Problem mit „1“ und „l“ bleibt bestehen, könnte aber als Referenz nützlich sein.
  • Ich habe überlegt, ob man nicht einfach alle Permutationen der (1, l)-Kombinationen ausprobieren sollte. Bei 76 Seiten × 69 Zeilen × 1 Vorkommen wären das 2^5244 Möglichkeiten. Hat jemand freie CPU-Kapazität?

    • Tatsächlich ist es viel einfacher. Man muss nur fortlaufend prüfen, ob jede Korrektur zu einer gültigen PDF-Struktur dekodiert.
      Falls standardmäßig komprimiert wird, machen Prüfsummen es noch einfacher. Mit vorhandenen Tools geht das aber nicht; man müsste direkt einen instrumentierten Test-Harness im Decoder bauen.
    • Oder man erstellt eine Kryptowährung wie Epsteincoin und bündelt damit Rechenleistung, um das Problem zu lösen.
  • Veranstaltungsdetails: Dubin Breast Center 2nd Annual Benefit (Archiv)

    • Auf dem Veranstaltungsplakat steht, dass es sich um die Wohltätigkeitsveranstaltung zum 2-jährigen Bestehen des Dubin Breast Center am 10. Dezember 2012 im Mandarin Oriental handelte,
      zu Ehren von Elisa Port und der Familie Ruttenberg.
      Moderiert wurde sie von Cynthia McFadden, und mehrere Musiker traten auf.
  • pdftoppm und Ghostscript (über ImageMagick aufgerufen) sind langsam, weil sie die gesamte Seite neu rasterisieren.
    Mit pdfimages oder mutool die gescannten Bilder direkt zu extrahieren, ist viel schneller.
    Tests zufolge ist pdfimages 13-mal schneller als pdftoppm.