1 Punkte von GN⁺ 2026-02-05 | 1 Kommentare | Auf WhatsApp teilen
  • An den vom US-Justizministerium gemäß dem Epstein Files Transparency Act veröffentlichten PDF-Dokumenten wurde eine digitale forensische Analyse durchgeführt, die sich auf Dateistruktur und Syntax konzentrierte
  • Das Analyseergebnis zeigt, dass die PDF-Dateien der veröffentlichten EFTA-Datensätze 01–07 korrekt geschwärzt (redaction) wurden und die in sozialen Medien erhobenen Behauptungen über „wiederherstellbare Schwärzungen“ nicht zutreffen
  • Alle PDFs enthalten keine Verschlüsselung, Kommentare, JavaScript oder Anhänge; die meisten basieren auf gescannten Bildern mit angewendetem OCR, und in einigen Dateien existieren versteckte Metadaten (dictionary)
  • Technische Details wie Bates-Nummerierung, unkomprimierte Objekt-Streams, fehlerhafte Versionsangaben und fehlende Auskommentierung wurden festgestellt, haben jedoch keinen wesentlichen Einfluss auf die Dateigültigkeit
  • Dieser Fall zeigt die Komplexität der PDF-Forensik und die Grenzen der Tool-Zuverlässigkeit und unterstreicht die Bedeutung präziser Bereinigungs- und Redaktions-Workflows vor der Veröffentlichung sensibler Dokumente

Überblick über die vom DoJ veröffentlichten Daten

  • Das Justizministerium veröffentlichte am 19. Dezember 2025 sieben ZIP-Archive (insgesamt 2,97 GB); darin enthalten sind 4.085 PDFs, eine AVI-Datei sowie je Set .DAT- und .OPT-Datendateien
    • Die PDF-Dateinamen reichen fortlaufend von EFTA00000001.pdf bis EFTA00009664.pdf
    • Rund 5.879 PDFs sind noch unveröffentlicht
  • Die PDFs sind überwiegend dokumente auf Basis gescannter Bilder, mit durch OCR teilweise durchsuchbar gemachtem Text
    • Es wurden Schwärzungen in Form von „Black Boxes“ angewendet, die nachweislich pixelbasiert und korrekt umgesetzt wurden
    • Born-digital erzeugte Dokumente wurden nicht gefunden

Analyse von Dateigültigkeit und Versionen

  • Die Validierungsprüfung mit mehreren PDF-Forensik-Tools ergab nur einen einzigen geringfügigen Fehler
    • In 109 Dateien war der FontDescriptor-Descent-Wert positiv gesetzt; dies ist jedoch nur ein kleiner Font-Matching-Fehler und beeinträchtigt die Gesamtgültigkeit nicht
  • Beim Vergleich zweier pdfinfo-Tools zeigten sich unterschiedliche ausgelesene PDF-Versionen
    • Tool A meldete 209 Dateien in Version 1.3 und 3.875 Dateien in Version 1.5
    • Tool B meldete 3.817 Dateien in Version 1.3 und 267 Dateien in Version 1.5
    • Der Unterschied beruht auf abweichender Verarbeitung des Version-Eintrags bei incremental updates; das Ergebnis von Tool A ist korrekt
  • Alle PDFs enthalten keine Verschlüsselung, Tags, Anmerkungen, Lesezeichen, Formulare, JavaScript oder Anhänge
    • Die Gesamtseitenzahl beträgt 9.659, die meisten Dokumente bestehen aus nur einer Seite

Incremental Updates und Bates-Nummerierung

  • PDFs speichern Änderungen kumulativ über mehrere incremental updates
    • Das erste PDF (EFTA00000001.pdf) enthält zwei incremental updates
    • Beim letzten Update wurde auf jeder Seite eine Bates-Nummer hinzugefügt
  • Das Hinzufügen der Bates-Nummern verwendet einen /Type /XRef-Cross-Reference-Stream und wurde in allen Beispiel-PDFs im selben Muster festgestellt
  • Im ersten incremental update wurde die PDF-Version von 1.3 auf 1.5 geändert, allerdings mit einem technischen Fehler, da sie nicht mit dem Header übereinstimmt
    • Außerdem existiert ein verstecktes Dokumentinformations-Dictionary (Info dictionary), das im finalen Trailer nicht referenziert wird und daher in gewöhnlichen PDF-Viewern nicht sichtbar ist
    • Dieses Dictionary enthält die Informationen /Creator (OmniPage CSDK 21.1) und /Producer (Processing-CLI)

Analyse von Metadaten und Datumsangaben

  • Laut pdfinfo enthalten die meisten PDFs keine expliziten Metadaten oder XMP-Streams
    • In einigen Dateien existiert jedoch ein verwaistes Info dictionary, und der /Info-Eintrag erscheint mehrfach
  • Nur die Datei EFTA00003212.pdf enthält die Einträge Title, Author, Subject, Keywords, Creator
    • In 215 Dateien ist der /Producer-Wert als „pypdf“ angegeben
  • Erstellungsdatum (CreationDate) und Änderungsdatum (ModDate) sind jeweils identisch und liegen zwischen dem 18. und 19. Dezember 2025
    • Dies deutet darauf hin, dass die Batch-Verarbeitung des DoJ etwa 36 Stunden dauerte

Bilder und Scan-Eigenschaften

  • In allen PDFs fehlen JPEG-(DCTDecode)-Bilder; stattdessen werden FLATE-komprimierte Bitmaps verwendet
    • Die Auflösung liegt bei etwa 96 DPI, die Farbpalette ist auf 256 Farben begrenzt
    • Vermutlich dient dies dem Zweck, EXIF-, IPTC- und XMP-Metadaten zu entfernen
  • Einige Dokumente zeigen echte Scan-Spuren (Papierkanten, Lochungen, Kritzeleien usw.), während andere wie nach digitalem Rendering simuliert gescannte Bilder wirken
    • Erkennbar ist dies an identischer Schieflage (skew) und dem Fehlen von Rauschen
  • Durch die Verwendung der nichtproportionalen Schrift Courier besteht das Risiko, die Anzahl geschwärzter Zeichen durch Zählen abschätzen zu können

OCR-Qualität und Genauigkeit der Schwärzung

  • Die OCR-Ergebnisse weisen eine geringe Genauigkeit und keine Spracherkennung auf und bewegen sich auf dem Niveau einfacher Zeichenerkennung
    • Der OCR-Text des ersten PDFs (EFTA00000001.pdf) ist größtenteils ungenau
  • Die „Black-Box“-Schwärzung wurde direkt auf Pixelebene des Bildes angewendet und ist keine über Textobjekte gelegte Abdeckung (rectangle)
    • Daher existiert kein wiederherstellbarer Text

Fazit und Implikationen

  • Die PDF-Erzeugungspipeline des DoJ besteht aus JPEG-Entfernung, Metadaten-Minimierung, bildbasiertem Rendering und OCR-Anwendung
    • Allerdings erhöhen unnötige Objekte, leere Streams und verbliebene incremental updates die Dateigröße und Komplexität
  • Einige PDF-Kommentare (comment) und verwaiste Objekte (orphaned object) sind verblieben, wodurch potenziell Informationslecks möglich sind
  • Aufgrund von abweichenden Tool-Ergebnissen und der Formatkomplexität ist bei PDF-Forensik die Gefahr von Fehlurteilen hoch
    • Die PDF Association betreibt dafür die PDF Forensic Liaison Working Group und treibt Standardisierung sowie Weiterbildung in der Branche voran

1 Kommentare

 
GN⁺ 2026-02-05
Hacker-News-Kommentare
  • Es wurde festgestellt, dass einige Dokumente zwar wie echte Scans aussehen, aber künstliche PDFs ohne jegliches physisches Rauschen sind
    Daran, dass jede Seite dieselbe Schräglage (skew) und perfekte Kanten hat, erkennt man, dass offenbar ein originales digitales Dokument als Bild gerendert und anschließend mit Nachbearbeitung wie Schrägstellung, Verkleinerung und Farbverringerung versehen wurde

    • Die eigentliche Frage ist, welche Dokumente solche „Fake-Scans“ sind und welche politische Erzählung dadurch gestützt werden soll
      Warum jemand so etwas macht, dürfte wohl damit zu tun haben, KI-generierte Bilder oder manipuliertes Material echt wirken zu lassen
    • Wer GNOME Desktop nutzt, kann ein Bash-Skript in ~/.local/share/nautilus/ ablegen und dann direkt im Rechtsklick-Menü Fake-Scan-PDFs erzeugen
      Ich erinnere mich nicht mehr an die Originalquelle, aber ich glaube, ich habe das auf Stack Exchange gesehen. Mit dem Befehl magick werden Drehung, Rauschen, Graustufenumwandlung usw. angewendet
    • Es ist seltsam, das auf diese Weise zu machen. Es wäre viel einfacher, das Dokument einfach auszudrucken und erneut zu scannen
    • Das besonders erwähnte Dokument scheint das DoJ-Material zur Befragung von A. Acosta aus dem Jahr 2019 zu sein.
      Falls es echt ist, fragt man sich, warum das FBI es als Scan getarnt hat. Gibt es vielleicht Teile des Deals zwischen Epstein und Acosta, die nicht öffentlich werden sollen
      Relevanter PDF-Link
    • Ich mache gelegentlich etwas Ähnliches. Wenn ich um eine Unterschrift gebeten werde, unterschreibe ich auf einem leeren Blatt, scanne es ein und füge später das Dokument darüber ein, bevor ich es einreiche
  • Ich halte es rechtlich für problematisch, dass das DOJ statt des Originals eine bearbeitete Kopie veröffentlicht hat
    Die verwendete Software OmniPage CSDK 21.1 entfernt sämtliche Metadaten und löscht auch verschlüsselte Dateien

  • Ich frage mich, ob jemand schon einmal den Schreibstil von Epstein (JE) analysiert und mit Beiträgen auf Plattformen wie 4chan verglichen hat
    Für Ghislaine dürfte es ebenfalls genug Daten geben; die Behauptungen zu MaxwellHill glaube ich zwar nicht, aber vielleicht gäbe es doch irgendwelche Hinweise

    • Früher gab es ein Stylometrie-Projekt, das den Schreibstil von HN-Nutzern analysierte und ähnliche Accounts aufspürte
      Zugehöriger Beitrag
      Wegen Datenschutzproblemen wurde die Website abgeschaltet, aber die Genauigkeit war hoch. Ich bekomme selbst Lust, einen KI-Browser-Helfer zu bauen, der meine Kommentare zufällig umstylt
    • Trotzdem bleibe ich skeptisch. Nur mit Schreibstil und Wortwahl überschneiden sich zu viele Menschen, als dass man jemanden eindeutig identifizieren könnte
      Epsteins E-Mails sind allerdings so eigentümlich, dass sie eine Ausnahme sein könnten
    • Tatsächlich ist Stylometrie so ausgereift, dass schon n-Gramm-Analysen zur Identifizierung eines Autors reichen können
      HN-Demo-Link
      Solche Verfahren unterscheiden auch KI-generierte Texte gut. Ich halte das für deutlich besser, als einen „Transformer zur KI-Erkennung“ zu trainieren
    • Epsteins Texte sind fast auf dem Niveau schwerer Legasthenie voller fehlerhafter Sätze
      Vielleicht schreiben hochrangige Personen so selten selbst, dass sie die Fähigkeit zum Satzbau verlieren, oder es ist ihre eigene interne Sprache
  • Ich fand es witzig, dass im Cookie-Popup dieser Seite der Ablehnen-Button „Continue without consent“ lautet

    • Das wirkt wirklich wie eine Formulierung, die dem Nutzer ein schlechtes Gewissen machen soll
    • Ironisch, dass eine Epstein-bezogene Website sich wie Epstein verhält
  • Über verwaiste Objekte in PDF-Anmerkungen oder in komprimierten Objekt-Streams könnten Informationen nach außen dringen
    Hoffentlich archiviert jemand alle Dokumente unabhängig voneinander. Einige scheinen bereits gelöscht worden zu sein

    • Auch auf Reddit werden entsprechende Beiträge gelöscht oder shadowgebannt
      In der Lemmy-Community wird aber weiterhin darüber diskutiert
    • Einige Dokumente könnten zusätzlich geschwärzt worden sein, weil sie die Namen von Opfern enthalten
    • Anfangs gab es auf der Seite zum Epstein Files Transparency Act .zip-Links zu allen Datensätzen,
      zwischenzeitlich waren sie alle verschwunden, inzwischen sind die meisten wiederhergestellt
  • Ich vergleiche derzeit mit dem Modell allenai/olmocr-2-7b die vom DOJ bereitgestellten OCR-Ergebnisse
    Es sind ungefähr 500.000 Bilder, daher dauert es ziemlich lange. Trotzdem ist die Erkennungsrate von olmocr-2-7b ziemlich hoch

    • Mich würde interessieren, ob jemand schon versucht hat, die Bildgröße zu reduzieren, um die Leistung zu erhöhen.
      Ich würde auch gern wissen, ab welcher Größe die Texterkennung schwierig wird
  • Ich habe mich gefragt, warum einige neuere Dateien zufällige „=“-Zeichen enthalten
    Es sieht nicht nach einem OCR-Fehler aus, eher nach dem Versuch, die Suche zu erschweren

    • Gestern war dazu ein Beitrag auf der HN-Startseite: Link
    • Tatsächlich liegt es an einem Fehler bei der Verarbeitung von quoted-printable-codierten E-Mails
      Der gnus-Entwickler Lars Ingebrigtsen hat das in seinem Blog erklärt
  • In einigen PDFs sind Base64-codierte Anhänge unverändert im Haupttext enthalten
    Die OCR-Qualität ist so schlecht, dass eine Wiederherstellung erheblichen Aufwand erfordern würde
    Beispiel-PDF,
    zugehöriger Reddit-Thread

    • Ich frage mich, ob schon wenige fehlerhafte Bytes dazu führen können, dass eine Wiederherstellung der Binärdaten unmöglich wird
  • Persönlich finde ich Epsteins Bankkonten noch interessanter
    Entscheidend ist, wer ihm Geld gegeben hat und wer wiederum Geld von ihm bekam

    • Das DOJ kennt diese Informationen vermutlich bereits oder könnte sie auf Wunsch sofort prüfen
    • Aber die Ursachenanalyse der Geldflüsse wird der Öffentlichkeit nicht zugänglich gemacht
      Stattdessen wird nur so viel veröffentlicht, wie nötig ist, damit sich die öffentliche Meinung in Hass zwischen bestimmten Gruppen kanalisiert
  • Der Zugriff wird von Cloudflare blockiert