Digitale forensische Fallstudie zu den Epstein-PDFs

(pdfa.org)

1 Punkte von GN⁺ 2026-02-05 | 1 Kommentare | Auf WhatsApp teilen

An den vom US-Justizministerium gemäß dem Epstein Files Transparency Act veröffentlichten PDF-Dokumenten wurde eine digitale forensische Analyse durchgeführt, die sich auf Dateistruktur und Syntax konzentrierte
Das Analyseergebnis zeigt, dass die PDF-Dateien der veröffentlichten EFTA-Datensätze 01–07 korrekt geschwärzt (redaction) wurden und die in sozialen Medien erhobenen Behauptungen über „wiederherstellbare Schwärzungen“ nicht zutreffen
Alle PDFs enthalten keine Verschlüsselung, Kommentare, JavaScript oder Anhänge; die meisten basieren auf gescannten Bildern mit angewendetem OCR, und in einigen Dateien existieren versteckte Metadaten (dictionary)
Technische Details wie Bates-Nummerierung, unkomprimierte Objekt-Streams, fehlerhafte Versionsangaben und fehlende Auskommentierung wurden festgestellt, haben jedoch keinen wesentlichen Einfluss auf die Dateigültigkeit
Dieser Fall zeigt die Komplexität der PDF-Forensik und die Grenzen der Tool-Zuverlässigkeit und unterstreicht die Bedeutung präziser Bereinigungs- und Redaktions-Workflows vor der Veröffentlichung sensibler Dokumente

Überblick über die vom DoJ veröffentlichten Daten

Das Justizministerium veröffentlichte am 19. Dezember 2025 sieben ZIP-Archive (insgesamt 2,97 GB); darin enthalten sind 4.085 PDFs, eine AVI-Datei sowie je Set .DAT- und .OPT-Datendateien
- Die PDF-Dateinamen reichen fortlaufend von EFTA00000001.pdf bis EFTA00009664.pdf
- Rund 5.879 PDFs sind noch unveröffentlicht
Die PDFs sind überwiegend dokumente auf Basis gescannter Bilder, mit durch OCR teilweise durchsuchbar gemachtem Text
- Es wurden Schwärzungen in Form von „Black Boxes“ angewendet, die nachweislich pixelbasiert und korrekt umgesetzt wurden
- Born-digital erzeugte Dokumente wurden nicht gefunden

Analyse von Dateigültigkeit und Versionen

Die Validierungsprüfung mit mehreren PDF-Forensik-Tools ergab nur einen einzigen geringfügigen Fehler
- In 109 Dateien war der FontDescriptor-Descent-Wert positiv gesetzt; dies ist jedoch nur ein kleiner Font-Matching-Fehler und beeinträchtigt die Gesamtgültigkeit nicht
Beim Vergleich zweier pdfinfo-Tools zeigten sich unterschiedliche ausgelesene PDF-Versionen
- Tool A meldete 209 Dateien in Version 1.3 und 3.875 Dateien in Version 1.5
- Tool B meldete 3.817 Dateien in Version 1.3 und 267 Dateien in Version 1.5
- Der Unterschied beruht auf abweichender Verarbeitung des Version-Eintrags bei incremental updates; das Ergebnis von Tool A ist korrekt
Alle PDFs enthalten keine Verschlüsselung, Tags, Anmerkungen, Lesezeichen, Formulare, JavaScript oder Anhänge
- Die Gesamtseitenzahl beträgt 9.659, die meisten Dokumente bestehen aus nur einer Seite

Incremental Updates und Bates-Nummerierung

PDFs speichern Änderungen kumulativ über mehrere incremental updates
- Das erste PDF (EFTA00000001.pdf) enthält zwei incremental updates
- Beim letzten Update wurde auf jeder Seite eine Bates-Nummer hinzugefügt
Das Hinzufügen der Bates-Nummern verwendet einen /Type /XRef-Cross-Reference-Stream und wurde in allen Beispiel-PDFs im selben Muster festgestellt
Im ersten incremental update wurde die PDF-Version von 1.3 auf 1.5 geändert, allerdings mit einem technischen Fehler, da sie nicht mit dem Header übereinstimmt
- Außerdem existiert ein verstecktes Dokumentinformations-Dictionary (Info dictionary), das im finalen Trailer nicht referenziert wird und daher in gewöhnlichen PDF-Viewern nicht sichtbar ist
- Dieses Dictionary enthält die Informationen /Creator (OmniPage CSDK 21.1) und /Producer (Processing-CLI)

Analyse von Metadaten und Datumsangaben

Laut pdfinfo enthalten die meisten PDFs keine expliziten Metadaten oder XMP-Streams
- In einigen Dateien existiert jedoch ein verwaistes Info dictionary, und der /Info-Eintrag erscheint mehrfach
Nur die Datei EFTA00003212.pdf enthält die Einträge Title, Author, Subject, Keywords, Creator
- In 215 Dateien ist der /Producer-Wert als „pypdf“ angegeben
Erstellungsdatum (CreationDate) und Änderungsdatum (ModDate) sind jeweils identisch und liegen zwischen dem 18. und 19. Dezember 2025
- Dies deutet darauf hin, dass die Batch-Verarbeitung des DoJ etwa 36 Stunden dauerte

Bilder und Scan-Eigenschaften

In allen PDFs fehlen JPEG-(DCTDecode)-Bilder; stattdessen werden FLATE-komprimierte Bitmaps verwendet
- Die Auflösung liegt bei etwa 96 DPI, die Farbpalette ist auf 256 Farben begrenzt
- Vermutlich dient dies dem Zweck, EXIF-, IPTC- und XMP-Metadaten zu entfernen
Einige Dokumente zeigen echte Scan-Spuren (Papierkanten, Lochungen, Kritzeleien usw.), während andere wie nach digitalem Rendering simuliert gescannte Bilder wirken
- Erkennbar ist dies an identischer Schieflage (skew) und dem Fehlen von Rauschen
Durch die Verwendung der nichtproportionalen Schrift Courier besteht das Risiko, die Anzahl geschwärzter Zeichen durch Zählen abschätzen zu können

OCR-Qualität und Genauigkeit der Schwärzung

Die OCR-Ergebnisse weisen eine geringe Genauigkeit und keine Spracherkennung auf und bewegen sich auf dem Niveau einfacher Zeichenerkennung
- Der OCR-Text des ersten PDFs (EFTA00000001.pdf) ist größtenteils ungenau
Die „Black-Box“-Schwärzung wurde direkt auf Pixelebene des Bildes angewendet und ist keine über Textobjekte gelegte Abdeckung (rectangle)
- Daher existiert kein wiederherstellbarer Text

Fazit und Implikationen

Die PDF-Erzeugungspipeline des DoJ besteht aus JPEG-Entfernung, Metadaten-Minimierung, bildbasiertem Rendering und OCR-Anwendung
- Allerdings erhöhen unnötige Objekte, leere Streams und verbliebene incremental updates die Dateigröße und Komplexität
Einige PDF-Kommentare (comment) und verwaiste Objekte (orphaned object) sind verblieben, wodurch potenziell Informationslecks möglich sind
Aufgrund von abweichenden Tool-Ergebnissen und der Formatkomplexität ist bei PDF-Forensik die Gefahr von Fehlurteilen hoch
- Die PDF Association betreibt dafür die PDF Forensic Liaison Working Group und treibt Standardisierung sowie Weiterbildung in der Branche voran

1 Kommentare

GN⁺ 2026-02-05

Hacker-News-Kommentare

Es wurde festgestellt, dass einige Dokumente zwar wie echte Scans aussehen, aber künstliche PDFs ohne jegliches physisches Rauschen sind
Daran, dass jede Seite dieselbe Schräglage (skew) und perfekte Kanten hat, erkennt man, dass offenbar ein originales digitales Dokument als Bild gerendert und anschließend mit Nachbearbeitung wie Schrägstellung, Verkleinerung und Farbverringerung versehen wurde
- Die eigentliche Frage ist, welche Dokumente solche „Fake-Scans“ sind und welche politische Erzählung dadurch gestützt werden soll
  Warum jemand so etwas macht, dürfte wohl damit zu tun haben, KI-generierte Bilder oder manipuliertes Material echt wirken zu lassen
- Wer GNOME Desktop nutzt, kann ein Bash-Skript in ~/.local/share/nautilus/ ablegen und dann direkt im Rechtsklick-Menü Fake-Scan-PDFs erzeugen
  Ich erinnere mich nicht mehr an die Originalquelle, aber ich glaube, ich habe das auf Stack Exchange gesehen. Mit dem Befehl magick werden Drehung, Rauschen, Graustufenumwandlung usw. angewendet
- Es ist seltsam, das auf diese Weise zu machen. Es wäre viel einfacher, das Dokument einfach auszudrucken und erneut zu scannen
- Das besonders erwähnte Dokument scheint das DoJ-Material zur Befragung von A. Acosta aus dem Jahr 2019 zu sein.
  Falls es echt ist, fragt man sich, warum das FBI es als Scan getarnt hat. Gibt es vielleicht Teile des Deals zwischen Epstein und Acosta, die nicht öffentlich werden sollen
  Relevanter PDF-Link
- Ich mache gelegentlich etwas Ähnliches. Wenn ich um eine Unterschrift gebeten werde, unterschreibe ich auf einem leeren Blatt, scanne es ein und füge später das Dokument darüber ein, bevor ich es einreiche
Ich halte es rechtlich für problematisch, dass das DOJ statt des Originals eine bearbeitete Kopie veröffentlicht hat
Die verwendete Software OmniPage CSDK 21.1 entfernt sämtliche Metadaten und löscht auch verschlüsselte Dateien
Ich frage mich, ob jemand schon einmal den Schreibstil von Epstein (JE) analysiert und mit Beiträgen auf Plattformen wie 4chan verglichen hat
Für Ghislaine dürfte es ebenfalls genug Daten geben; die Behauptungen zu MaxwellHill glaube ich zwar nicht, aber vielleicht gäbe es doch irgendwelche Hinweise
- Früher gab es ein Stylometrie-Projekt, das den Schreibstil von HN-Nutzern analysierte und ähnliche Accounts aufspürte
  Zugehöriger Beitrag
  Wegen Datenschutzproblemen wurde die Website abgeschaltet, aber die Genauigkeit war hoch. Ich bekomme selbst Lust, einen KI-Browser-Helfer zu bauen, der meine Kommentare zufällig umstylt
- Trotzdem bleibe ich skeptisch. Nur mit Schreibstil und Wortwahl überschneiden sich zu viele Menschen, als dass man jemanden eindeutig identifizieren könnte
  Epsteins E-Mails sind allerdings so eigentümlich, dass sie eine Ausnahme sein könnten
- Tatsächlich ist Stylometrie so ausgereift, dass schon n-Gramm-Analysen zur Identifizierung eines Autors reichen können
  HN-Demo-Link
  Solche Verfahren unterscheiden auch KI-generierte Texte gut. Ich halte das für deutlich besser, als einen „Transformer zur KI-Erkennung“ zu trainieren
- Epsteins Texte sind fast auf dem Niveau schwerer Legasthenie voller fehlerhafter Sätze
  Vielleicht schreiben hochrangige Personen so selten selbst, dass sie die Fähigkeit zum Satzbau verlieren, oder es ist ihre eigene interne Sprache
Ich fand es witzig, dass im Cookie-Popup dieser Seite der Ablehnen-Button „Continue without consent“ lautet
- Das wirkt wirklich wie eine Formulierung, die dem Nutzer ein schlechtes Gewissen machen soll
- Ironisch, dass eine Epstein-bezogene Website sich wie Epstein verhält
Über verwaiste Objekte in PDF-Anmerkungen oder in komprimierten Objekt-Streams könnten Informationen nach außen dringen
Hoffentlich archiviert jemand alle Dokumente unabhängig voneinander. Einige scheinen bereits gelöscht worden zu sein
- Auch auf Reddit werden entsprechende Beiträge gelöscht oder shadowgebannt
  In der Lemmy-Community wird aber weiterhin darüber diskutiert
- Einige Dokumente könnten zusätzlich geschwärzt worden sein, weil sie die Namen von Opfern enthalten
- Anfangs gab es auf der Seite zum Epstein Files Transparency Act .zip-Links zu allen Datensätzen,
  zwischenzeitlich waren sie alle verschwunden, inzwischen sind die meisten wiederhergestellt
Ich vergleiche derzeit mit dem Modell allenai/olmocr-2-7b die vom DOJ bereitgestellten OCR-Ergebnisse
Es sind ungefähr 500.000 Bilder, daher dauert es ziemlich lange. Trotzdem ist die Erkennungsrate von olmocr-2-7b ziemlich hoch
- Mich würde interessieren, ob jemand schon versucht hat, die Bildgröße zu reduzieren, um die Leistung zu erhöhen.
  Ich würde auch gern wissen, ab welcher Größe die Texterkennung schwierig wird
Ich habe mich gefragt, warum einige neuere Dateien zufällige „=“-Zeichen enthalten
Es sieht nicht nach einem OCR-Fehler aus, eher nach dem Versuch, die Suche zu erschweren
- Gestern war dazu ein Beitrag auf der HN-Startseite: Link
- Tatsächlich liegt es an einem Fehler bei der Verarbeitung von quoted-printable-codierten E-Mails
  Der gnus-Entwickler Lars Ingebrigtsen hat das in seinem Blog erklärt
In einigen PDFs sind Base64-codierte Anhänge unverändert im Haupttext enthalten
Die OCR-Qualität ist so schlecht, dass eine Wiederherstellung erheblichen Aufwand erfordern würde
Beispiel-PDF,
zugehöriger Reddit-Thread
- Ich frage mich, ob schon wenige fehlerhafte Bytes dazu führen können, dass eine Wiederherstellung der Binärdaten unmöglich wird
Persönlich finde ich Epsteins Bankkonten noch interessanter
Entscheidend ist, wer ihm Geld gegeben hat und wer wiederum Geld von ihm bekam
- Das DOJ kennt diese Informationen vermutlich bereits oder könnte sie auf Wunsch sofort prüfen
- Aber die Ursachenanalyse der Geldflüsse wird der Öffentlichkeit nicht zugänglich gemacht
  Stattdessen wird nur so viel veröffentlicht, wie nötig ist, damit sich die öffentliche Meinung in Hass zwischen bestimmten Gruppen kanalisiert
Der Zugriff wird von Cloudflare blockiert

Digitale forensische Fallstudie zu den Epstein-PDFs

Überblick über die vom DoJ veröffentlichten Daten

Analyse von Dateigültigkeit und Versionen

Incremental Updates und Bates-Nummerierung

Analyse von Metadaten und Datumsangaben

Bilder und Scan-Eigenschaften

OCR-Qualität und Genauigkeit der Schwärzung

Fazit und Implikationen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare