- An den vom US-Justizministerium gemäß dem Epstein Files Transparency Act veröffentlichten PDF-Dokumenten wurde eine digitale forensische Analyse durchgeführt, die sich auf Dateistruktur und Syntax konzentrierte
- Das Analyseergebnis zeigt, dass die PDF-Dateien der veröffentlichten EFTA-Datensätze 01–07 korrekt geschwärzt (redaction) wurden und die in sozialen Medien erhobenen Behauptungen über „wiederherstellbare Schwärzungen“ nicht zutreffen
- Alle PDFs enthalten keine Verschlüsselung, Kommentare, JavaScript oder Anhänge; die meisten basieren auf gescannten Bildern mit angewendetem OCR, und in einigen Dateien existieren versteckte Metadaten (dictionary)
- Technische Details wie Bates-Nummerierung, unkomprimierte Objekt-Streams, fehlerhafte Versionsangaben und fehlende Auskommentierung wurden festgestellt, haben jedoch keinen wesentlichen Einfluss auf die Dateigültigkeit
- Dieser Fall zeigt die Komplexität der PDF-Forensik und die Grenzen der Tool-Zuverlässigkeit und unterstreicht die Bedeutung präziser Bereinigungs- und Redaktions-Workflows vor der Veröffentlichung sensibler Dokumente
Überblick über die vom DoJ veröffentlichten Daten
- Das Justizministerium veröffentlichte am 19. Dezember 2025 sieben ZIP-Archive (insgesamt 2,97 GB); darin enthalten sind 4.085 PDFs, eine AVI-Datei sowie je Set
.DAT- und .OPT-Datendateien
- Die PDF-Dateinamen reichen fortlaufend von
EFTA00000001.pdf bis EFTA00009664.pdf
- Rund 5.879 PDFs sind noch unveröffentlicht
- Die PDFs sind überwiegend dokumente auf Basis gescannter Bilder, mit durch OCR teilweise durchsuchbar gemachtem Text
- Es wurden Schwärzungen in Form von „Black Boxes“ angewendet, die nachweislich pixelbasiert und korrekt umgesetzt wurden
- Born-digital erzeugte Dokumente wurden nicht gefunden
Analyse von Dateigültigkeit und Versionen
- Die Validierungsprüfung mit mehreren PDF-Forensik-Tools ergab nur einen einzigen geringfügigen Fehler
- In 109 Dateien war der FontDescriptor-Descent-Wert positiv gesetzt; dies ist jedoch nur ein kleiner Font-Matching-Fehler und beeinträchtigt die Gesamtgültigkeit nicht
- Beim Vergleich zweier
pdfinfo-Tools zeigten sich unterschiedliche ausgelesene PDF-Versionen
- Tool A meldete 209 Dateien in Version 1.3 und 3.875 Dateien in Version 1.5
- Tool B meldete 3.817 Dateien in Version 1.3 und 267 Dateien in Version 1.5
- Der Unterschied beruht auf abweichender Verarbeitung des Version-Eintrags bei incremental updates; das Ergebnis von Tool A ist korrekt
- Alle PDFs enthalten keine Verschlüsselung, Tags, Anmerkungen, Lesezeichen, Formulare, JavaScript oder Anhänge
- Die Gesamtseitenzahl beträgt 9.659, die meisten Dokumente bestehen aus nur einer Seite
Incremental Updates und Bates-Nummerierung
- PDFs speichern Änderungen kumulativ über mehrere incremental updates
- Das erste PDF (
EFTA00000001.pdf) enthält zwei incremental updates
- Beim letzten Update wurde auf jeder Seite eine Bates-Nummer hinzugefügt
- Das Hinzufügen der Bates-Nummern verwendet einen
/Type /XRef-Cross-Reference-Stream und wurde in allen Beispiel-PDFs im selben Muster festgestellt
- Im ersten incremental update wurde die PDF-Version von 1.3 auf 1.5 geändert, allerdings mit einem technischen Fehler, da sie nicht mit dem Header übereinstimmt
- Außerdem existiert ein verstecktes Dokumentinformations-Dictionary (Info dictionary), das im finalen Trailer nicht referenziert wird und daher in gewöhnlichen PDF-Viewern nicht sichtbar ist
- Dieses Dictionary enthält die Informationen
/Creator (OmniPage CSDK 21.1) und /Producer (Processing-CLI)
Analyse von Metadaten und Datumsangaben
- Laut
pdfinfo enthalten die meisten PDFs keine expliziten Metadaten oder XMP-Streams
- In einigen Dateien existiert jedoch ein verwaistes Info dictionary, und der
/Info-Eintrag erscheint mehrfach
- Nur die Datei
EFTA00003212.pdf enthält die Einträge Title, Author, Subject, Keywords, Creator
- In 215 Dateien ist der
/Producer-Wert als „pypdf“ angegeben
- Erstellungsdatum (
CreationDate) und Änderungsdatum (ModDate) sind jeweils identisch und liegen zwischen dem 18. und 19. Dezember 2025
- Dies deutet darauf hin, dass die Batch-Verarbeitung des DoJ etwa 36 Stunden dauerte
Bilder und Scan-Eigenschaften
- In allen PDFs fehlen JPEG-(DCTDecode)-Bilder; stattdessen werden FLATE-komprimierte Bitmaps verwendet
- Die Auflösung liegt bei etwa 96 DPI, die Farbpalette ist auf 256 Farben begrenzt
- Vermutlich dient dies dem Zweck, EXIF-, IPTC- und XMP-Metadaten zu entfernen
- Einige Dokumente zeigen echte Scan-Spuren (Papierkanten, Lochungen, Kritzeleien usw.), während andere wie nach digitalem Rendering simuliert gescannte Bilder wirken
- Erkennbar ist dies an identischer Schieflage (skew) und dem Fehlen von Rauschen
- Durch die Verwendung der nichtproportionalen Schrift Courier besteht das Risiko, die Anzahl geschwärzter Zeichen durch Zählen abschätzen zu können
OCR-Qualität und Genauigkeit der Schwärzung
- Die OCR-Ergebnisse weisen eine geringe Genauigkeit und keine Spracherkennung auf und bewegen sich auf dem Niveau einfacher Zeichenerkennung
- Der OCR-Text des ersten PDFs (
EFTA00000001.pdf) ist größtenteils ungenau
- Die „Black-Box“-Schwärzung wurde direkt auf Pixelebene des Bildes angewendet und ist keine über Textobjekte gelegte Abdeckung (
rectangle)
- Daher existiert kein wiederherstellbarer Text
Fazit und Implikationen
- Die PDF-Erzeugungspipeline des DoJ besteht aus JPEG-Entfernung, Metadaten-Minimierung, bildbasiertem Rendering und OCR-Anwendung
- Allerdings erhöhen unnötige Objekte, leere Streams und verbliebene incremental updates die Dateigröße und Komplexität
- Einige PDF-Kommentare (comment) und verwaiste Objekte (orphaned object) sind verblieben, wodurch potenziell Informationslecks möglich sind
- Aufgrund von abweichenden Tool-Ergebnissen und der Formatkomplexität ist bei PDF-Forensik die Gefahr von Fehlurteilen hoch
- Die PDF Association betreibt dafür die PDF Forensic Liaison Working Group und treibt Standardisierung sowie Weiterbildung in der Branche voran
1 Kommentare
Hacker-News-Kommentare
Es wurde festgestellt, dass einige Dokumente zwar wie echte Scans aussehen, aber künstliche PDFs ohne jegliches physisches Rauschen sind
Daran, dass jede Seite dieselbe Schräglage (skew) und perfekte Kanten hat, erkennt man, dass offenbar ein originales digitales Dokument als Bild gerendert und anschließend mit Nachbearbeitung wie Schrägstellung, Verkleinerung und Farbverringerung versehen wurde
Warum jemand so etwas macht, dürfte wohl damit zu tun haben, KI-generierte Bilder oder manipuliertes Material echt wirken zu lassen
~/.local/share/nautilus/ablegen und dann direkt im Rechtsklick-Menü Fake-Scan-PDFs erzeugenIch erinnere mich nicht mehr an die Originalquelle, aber ich glaube, ich habe das auf Stack Exchange gesehen. Mit dem Befehl
magickwerden Drehung, Rauschen, Graustufenumwandlung usw. angewendetFalls es echt ist, fragt man sich, warum das FBI es als Scan getarnt hat. Gibt es vielleicht Teile des Deals zwischen Epstein und Acosta, die nicht öffentlich werden sollen
Relevanter PDF-Link
Ich halte es rechtlich für problematisch, dass das DOJ statt des Originals eine bearbeitete Kopie veröffentlicht hat
Die verwendete Software OmniPage CSDK 21.1 entfernt sämtliche Metadaten und löscht auch verschlüsselte Dateien
Ich frage mich, ob jemand schon einmal den Schreibstil von Epstein (JE) analysiert und mit Beiträgen auf Plattformen wie 4chan verglichen hat
Für Ghislaine dürfte es ebenfalls genug Daten geben; die Behauptungen zu MaxwellHill glaube ich zwar nicht, aber vielleicht gäbe es doch irgendwelche Hinweise
Zugehöriger Beitrag
Wegen Datenschutzproblemen wurde die Website abgeschaltet, aber die Genauigkeit war hoch. Ich bekomme selbst Lust, einen KI-Browser-Helfer zu bauen, der meine Kommentare zufällig umstylt
Epsteins E-Mails sind allerdings so eigentümlich, dass sie eine Ausnahme sein könnten
HN-Demo-Link
Solche Verfahren unterscheiden auch KI-generierte Texte gut. Ich halte das für deutlich besser, als einen „Transformer zur KI-Erkennung“ zu trainieren
Vielleicht schreiben hochrangige Personen so selten selbst, dass sie die Fähigkeit zum Satzbau verlieren, oder es ist ihre eigene interne Sprache
Ich fand es witzig, dass im Cookie-Popup dieser Seite der Ablehnen-Button „Continue without consent“ lautet
Über verwaiste Objekte in PDF-Anmerkungen oder in komprimierten Objekt-Streams könnten Informationen nach außen dringen
Hoffentlich archiviert jemand alle Dokumente unabhängig voneinander. Einige scheinen bereits gelöscht worden zu sein
In der Lemmy-Community wird aber weiterhin darüber diskutiert
zwischenzeitlich waren sie alle verschwunden, inzwischen sind die meisten wiederhergestellt
Ich vergleiche derzeit mit dem Modell allenai/olmocr-2-7b die vom DOJ bereitgestellten OCR-Ergebnisse
Es sind ungefähr 500.000 Bilder, daher dauert es ziemlich lange. Trotzdem ist die Erkennungsrate von olmocr-2-7b ziemlich hoch
Ich würde auch gern wissen, ab welcher Größe die Texterkennung schwierig wird
Ich habe mich gefragt, warum einige neuere Dateien zufällige „=“-Zeichen enthalten
Es sieht nicht nach einem OCR-Fehler aus, eher nach dem Versuch, die Suche zu erschweren
Der gnus-Entwickler Lars Ingebrigtsen hat das in seinem Blog erklärt
In einigen PDFs sind Base64-codierte Anhänge unverändert im Haupttext enthalten
Die OCR-Qualität ist so schlecht, dass eine Wiederherstellung erheblichen Aufwand erfordern würde
Beispiel-PDF,
zugehöriger Reddit-Thread
Persönlich finde ich Epsteins Bankkonten noch interessanter
Entscheidend ist, wer ihm Geld gegeben hat und wer wiederum Geld von ihm bekam
Stattdessen wird nur so viel veröffentlicht, wie nötig ist, damit sich die öffentliche Meinung in Hass zwischen bestimmten Gruppen kanalisiert
Der Zugriff wird von Cloudflare blockiert