- Eine Python-Bibliothek zum Untersuchen und Transformieren der internen Struktur von PDF-Dateien
- Implementiert mit Schwerpunkt Kapitel 7 ("Syntax") des PDF-Standards
- Verwaltet die Dokumentstruktur auf Byte-Ebene, sodass verschiedene Transformationsaufgaben wie Metadatenzugriff oder Rotation möglich sind
Hauptmerkmale
- Bietet ein API-Toolkit für Lese-/Schreibvorgänge mit PDF
- Unterstützt eine CLI (Command Line Interface), damit bestimmte Funktionen im Terminal oder Browser genutzt werden können
- Eine leichtgewichtige Bibliothek ohne Abhängigkeiten, geschrieben in reinem Python
- Mit Fokus auf Einfachheit und Unveränderlichkeit entworfen
- Unterstützt die vom PDF-Standard erlaubte nicht-destruktive Bearbeitung und fügt standardmäßig inkrementelle Updates am Ende der Originaldatei an
- Alle Änderungen können auch rückgängig gemacht oder zu einer einzigen Version zusammengeführt werden
Live-Demo
- Es wird eine Live-Demo bereitgestellt, in der die statische HTML-Ausgabe von PDFSyntax im Browser erkundet werden kann.
- Die Demo ist die Ausgabe für die Beispieldatei Simple Text String aus der PDF-Spezifikation.
1 Kommentare
Hacker-News-Kommentare
Zusammenfassung der Hacker-News-Kommentare
Jemand berichtet, früher mit der Extraktion von Daten aus PDFs betraut gewesen zu sein. Damals gab es noch keine AI-Technologien, heute könnte man dafür aber möglicherweise LLMs einsetzen.
In einem früheren Job hätte man ein Tool zur PDF-Datenextraktion häufig genutzt. Das ideale Tool sollte so funktionieren, dass man eine Datei hineinzieht und alles lokal verarbeitet wird.
Jemand hat bisher das kostenlose Tool iText RUPS zum Debugging von PDFs verwendet und erwartet, dass das neue Tool noch leistungsfähiger sein könnte.
Es wird gefragt, warum PDFs nicht durch XPS, DjVu oder XHTML (EPUB) ersetzt wurden. Benötigt werde ein einfaches Dokumentformat, das Hyperlinks innerhalb der Seite sowie Änderungen der Schriftgröße unterstützt.
Jemand meint, das Tool sei für Forensik und das Auffinden von Wasserzeichen nützlich.
Es wird angemerkt, dass es gut wäre, alle Bytes eines PDFs zu sehen. Dabei wird darauf hingewiesen, dass
endobjundxrefnicht sichtbar sind.Jemand erinnert sich an ein ähnliches Projekt auf GitHub und daran, dass dort ein TCP/IP-Beispiel enthalten war.
Es wird vorgeschlagen, das Ganze als Browser-Bibliothek zu nutzen. Besonders beeindruckend sei die Funktion, eine Datei per Drag-and-Drop hineinzuziehen und ihre interne Struktur anzusehen.
Jemand fragt, ob das UI-Tool eine Bibliothek ist. Positiv bewertet wird, dass es sich um eine einfache UI handelt, die CSS gut nutzt.
Jemand sucht nach einem Tool, das Inhalte visueller Medienformate auf Byte-Ebene erklärt, und fragt, ob es bekannte Werkzeuge für Formate wie JPEG, PNG, AVI oder MP4 gibt.