2 Punkte von GN⁺ 2025-02-11 | 1 Kommentare | Auf WhatsApp teilen
  • Eine Python-Bibliothek zum Untersuchen und Transformieren der internen Struktur von PDF-Dateien
  • Implementiert mit Schwerpunkt Kapitel 7 ("Syntax") des PDF-Standards
  • Verwaltet die Dokumentstruktur auf Byte-Ebene, sodass verschiedene Transformationsaufgaben wie Metadatenzugriff oder Rotation möglich sind

Hauptmerkmale

  • Bietet ein API-Toolkit für Lese-/Schreibvorgänge mit PDF
  • Unterstützt eine CLI (Command Line Interface), damit bestimmte Funktionen im Terminal oder Browser genutzt werden können
  • Eine leichtgewichtige Bibliothek ohne Abhängigkeiten, geschrieben in reinem Python
  • Mit Fokus auf Einfachheit und Unveränderlichkeit entworfen
  • Unterstützt die vom PDF-Standard erlaubte nicht-destruktive Bearbeitung und fügt standardmäßig inkrementelle Updates am Ende der Originaldatei an
    • Alle Änderungen können auch rückgängig gemacht oder zu einer einzigen Version zusammengeführt werden

Live-Demo

  • Es wird eine Live-Demo bereitgestellt, in der die statische HTML-Ausgabe von PDFSyntax im Browser erkundet werden kann.
  • Die Demo ist die Ausgabe für die Beispieldatei Simple Text String aus der PDF-Spezifikation.

1 Kommentare

 
GN⁺ 2025-02-11
Hacker-News-Kommentare

Zusammenfassung der Hacker-News-Kommentare

  • Jemand berichtet, früher mit der Extraktion von Daten aus PDFs betraut gewesen zu sein. Damals gab es noch keine AI-Technologien, heute könnte man dafür aber möglicherweise LLMs einsetzen.

  • In einem früheren Job hätte man ein Tool zur PDF-Datenextraktion häufig genutzt. Das ideale Tool sollte so funktionieren, dass man eine Datei hineinzieht und alles lokal verarbeitet wird.

  • Jemand hat bisher das kostenlose Tool iText RUPS zum Debugging von PDFs verwendet und erwartet, dass das neue Tool noch leistungsfähiger sein könnte.

  • Es wird gefragt, warum PDFs nicht durch XPS, DjVu oder XHTML (EPUB) ersetzt wurden. Benötigt werde ein einfaches Dokumentformat, das Hyperlinks innerhalb der Seite sowie Änderungen der Schriftgröße unterstützt.

  • Jemand meint, das Tool sei für Forensik und das Auffinden von Wasserzeichen nützlich.

  • Es wird angemerkt, dass es gut wäre, alle Bytes eines PDFs zu sehen. Dabei wird darauf hingewiesen, dass endobj und xref nicht sichtbar sind.

  • Jemand erinnert sich an ein ähnliches Projekt auf GitHub und daran, dass dort ein TCP/IP-Beispiel enthalten war.

  • Es wird vorgeschlagen, das Ganze als Browser-Bibliothek zu nutzen. Besonders beeindruckend sei die Funktion, eine Datei per Drag-and-Drop hineinzuziehen und ihre interne Struktur anzusehen.

  • Jemand fragt, ob das UI-Tool eine Bibliothek ist. Positiv bewertet wird, dass es sich um eine einfache UI handelt, die CSS gut nutzt.

  • Jemand sucht nach einem Tool, das Inhalte visueller Medienformate auf Byte-Ebene erklärt, und fragt, ob es bekannte Werkzeuge für Formate wie JPEG, PNG, AVI oder MP4 gibt.