2 Punkte von GN⁺ 2023-09-05 | 1 Kommentare | Auf WhatsApp teilen
  • Leitfaden zum Bearbeiten von PDF-Textinhalten: ohne kommerzielle Tools wie Adobe Acrobat
  • Wichtiger Leitfaden für Mac-Nutzer: Erwähnt Tools, die auch auf den meisten Linux-Distributionen verfügbar sind
  • Komprimierte Speicherung von Textdaten in PDFs: Dekomprimierung mit dem Kommandozeilen-Tool qpdf
  • Überprüfung der Textdaten nach der Dekomprimierung: im Texteditor, einschließlich Kodierung und Zuordnung zu bestimmten Schriftarten
  • Komplexität der Textkodierung in PDFs: verschiedene mögliche Kodierungen, einschließlich benutzerdefinierter Kodierungen, die in der Datei selbst enthalten sind
  • Extraktion von Kodierungsinformationen: mit dem Kommandozeilen-Tool pdffonts
  • Bietet ein Beispiel dafür, wie man die mit eingebetteten Kodierungen verknüpften Schriftarten identifiziert und die eingebetteten Kodierungstabellen dieser Schriftarten findet
  • Kodierungstabellen: Zuordnung benutzerdefinierter Kodierungspunkte zu Unicode-Punkten
  • Umwandlung der Tabellen mit Python: Umwandlung der Tabellen in Dictionaries sowie Schreiben von Kodier- und Dekodierfunktionen
  • Ersetzen des Originaltexts mit diesen Funktionen: Der Originaltext kann durch benutzerdefiniert kodierten Ersatztext ersetzt werden

1 Kommentare

 
GN⁺ 2023-09-05
Hacker-News-Kommentare
  • Das PDF-Format ist komplex und unterstützt verschiedene Funktionen, darunter Layer-Blending-Modi wie in Photoshop sowie inkrementelle Aktualisierungen zur Änderung bestehender Inhalte.
  • PDF unterstützt passwortbasierte Verschlüsselung mit unterschiedlichen „Besitzer-" und „Benutzer-"Passwörtern sowie Optionen, um Drucken oder das Kopieren von Text zu verhindern.
  • Trotz seiner Komplexität ist PDF kein undurchdringliches Binärformat, sondern ein in der offiziellen Spezifikation gut beschriebenes Objektdiagramm aus verschiedenen Objekttypen.
  • Werkzeuge wie mutool können verwendet werden, um PDF in eine Version ohne komprimierte Daten umzuwandeln, sodass sie leichter zu verstehen und zu bearbeiten ist.
  • PDF unterstützt viele Funktionen, darunter 3D-Objekte, JavaScript, Filme mit eingebetteten Flash-Objekten, unsichtbare Anmerkungen und Widgets, die eine Teilmenge von XHTML und CSS verwenden.
  • PDF ist jedoch in erster Linie ein Seitenbeschreibungsformat und stellt nicht die Darstellung einer Seite dar, sondern die Dokumentstruktur. Daher wird empfohlen, das Dokument zu bearbeiten, aus dem das PDF erzeugt wurde.
  • PDF dient in erster Linie dazu, Inhalte perfekt anzuzeigen oder zu drucken, und ähnelt daher eher einem Bildformat, das weniger Bytes als ein tatsächliches Bild benötigt.
  • Werkzeuge wie qpdf und RUPS können verwendet werden, um die Struktur eines PDF zu analysieren und zu bearbeiten.
  • Firefox bietet eine einfache Möglichkeit, PDFs zu signieren.
  • Die PDF-Spezifikation ist umfangreich und komplex, und selbst nach jahrelangem Studium kann es sich so anfühlen, als hätte man nur an der Oberfläche gekratzt.