- Erläutert die Struktur des offenen Dokumentformats HWPX sowie die Art und Weise, wie Daten gespeichert und verwaltet werden
- Beschreibt die Unterschiede zwischen HWPX und dem bisherigen HWP-Format und analysiert die wichtigsten Bestandteile des HWPX-Formats sowie die Rolle der einzelnen Dateien
Einleitung
- Der größte Unterschied besteht darin, dass HWP ein Binärformat ist, während HWPX aus XML-Dateien in einer ZIP-Struktur besteht
- Beim HWP-Format sind die Streams in einer Record-Struktur organisiert, sodass für die Datenextraktion ein separater Analyseprozess erforderlich ist
- Im Gegensatz dazu sind die Hauptdateien im HWPX-Format XML, wodurch sich Daten leicht extrahieren lassen
Was ist HWPX?
- Ein von Hancom entwickeltes XML-basiertes offenes Dokumentformat, das dem nationalen Standard OWPML (KS X 6101) folgt
- OWPML steht für die XML-basierte „Open Word-Processor Markup Language“
- Ein koreanischer Industriestandard (KS), der am 30. Dezember 2011 festgelegt wurde; die Standardentwicklung erfolgte über etwa zwei Jahre hinweg durch ein inländisches Komitee zur Dokumentstandardisierung
- Ein nationaler Standard, der gemeinsam mit Fachleuten entwickelt wurde, die direkt an der inländischen Standardentwicklung beteiligt waren
- Ein Dateiformat, das entwickelt wurde, um Offenheit, Kompatibilität und Langzeitarchivierbarkeit für das binäre HWP-Format sicherzustellen
- Zu diesem Zweck ist es als XML-basiertes Paketformat aufgebaut
Dateistruktur von HWPX
- HWPX ist ein XML-basiertes Format mit ZIP-Dateistruktur
- Nach dem Entpacken besteht es aus mehreren XML-Dateien und Ordnern
- Hauptbestandteile:
mimetype: Enthält Informationen zum Dateityp und dient als Signatur, um das HWPX-Format zu identifizieren
settings.xml: Enthält Informationen zu externen Einstellungselementen wie der Cursorposition
version.xml: Enthält Versionsinformationen zum OWPML-Dateiformat sowie Informationen zur Speicherumgebung des Dokuments
BinData/: Hier werden binäre Dateien gespeichert, die im Dokument enthalten sind, etwa Bilder und OLE-Objekte
Contents/: Enthält Formatierungsinformationen und den Hauptinhalt des Dokuments und besteht aus Dateien wie content.hpf, header.xml und section0.xml
content.hpf : Liste der wichtigsten Dateien im Paket. Definiert nach dem PF-Standard (Open Packaging Format) und in die drei Bereiche metadata, manifest und spine gegliedert
header.xml : Enthält sämtliche Einstellungen im Zusammenhang mit dem Dokumentinhalt, einschließlich Mapping-Informationen zu Zeichenformaten und Absatzformaten
section0.xml : Speichert den Hauptinhalt nach Abschnitten; jeder Abschnitt des Dokuments wird in einer separaten Datei gespeichert
META-INF/: Enthält die Dateien manifest.xml, container.rdf und container.xml; bei verschlüsselten Dokumenten werden hier die Verschlüsselungsinformationen für die einzelnen Dateien gespeichert
Scripts/: In headerScripts und sourceScripts werden Skriptinformationen gespeichert, die im Dokument enthalten sind
Preview/: Enthält Vorschaubilder und Textdateien. Diese Informationen werden angezeigt, wenn im Dateiexplorer das Vorschaufenster geöffnet wird. Bei verschlüsselten Dokumenten werden diese Dateien aus Sicherheitsgründen nicht gespeichert
Fazit
- Vor der praktischen Nutzung von HWPX werden die Gesamtstruktur und die Rolle der einzelnen internen Dateien erläutert
- In der weiteren Serie werden Beispiele dafür vorgestellt, wie sich die gewünschten Daten aus echten HWPX-Dokumenten extrahieren lassen
- Es bleibt zu hoffen, dass dies beim Verständnis und bei der Nutzung der Bestandteile und Daten von HWPX hilfreich ist
4 Kommentare
Vielen Dank für den guten Artikel. Ich möchte Dateien, die auf AWS erzeugt werden (zum Beispiel Berichte), gern als HWP erstellen, aber es ist schwierig, weil es an einschlägigen Referenzen mangelt. Derzeit nutze ich Word. Falls Sie hilfreiche Unterlagen oder Links als Referenz kennen, würde ich mich über einen Hinweis freuen.
Soweit ich zuvor gehört hatte, ist hwpx einfach die Binärdatei von hwp, die in XML ausgeschrieben und dann als ZIP verpackt wurde.
Trotzdem lässt es sich zumindest lesen, also ...
Es heißt, das sei schlicht
docxdirekt nachempfunden.Als MS damals aus
docdocxmachte, ist man ja genauso vorgegangen.Dateiformat von Han/Geul-Dokumenten: Ein Blick auf die Struktur des HWP-Formats