Dateiformat für Han/Geul-Dokumente: Ein Blick auf die Struktur des HWP-Formats

(tech.hancom.com)

23 Punkte von GN⁺ 2025-02-25 | 13 Kommentare | Auf WhatsApp teilen

Einleitung

In der modernen Gesellschaft treiben KI-Technologien Innovationen in verschiedensten Bereichen voran, und die Bedeutung von Daten nimmt zu
Das HWP-Format besitzt Eigenschaften, die für das KI-Training vorteilhaft sind
- Es besteht nicht nur aus einfachem Text, sondern auch aus verschiedenen Elementen wie Bildern, Tabellen und Diagrammen und liefert dadurch umfangreiche Informationen
- Es ist in verschiedene Formate wie Titel, Absätze und Tabellen strukturiert, was KI-Modellen beim Verstehen und Analysieren von Dokumenten helfen kann
In diesem Beitrag werfen wir einen Blick auf die Struktur des HWP-Formats und darauf, wie Dokumentinformationen gespeichert werden

Was ist das HWP-Format?

Das HWP-Format ist ein von Hancom entwickeltes Dokumentformat und wurde 1997 erstmals veröffentlicht.
Dieses Format ist als CFB (Compound File Binary File Format) aufgebaut und speichert mehrere Datenströme in einer einzelnen Datei.
Eine HWP-Datei enthält Informationen wie File Header, DocInfo, DocOptions, BodyText, Script, HwpSummaryInformation, PrvImage und PrvText.

1. File Header

Im Datei-Header einer HWP-Datei sind Informationen zur Erkennung eines Han/Geul-Dokuments enthalten.
Er enthält Signaturinformationen, die Dokumentversion und Dateierkennungsinformationen, anhand derer sich der Dokumenttyp einer HWP-Datei bestimmen lässt.

2. DocInfo

Dies ist der Stream, der gemeinsame Informationen wie die im Dokument verwendeten Schriftarten, Zeichenattribute und Absatzattribute enthält.
DocInfo wird komprimiert mit zlib gespeichert; nach dem Entpacken lassen sich die Originaldaten einsehen.
Verschiedene Arten von Informationen werden im Record-Format gespeichert.

3. DocOptions

Informationen zu verknüpften Dokumenten, für die Verteilung bestimmten Dokumenten und digitalen Zertifikaten werden als Stream gespeichert.

4. BodyText (Section)

Hier wird der eigentliche Inhalt gespeichert, der dem Haupttext des Dokuments entspricht.
Je nach Anzahl der Bereiche im Haupttext besteht dieser aus mehreren Section-Streams.

5. Script

Dies ist der Storage, in dem Skriptinformationen gespeichert sind, die für die Skript-Makrofunktion definiert wurden.

6. HwpSummaryInformation

Hier werden die zusammenfassenden Dokumentinformationen gespeichert; die Struktur entspricht Microsofts PropertySet-Struktur.

7. PrvImage

Das Vorschaubild des Dokuments; gespeichert wird das Bild der ersten Seite.

8. PrvText

Der Vorschautext des Dokuments; der Inhalt der ersten Seite wird als Unicode-Zeichenfolge gespeichert.

Fazit

Das HWP-Format wird in einem Binärformat gespeichert, ist für Menschen schwer direkt lesbar und so konzipiert, dass es nur mit bestimmter Software geöffnet und bearbeitet werden kann.
Das HWPX-Format hingegen basiert auf Open XML, ist strukturiert aufgebaut und so konzipiert, dass Menschen den Inhalt leicht verstehen können.
Im nächsten Beitrag sehen wir uns an, auf welche Weise das HWPX-Format Informationen im Vergleich zum HWP-Format anders speichert.

13 Kommentare

hahnlee 2025-02-25

Ich bin hahnlee, der hwp.js (https://github.com/hahnlee/hwp.js) entwickelt hat :)
Ich mochte HWP während der Entwicklung dieses Projekts nicht besonders, und ehrlich gesagt auch jetzt nicht. Vor allem nicht, was den Grad der Offenheit angeht.

Dem Punkt „Das HWP-Format hat Elemente, die für AI-Training vorteilhaft sind“ stimme ich allerdings bis zu einem gewissen Grad zu.

Wenn ich von meinen Erfahrungen beim Aufbau von RAG ausgehe: In Korea werden besonders häufig Tabellen verwendet. Im Fall von PDF handelt es sich um ein Format, das für den Druck gedacht ist, daher gibt es in PDFs keine „Tabelle“ als solche. Es gibt nur Linien und Text.

Deshalb war es schwierig, aus komplexen Tabelleninformationen auf Basis von PDF-Dokumenten Daten zu extrahieren. Das galt besonders dann, wenn sich Tabellen über mehrere Seiten erstreckten.

Grob gesagt fühlte es sich so an: Wenn HWP eine Art Rich-Text-Dokument ist, dann ist PDF eher wie ein txt-Dokument. Das bezieht sich natürlich nur auf „Tabellen“.

Ob das nun aber ein besonderer Vorteil des HWP-Formats ist? Ich denke nicht. Für einfache Dinge reicht Markdown völlig aus, und wenn es etwas komplexer wird, halte ich es für besser, es in HTML zu definieren.

Und entscheidend ist außerdem, dass docx und odt dieselben Vorteile haben.

iolothebard 2025-02-25

Nachdem Netscape von IE komplett plattgemacht worden war, haben sie den Source Code offengelegt und dergleichen – reichlich spät und mit viel Aktionismus im Nachhinein.

riki3 2025-02-25

Ich mag HWP nicht und kann über die Produkte des heutigen Unternehmens Hancom nichts Gutes sagen, aber früher war das Produkt selbst meiner Meinung nach eine deutlich bessere Software als Word.

kuthia 2025-02-26

Ich denke auch, dass es bis zum Erscheinen von Hangul 97 eine hervorragende Software war.

jwh926 2025-02-25

Was soll das?

carnoxen 2025-02-25

Eine unglückliche Existenz, die nie zum Weltstandard wurde

wook3910 2025-02-25

Ich habe zwar Textverarbeitung mit 아래아 한글 gelernt, aber inzwischen ist es wohl eher ein Relikt, das zum Wohl der Weiterentwicklung Südkoreas verschwinden sollte.

regentag 2025-02-26

Im Vergleich zu MS Word oder LibreOffice war Hangeul viel praktischer, um Dokumente in genau der gewünschten Form zu erstellen. Für die Verteilung kann man sie ja als PDF bereitstellen.

Natürlich empfinde ich das wohl auch deshalb so, weil ich an Hangeul gewöhnt bin.

yeorinhieut 2025-02-25

"Das HWP-Format verfügt über Eigenschaften, die für das KI-Training vorteilhaft sind"

Ist das wirklich so..?

regentag 2025-02-26

Vielleicht sollte sich das Training der KI einfach auf PDFs konzentrieren, und bei Hangul wäre es nicht besser, einfach einen guten PDF-Konverter zu bauen? 😄

iamchp 2025-02-25

Ich habe den Teil auch gelesen und fand ihn seltsam, aber als ich die Domain des Originals gesehen habe, konnte ich es nachvollziehen lol

jic5760 2025-02-25

Aha … jetzt verstehe ich es … hahahahaha

doolayer 2025-02-25

Dem kann ich nicht wirklich zustimmen. Wenn es um das im Text ebenfalls erwähnte hwpx ginge, vielleicht, aber ...