Einleitung
- In der modernen Gesellschaft treiben KI-Technologien Innovationen in verschiedensten Bereichen voran, und die Bedeutung von Daten nimmt zu
- Das HWP-Format besitzt Eigenschaften, die für das KI-Training vorteilhaft sind
- Es besteht nicht nur aus einfachem Text, sondern auch aus verschiedenen Elementen wie Bildern, Tabellen und Diagrammen und liefert dadurch umfangreiche Informationen
- Es ist in verschiedene Formate wie Titel, Absätze und Tabellen strukturiert, was KI-Modellen beim Verstehen und Analysieren von Dokumenten helfen kann
- In diesem Beitrag werfen wir einen Blick auf die Struktur des HWP-Formats und darauf, wie Dokumentinformationen gespeichert werden
Was ist das HWP-Format?
- Das HWP-Format ist ein von Hancom entwickeltes Dokumentformat und wurde 1997 erstmals veröffentlicht.
- Dieses Format ist als CFB (Compound File Binary File Format) aufgebaut und speichert mehrere Datenströme in einer einzelnen Datei.
- Eine HWP-Datei enthält Informationen wie File Header, DocInfo, DocOptions, BodyText, Script, HwpSummaryInformation, PrvImage und PrvText.
1. File Header
- Im Datei-Header einer HWP-Datei sind Informationen zur Erkennung eines Han/Geul-Dokuments enthalten.
- Er enthält Signaturinformationen, die Dokumentversion und Dateierkennungsinformationen, anhand derer sich der Dokumenttyp einer HWP-Datei bestimmen lässt.
2. DocInfo
- Dies ist der Stream, der gemeinsame Informationen wie die im Dokument verwendeten Schriftarten, Zeichenattribute und Absatzattribute enthält.
- DocInfo wird komprimiert mit zlib gespeichert; nach dem Entpacken lassen sich die Originaldaten einsehen.
- Verschiedene Arten von Informationen werden im Record-Format gespeichert.
3. DocOptions
- Informationen zu verknüpften Dokumenten, für die Verteilung bestimmten Dokumenten und digitalen Zertifikaten werden als Stream gespeichert.
4. BodyText (Section)
- Hier wird der eigentliche Inhalt gespeichert, der dem Haupttext des Dokuments entspricht.
- Je nach Anzahl der Bereiche im Haupttext besteht dieser aus mehreren Section-Streams.
5. Script
- Dies ist der Storage, in dem Skriptinformationen gespeichert sind, die für die Skript-Makrofunktion definiert wurden.
6. HwpSummaryInformation
- Hier werden die zusammenfassenden Dokumentinformationen gespeichert; die Struktur entspricht Microsofts PropertySet-Struktur.
7. PrvImage
- Das Vorschaubild des Dokuments; gespeichert wird das Bild der ersten Seite.
8. PrvText
- Der Vorschautext des Dokuments; der Inhalt der ersten Seite wird als Unicode-Zeichenfolge gespeichert.
Fazit
- Das HWP-Format wird in einem Binärformat gespeichert, ist für Menschen schwer direkt lesbar und so konzipiert, dass es nur mit bestimmter Software geöffnet und bearbeitet werden kann.
- Das HWPX-Format hingegen basiert auf Open XML, ist strukturiert aufgebaut und so konzipiert, dass Menschen den Inhalt leicht verstehen können.
- Im nächsten Beitrag sehen wir uns an, auf welche Weise das HWPX-Format Informationen im Vergleich zum HWP-Format anders speichert.
13 Kommentare
Ich bin hahnlee, der
hwp.js(https://github.com/hahnlee/hwp.js) entwickelt hat :)Ich mochte HWP während der Entwicklung dieses Projekts nicht besonders, und ehrlich gesagt auch jetzt nicht. Vor allem nicht, was den Grad der Offenheit angeht.
Dem Punkt „Das HWP-Format hat Elemente, die für AI-Training vorteilhaft sind“ stimme ich allerdings bis zu einem gewissen Grad zu.
Wenn ich von meinen Erfahrungen beim Aufbau von RAG ausgehe: In Korea werden besonders häufig Tabellen verwendet. Im Fall von PDF handelt es sich um ein Format, das für den Druck gedacht ist, daher gibt es in PDFs keine „Tabelle“ als solche. Es gibt nur Linien und Text.
Deshalb war es schwierig, aus komplexen Tabelleninformationen auf Basis von PDF-Dokumenten Daten zu extrahieren. Das galt besonders dann, wenn sich Tabellen über mehrere Seiten erstreckten.
Grob gesagt fühlte es sich so an: Wenn HWP eine Art Rich-Text-Dokument ist, dann ist PDF eher wie ein txt-Dokument. Das bezieht sich natürlich nur auf „Tabellen“.
Ob das nun aber ein besonderer Vorteil des HWP-Formats ist? Ich denke nicht. Für einfache Dinge reicht Markdown völlig aus, und wenn es etwas komplexer wird, halte ich es für besser, es in HTML zu definieren.
Und entscheidend ist außerdem, dass docx und odt dieselben Vorteile haben.
Nachdem Netscape von IE komplett plattgemacht worden war, haben sie den Source Code offengelegt und dergleichen – reichlich spät und mit viel Aktionismus im Nachhinein.
Ich mag HWP nicht und kann über die Produkte des heutigen Unternehmens Hancom nichts Gutes sagen, aber früher war das Produkt selbst meiner Meinung nach eine deutlich bessere Software als Word.
Ich denke auch, dass es bis zum Erscheinen von Hangul 97 eine hervorragende Software war.
Was soll das?
Eine unglückliche Existenz, die nie zum Weltstandard wurde
Ich habe zwar Textverarbeitung mit
아래아 한글gelernt, aber inzwischen ist es wohl eher ein Relikt, das zum Wohl der Weiterentwicklung Südkoreas verschwinden sollte.Im Vergleich zu MS Word oder LibreOffice war Hangeul viel praktischer, um Dokumente in genau der gewünschten Form zu erstellen. Für die Verteilung kann man sie ja als PDF bereitstellen.
Natürlich empfinde ich das wohl auch deshalb so, weil ich an Hangeul gewöhnt bin.
"Das HWP-Format verfügt über Eigenschaften, die für das KI-Training vorteilhaft sind"
Ist das wirklich so..?
Vielleicht sollte sich das Training der KI einfach auf PDFs konzentrieren, und bei Hangul wäre es nicht besser, einfach einen guten PDF-Konverter zu bauen? 😄
Ich habe den Teil auch gelesen und fand ihn seltsam, aber als ich die Domain des Originals gesehen habe, konnte ich es nachvollziehen lol
Aha … jetzt verstehe ich es … hahahahaha
Dem kann ich nicht wirklich zustimmen. Wenn es um das im Text ebenfalls erwähnte
hwpxginge, vielleicht, aber ...