Pandoc-basierter Konverter für Hangeul Word Processor – Vorstellung eines Open-Source-Tools, das `md`, `html` und `docx` in `hwpx` umwandelt.
(github.com/msjang)Ich arbeite seit 9 Jahren an einem staatlichen Forschungsinstitut und habe dieses Tool entwickelt, um die Unbequemlichkeiten bei der Arbeit mit HWP-Dokumenten zu lösen.
Entwicklungshintergrund
- 2018: Als Python-Anfänger habe ich einen auf regulären Ausdrücken basierenden HML/HWPML-Konverter versucht – https://github.com/msjang/md2hml
- Januar 2025: Entwicklung von
hwpfy- Zusammenführung der wöchentlichen Arbeitsberichte von rund 20 Personen auf Basis eines Wikis mit Echtzeit-Kollaboration
- Wiki → Export nach DOCX → Umwandlung in ein DOCX mit Verwaltungsformular (
hwpfy) → in der Hangeul-App öffnen und als HWPX speichern → als HWPX mit der übergeordneten internen Abteilung teilen
- Dezember 2025:
pypandoc-hwpx- Ich hatte das Gefühl, inzwischen genug Erfahrung gesammelt zu haben, und habe mir daher bewusst Zeit genommen, um es ernsthaft zu entwickeln.
Entwicklungsmethode
- Ich habe ein DOCX im gewünschten Format erstellt und als HWPX gespeichert.
- Ich habe das erzeugte DOCX und HWPX entpackt, die XML-Dateien untersucht, unnötige Attribute entfernt und alles bereinigt. Anschließend habe ich geprüft, ob sich die Dateien sowohl in Word als auch in der Hangeul-App korrekt öffnen lassen.
- Ich habe ein Dokument erstellt, das die Formate
md,html,docxundhwpxvergleicht. – https://github.com/msjang/pypandoc-hwpx/… - Ursprünglich wollte ich das oben genannte
format_comparison.mdverwenden, um ein LLM den Code schreiben zu lassen, aber dann wurde mir klar, dass ich mit der vorhandenen HWPX bereits so etwas wie einen Lösungsschlüssel hatte. - Ich habe es mit wiederholtem Feedback in Antigravity (Gemini Pro 3) erstellt. Da das gewünschte Format zunächst nicht korrekt herauskam, habe ich die XML-Dateien bis ins Detail untersucht und gezieltes Feedback gegeben. Das Vergleichsdokument der Formate habe ich nicht direkt erwähnt, aber dass ich seinen Inhalt verstanden hatte, war bei der Überprüfung sehr hilfreich.
Was als Nächstes ansteht
Ich möchte Python aus Pypandoc herauslösen, in Haskell implementieren und einen HWPX-Writer zu Pandoc beitragen.
Noch keine Kommentare.