AI-lesbares Amtsblatt – 128.000 Ausgaben des Amtsblatts der Republik Korea von PDF in einen Markdown-Korpus

(github.com/hosungseo)

16 Punkte von hosungseo2026 2026-04-19 | 2 Kommentare | Auf WhatsApp teilen

Unser Amtsblatt ist bereits öffentlich. Es kann über das öffentliche Datenportal als PDF heruntergeladen werden, und es gibt keine Zensur. Warum parsen Forschende, Journalist:innen, Entwickler:innen, zivilgesellschaftliche Organisationen und Beamt:innen dann jedes Mal dasselbe Amtsblatt erneut für sich selbst?
Ein abgeleiteter Korpus des Amtsblatts der Republik Korea, den Menschen und KI gemeinsam lesen können: rund 128.000 Ausgaben des koreanischen Amtsblatts (2020.01.02 ~ 2026.04.07, 1.474 Datumsgruppen) wurden in Markdown neu indexiert und die OCR mittels eines wörterbuchbasierten Verfahrens schrittweise korrigiert.
Der Autor ist Verwaltungsbeamter im höheren Dienst eines zentralen Ministeriums.
Live Reader: https://hosungseo.github.io/ai-readable-gazette-kr/

Die Grenzen von Offenlegung für Menschen

Die Lücke zwischen „ist veröffentlicht“ und „kann von KI-Agenten genutzt werden“ ist größer als man denkt.
PDFs erlauben keinen Vergleich auf Paragrafenebene, Filtern nach Behörde, Datum oder Vorgang ist schwierig, OCR zerfällt, und Tabellenstrukturen werden beschädigt.
Dadurch werden die Kosten der Vorverarbeitung weiterhin auf die Nutzerseite (Agenten) abgewälzt. Journalist:innen, Forschende und Beamt:innen zerlegen dieselben PDFs jeweils erneut.
Die nächste Stufe von Transparenz ist nicht „mehr veröffentlichen“, sondern „dasselbe maschinenlesbar machen“.

Was ist enthalten?

derived/readable-corrected/YYYY-MM-DD/NNN_<기관>_<제목>.md — 128.403 fertig korrigierte Markdown-Dateien
Im Frontmatter: title / publisher / date / source_raw_md — kann unverändert direkt in Chunking → Embedding → RAG eingespeist werden
docs/data/meta.json, dates/YYYY-MM-DD.json, titles.json — statische JSON-Indizes. Von externen Websites ohne CORS-Beschränkung per fetch abrufbar
Der Live Reader ist reines HTML, das sich ohne Build-Tool öffnen lässt (inklusive Suche, Heatmap, TOC, Dark Mode und Tastenkürzeln)
Abdeckung nach Institutionen: Zentralministerien ~108.800 Ausgaben, Justiz ~7.700, Bildung ~4.100, Kommunalverwaltungen ~3.300 usw., insgesamt rund 1.600 Institutionen

OCR: auf heimischem Open Source aufbauend

Für die OCR-basierte PDF-Textextraktion wird opendataloader, das Open-Source-Tool von Hancom, verwendet.
Die Wahl fiel bewusst auf dieses Tool statt auf andere. Da es um öffentliche Daten wie das Amtsblatt geht, erschien es passend, auch auf heimischem Open Source aufzubauen.
Wenn sich opendataloader selbst weiterentwickelt, werden auch fehlerhafte Zeichen seltener, und das Korrekturwörterbuch wird ganz natürlich schlanker.
Wenn das Tool besser wird, wird auch der Korpus automatisch besser.

Eine zusätzliche Schicht über dem PDF

Die Veröffentlichung als PDF ist im Hinblick auf Fälschungssicherheit eine legitime Wahl. Dass das Original ein PDF ist, stellt an sich kein Problem dar.
Die Lösung ist nicht, „die PDF-Veröffentlichung abzuschaffen“, sondern „das PDF als Original zu belassen und darüber eine zusätzliche AI-readable-Ableitungsschicht zu legen“.
Dieses Repository löscht oder ersetzt den Originaltext nicht. Das Original-PDF bleibt unverändert, darüber wird lediglich ein zweistufiger Aufbau mit einem abgeleiteten Lesekorpus gelegt.

2 Kommentare

meta1001 16 일 전

Das ist großartig. So kann KI in Echtzeit analysieren, wie sich die in den tatsächlichen Policy-Briefings vorangetriebenen Maßnahmen in der staatlichen Politik und in Gesetzen verändern, und Ergebnisse liefern.

limhasic 2026-04-20

Hehe, wofür soll man das benutzen?

AI-lesbares Amtsblatt – 128.000 Ausgaben des Amtsblatts der Republik Korea von PDF in einen Markdown-Korpus

Verwandte Beiträge

2 Kommentare