AI-lesbares Amtsblatt – 128.000 Ausgaben des Amtsblatts der Republik Korea von PDF in einen Markdown-Korpus
(github.com/hosungseo)Unser Amtsblatt ist bereits öffentlich. Es kann über das öffentliche Datenportal als PDF heruntergeladen werden, und es gibt keine Zensur. Warum parsen Forschende, Journalist:innen, Entwickler:innen, zivilgesellschaftliche Organisationen und Beamt:innen dann jedes Mal dasselbe Amtsblatt erneut für sich selbst?
Ein abgeleiteter Korpus des Amtsblatts der Republik Korea, den Menschen und KI gemeinsam lesen können: rund 128.000 Ausgaben des koreanischen Amtsblatts (2020.01.02 ~ 2026.04.07, 1.474 Datumsgruppen) wurden in Markdown neu indexiert und die OCR mittels eines wörterbuchbasierten Verfahrens schrittweise korrigiert.
Der Autor ist Verwaltungsbeamter im höheren Dienst eines zentralen Ministeriums.
Live Reader: https://hosungseo.github.io/ai-readable-gazette-kr/
Die Grenzen von Offenlegung für Menschen
- Die Lücke zwischen „ist veröffentlicht“ und „kann von KI-Agenten genutzt werden“ ist größer als man denkt.
- PDFs erlauben keinen Vergleich auf Paragrafenebene, Filtern nach Behörde, Datum oder Vorgang ist schwierig, OCR zerfällt, und Tabellenstrukturen werden beschädigt.
- Dadurch werden die Kosten der Vorverarbeitung weiterhin auf die Nutzerseite (Agenten) abgewälzt. Journalist:innen, Forschende und Beamt:innen zerlegen dieselben PDFs jeweils erneut.
- Die nächste Stufe von Transparenz ist nicht „mehr veröffentlichen“, sondern „dasselbe maschinenlesbar machen“.
Was ist enthalten?
derived/readable-corrected/YYYY-MM-DD/NNN_<기관>_<제목>.md— 128.403 fertig korrigierte Markdown-Dateien- Im Frontmatter:
title / publisher / date / source_raw_md— kann unverändert direkt in Chunking → Embedding → RAG eingespeist werden docs/data/meta.json,dates/YYYY-MM-DD.json,titles.json— statische JSON-Indizes. Von externen Websites ohne CORS-Beschränkung perfetchabrufbar- Der Live Reader ist reines HTML, das sich ohne Build-Tool öffnen lässt (inklusive Suche, Heatmap, TOC, Dark Mode und Tastenkürzeln)
- Abdeckung nach Institutionen: Zentralministerien ~108.800 Ausgaben, Justiz ~7.700, Bildung ~4.100, Kommunalverwaltungen ~3.300 usw., insgesamt rund 1.600 Institutionen
OCR: auf heimischem Open Source aufbauend
- Für die OCR-basierte PDF-Textextraktion wird
opendataloader, das Open-Source-Tool von Hancom, verwendet. - Die Wahl fiel bewusst auf dieses Tool statt auf andere. Da es um öffentliche Daten wie das Amtsblatt geht, erschien es passend, auch auf heimischem Open Source aufzubauen.
- Wenn sich
opendataloaderselbst weiterentwickelt, werden auch fehlerhafte Zeichen seltener, und das Korrekturwörterbuch wird ganz natürlich schlanker. - Wenn das Tool besser wird, wird auch der Korpus automatisch besser.
Eine zusätzliche Schicht über dem PDF
- Die Veröffentlichung als PDF ist im Hinblick auf Fälschungssicherheit eine legitime Wahl. Dass das Original ein PDF ist, stellt an sich kein Problem dar.
- Die Lösung ist nicht, „die PDF-Veröffentlichung abzuschaffen“, sondern „das PDF als Original zu belassen und darüber eine zusätzliche AI-readable-Ableitungsschicht zu legen“.
- Dieses Repository löscht oder ersetzt den Originaltext nicht. Das Original-PDF bleibt unverändert, darüber wird lediglich ein zweistufiger Aufbau mit einem abgeleiteten Lesekorpus gelegt.
2 Kommentare
Das ist großartig. So kann KI in Echtzeit analysieren, wie sich die in den tatsächlichen Policy-Briefings vorangetriebenen Maßnahmen in der staatlichen Politik und in Gesetzen verändern, und Ergebnisse liefern.
Hehe, wofür soll man das benutzen?