16 Punkte von hosungseo2026 2026-04-19 | 2 Kommentare | Auf WhatsApp teilen

Unser Amtsblatt ist bereits öffentlich. Es kann über das öffentliche Datenportal als PDF heruntergeladen werden, und es gibt keine Zensur. Warum parsen Forschende, Journalist:innen, Entwickler:innen, zivilgesellschaftliche Organisationen und Beamt:innen dann jedes Mal dasselbe Amtsblatt erneut für sich selbst?
Ein abgeleiteter Korpus des Amtsblatts der Republik Korea, den Menschen und KI gemeinsam lesen können: rund 128.000 Ausgaben des koreanischen Amtsblatts (2020.01.02 ~ 2026.04.07, 1.474 Datumsgruppen) wurden in Markdown neu indexiert und die OCR mittels eines wörterbuchbasierten Verfahrens schrittweise korrigiert.
Der Autor ist Verwaltungsbeamter im höheren Dienst eines zentralen Ministeriums.
Live Reader: https://hosungseo.github.io/ai-readable-gazette-kr/


Die Grenzen von Offenlegung für Menschen

  • Die Lücke zwischen „ist veröffentlicht“ und „kann von KI-Agenten genutzt werden“ ist größer als man denkt.
  • PDFs erlauben keinen Vergleich auf Paragrafenebene, Filtern nach Behörde, Datum oder Vorgang ist schwierig, OCR zerfällt, und Tabellenstrukturen werden beschädigt.
  • Dadurch werden die Kosten der Vorverarbeitung weiterhin auf die Nutzerseite (Agenten) abgewälzt. Journalist:innen, Forschende und Beamt:innen zerlegen dieselben PDFs jeweils erneut.
  • Die nächste Stufe von Transparenz ist nicht „mehr veröffentlichen“, sondern „dasselbe maschinenlesbar machen“.

Was ist enthalten?

  • derived/readable-corrected/YYYY-MM-DD/NNN_<기관>_<제목>.md — 128.403 fertig korrigierte Markdown-Dateien
  • Im Frontmatter: title / publisher / date / source_raw_md — kann unverändert direkt in Chunking → Embedding → RAG eingespeist werden
  • docs/data/meta.json, dates/YYYY-MM-DD.json, titles.json — statische JSON-Indizes. Von externen Websites ohne CORS-Beschränkung per fetch abrufbar
  • Der Live Reader ist reines HTML, das sich ohne Build-Tool öffnen lässt (inklusive Suche, Heatmap, TOC, Dark Mode und Tastenkürzeln)
  • Abdeckung nach Institutionen: Zentralministerien ~108.800 Ausgaben, Justiz ~7.700, Bildung ~4.100, Kommunalverwaltungen ~3.300 usw., insgesamt rund 1.600 Institutionen

OCR: auf heimischem Open Source aufbauend

  • Für die OCR-basierte PDF-Textextraktion wird opendataloader, das Open-Source-Tool von Hancom, verwendet.
  • Die Wahl fiel bewusst auf dieses Tool statt auf andere. Da es um öffentliche Daten wie das Amtsblatt geht, erschien es passend, auch auf heimischem Open Source aufzubauen.
  • Wenn sich opendataloader selbst weiterentwickelt, werden auch fehlerhafte Zeichen seltener, und das Korrekturwörterbuch wird ganz natürlich schlanker.
  • Wenn das Tool besser wird, wird auch der Korpus automatisch besser.

Eine zusätzliche Schicht über dem PDF

  • Die Veröffentlichung als PDF ist im Hinblick auf Fälschungssicherheit eine legitime Wahl. Dass das Original ein PDF ist, stellt an sich kein Problem dar.
  • Die Lösung ist nicht, „die PDF-Veröffentlichung abzuschaffen“, sondern „das PDF als Original zu belassen und darüber eine zusätzliche AI-readable-Ableitungsschicht zu legen“.
  • Dieses Repository löscht oder ersetzt den Originaltext nicht. Das Original-PDF bleibt unverändert, darüber wird lediglich ein zweistufiger Aufbau mit einem abgeleiteten Lesekorpus gelegt.

2 Kommentare

 
meta1001 16 일 전

Das ist großartig. So kann KI in Echtzeit analysieren, wie sich die in den tatsächlichen Policy-Briefings vorangetriebenen Maßnahmen in der staatlichen Politik und in Gesetzen verändern, und Ergebnisse liefern.

 
limhasic 2026-04-20

Hehe, wofür soll man das benutzen?