Marker – Open Source zur Konvertierung von PDFs in Markdown
(github.com/VikParuchuri)- Konvertiert PDF, EPUB und MOBI in Markdown
- Mehr als 10-mal schneller und mit höherer Genauigkeit als Nougat von Facebook Research
- Optimiert für das Format von Büchern und wissenschaftlichen Arbeiten
- Entfernt Header, Footer und andere Artefakte
- Die meisten Formeln werden in LaTeX konvertiert
- Codeblöcke und Tabellen werden formatiert
- Mehrsprachige Unterstützung
6 Kommentare
Ach je …
Für englischsprachige Verlage brechen schwere Zeiten an.
Einige eher technikorientierte Verlage liefern beim Buchkauf mitunter einfach die PDF-Datei mit; ich bin gespannt, wie sie damit umgehen werden.
Muss die PDF dafür OCR-verarbeitet sein?? Ich sollte das sofort ausprobieren.
Soweit ich nur das README gesehen habe, scheint es auch OCR-Aufgaben auszuführen ... Ich könnte das aber auch falsch gelesen haben ...
Ja … für Leute, die kein Englisch können, ist das wohl ein etwas schwieriger Ausdruck.
Text extrahieren, bei Bedarf OCR?
> This works best on digital PDFs that won't require a lot of OCR. It's optimized for speed, and limited OCR is used to fix errors.
Da der Schwerpunkt auf Geschwindigkeit liegt, ist es wahrscheinlich nicht gut für PDFs geeignet, die in großem Umfang OCR benötigen.
Man kann es so verstehen, dass OCR zwar funktioniert, aber nicht garantiert werden kann.
> Only languages similar to English (Spanish, French, German, Russian, etc) are supported. Languages with different character sets (Chinese, Japanese, Korean, etc) are not.
Zusätzlich werden CJK-Sprachen nicht unterstützt.
Vielen Dank!