Marker – Open Source zur Konvertierung von PDFs in Markdown

xguru · 2023-12-04T10:04:01+09:00

Konvertiert PDF, EPUB und MOBI in Markdown Mehr als 10-mal schneller und mit höherer Genauigkeit als Nougat von Facebook Research Optimiert für das Format von Büchern und wissenschaftlichen Arbeiten Entfernt Header, Footer und andere Artefakte Die meisten Formeln werden in LaTeX konvertiert Codeblöcke und Tabellen werden formatiert Mehrsprachige Unterstützung

(github.com/VikParuchuri)

37 Punkte von xguru 2023-12-04 | 6 Kommentare | Auf WhatsApp teilen

Konvertiert PDF, EPUB und MOBI in Markdown
Mehr als 10-mal schneller und mit höherer Genauigkeit als Nougat von Facebook Research
Optimiert für das Format von Büchern und wissenschaftlichen Arbeiten
Entfernt Header, Footer und andere Artefakte
Die meisten Formeln werden in LaTeX konvertiert
Codeblöcke und Tabellen werden formatiert
Mehrsprachige Unterstützung

6 Kommentare

bus710 2023-12-05

Ach je …
Für englischsprachige Verlage brechen schwere Zeiten an.
Einige eher technikorientierte Verlage liefern beim Buchkauf mitunter einfach die PDF-Datei mit; ich bin gespannt, wie sie damit umgehen werden.

hero512 2023-12-04

Muss die PDF dafür OCR-verarbeitet sein?? Ich sollte das sofort ausprobieren.

limc132 2023-12-04

Soweit ich nur das README gesehen habe, scheint es auch OCR-Aufgaben auszuführen ... Ich könnte das aber auch falsch gelesen haben ...

hero512 2023-12-04

Ja … für Leute, die kein Englisch können, ist das wohl ein etwas schwieriger Ausdruck.
Text extrahieren, bei Bedarf OCR?

say8425 2023-12-04

This works best on digital PDFs that won't require a lot of OCR. It's optimized for speed, and limited OCR is used to fix errors.

Da der Schwerpunkt auf Geschwindigkeit liegt, ist es wahrscheinlich nicht gut für PDFs geeignet, die in großem Umfang OCR benötigen.
Man kann es so verstehen, dass OCR zwar funktioniert, aber nicht garantiert werden kann.

Only languages similar to English (Spanish, French, German, Russian, etc) are supported. Languages with different character sets (Chinese, Japanese, Korean, etc) are not.

Zusätzlich werden CJK-Sprachen nicht unterstützt.

hero512 2023-12-04

Vielen Dank!

Marker – Open Source zur Konvertierung von PDFs in Markdown

Verwandte Beiträge

6 Kommentare