Paper to HTML - Umwandlung von wissenschaftlichen Artikeln in gut lesbares HTML

xguru · 2021-09-17T09:18:57+09:00

Liest Inhalte aus PDF, LaTeX und PubMed Central XML mithilfe von Machine Learning und wandelt sie in HTML um Ziel ist eine bessere Barrierefreiheit Ein experimenteller Prototyp von Semantic Scholar, der KI-basierten Suchmaschine für Forschungsmaterialien Derzeit werden nur extrahierte Bilder/Inhalte zwischengespeichert und das System wird lediglich genutzt, um Personen, die dasselbe Dokument hochgeladen haben, den Dienst schneller bereitzustellen. Hochgeladene Dateien werden nicht gespeichert Einschränkungen → Tabellen werden als Bilder extrahiert → Mathematische Inhalte sind ungenau oder werden kaum extrahiert → Die Verarbeitung von LaTeX/PubMed kann gegenüber PDF in einigen Funktionen eingeschränkt sein Es ist geplant, künftig Barrierefreiheitsfunktionen zu Semantic Scholar hinzuzufügen

(papertohtml.org)

9 Punkte von xguru 2021-09-17 | 3 Kommentare | Auf WhatsApp teilen

Liest Inhalte aus PDF, LaTeX und PubMed Central XML mithilfe von Machine Learning und wandelt sie in HTML um
Ziel ist eine bessere Barrierefreiheit
Ein experimenteller Prototyp von Semantic Scholar, der KI-basierten Suchmaschine für Forschungsmaterialien
Derzeit werden nur extrahierte Bilder/Inhalte zwischengespeichert und das System wird lediglich genutzt, um Personen, die dasselbe Dokument hochgeladen haben, den Dienst schneller bereitzustellen. Hochgeladene Dateien werden nicht gespeichert
Einschränkungen

→ Tabellen werden als Bilder extrahiert

→ Mathematische Inhalte sind ungenau oder werden kaum extrahiert

→ Die Verarbeitung von LaTeX/PubMed kann gegenüber PDF in einigen Funktionen eingeschränkt sein

Es ist geplant, künftig Barrierefreiheitsfunktionen zu Semantic Scholar hinzuzufügen

3 Kommentare

v08zbv8fvlkjasdflkj 2021-09-23

Wenn man PDFs in andere Formate umwandelt (epub ist toll), sind die oben aufgeführten Tabellen und Formeln das Problem. Wenn die Formeln nicht gut funktionieren, weiß ich nicht, worin genau die Stärke liegen soll.

Der Demo nach zu urteilen scheint es aber brauchbar zu sein.

indigo6 2021-09-18

Praktisch klingt das schon, aber ich kann mir vorstellen, dass es auch Menschen gibt, die nicht möchten, dass ihre eigene Arbeit in ein HTML-Format umgewandelt wird. Es wäre irgendwie gut, wenn Rechteinhaber die Möglichkeit hätten, einer solchen Umwandlung per Opt-out zu widersprechen...

Ich habe vor langer Zeit (wirklich sehr lange her, seufz) einmal eine wissenschaftliche Arbeit in LaTeX geschrieben und dabei ein unglaubliches Hochgefühl empfunden. Der Inhalt war zwar mies, aber das Rendering war so sauber und schön, dass ich mich noch heute an dieses Gefühl erinnere. Beim Anblick von TeX dachte ich damals: Knuth ist ein Gott, ein Gott... Wie auch immer, mir kam plötzlich der Gedanke, dass es wohl Menschen gibt, denen nicht nur der Inhalt ihres Werks wichtig ist, sondern auch die Form des Papers und die Details seiner Darstellung.

xguru 2021-09-17

Ich habe mir die Galerie angesehen, und die Qualität scheint ziemlich brauchbar zu sein.

https://papertohtml.org/gallery

Ich frage mich, ob es praktisch wäre, wenn so etwas in Google Scholar integriert würde.

Paper to HTML - Umwandlung von wissenschaftlichen Artikeln in gut lesbares HTML

Verwandte Beiträge

3 Kommentare