ArXiv bietet wissenschaftliche Arbeiten jetzt auch im HTML-Format an

(blog.arxiv.org)

14 Punkte von GN⁺ 2023-12-22 | 1 Kommentare | Auf WhatsApp teilen

Gerechter Zugang zu wissenschaftlicher Forschung

arXiv arbeitet daran, allen Nutzern, einschließlich Menschen mit Behinderungen, einen gerechten Zugang zu wissenschaftlicher Forschung zu ermöglichen.
Seit dem 18. Dezember 2023 wird für alle in TeX/LaTeX eingereichten Arbeiten eine HTML-Version erzeugt (gilt für Einreichungen nach dem 1. Dezember und nur, wenn die HTML-Konvertierung erfolgreich war).

Einführung des HTML-Formats

HTML ersetzt PDF nicht, sondern ist ein zusätzliches Format, das arXiv-Nutzern angeboten wird.
Einreichende haben bei der Einreichung wie bei PDF die Möglichkeit, eine Vorschau der HTML-Version anzusehen.
Auf der Abstract-Seite einer Arbeit findet sich direkt unter dem PDF-Link ein Link zur HTML-Version.

Verbesserte Zugänglichkeit für Wissenschaftler mit Behinderungen

Wissenschaftler mit Behinderungen stoßen beim Zugang zu Forschung auf Barrieren, weshalb es Wünsche nach Arbeiten im HTML-Format gab.
Arbeiten im HTML-Format lassen sich mit Technologien wie Screenreadern einfacher und präziser lesen und helfen damit Forschern mit Sehbehinderungen, eingeschränktem Sehvermögen oder Dyslexie.

Experimentelle Phase der HTML-Konvertierung

Die HTML-Konvertierung befindet sich derzeit in einer experimentellen Phase, und es wird an einer genaueren Umwandlung gearbeitet.
Nicht alle Arbeiten werden korrekt in HTML konvertiert, aber die Funktion soll Forschern mit Zugänglichkeitsbedarf so schnell wie möglich bereitgestellt werden.
Wenn die HTML-Konvertierung bei einer Einreichung fehlschlägt, wird die Einreichung weder blockiert noch zurückgehalten, aber Autoren werden gebeten, die HTML-Version sorgfältig zu prüfen.

Dank für das HTML-Projekt

Es wird Dank für das experimentelle HTML ausgesprochen, das einen großen Schritt hin zu für alle zugänglicher Wissenschaft darstellt.
Dank gilt auch allen, die am Pilotprojekt für arXivs HTML-Arbeiten mitgewirkt haben, darunter das LaTeX Project und das LaTeXML-Team des NIST.
Nutzer, die mit ar5iv, einem Kooperationsprojekt von arXivLabs, vertraut sind, können diese HTML-Bereitstellung als vollständige „Internalisierung“ dieses einflussreichen Projekts verstehen.
Das langfristige Ziel ist es, den gesamten arXiv-Korpus nachträglich zu ergänzen und für alle Arbeiten HTML-Versionen bereitzustellen; derzeit gilt dies jedoch nur für neue Arbeiten.
Ebenso wird allen arXiv-Nutzern gedankt, die Bug-Reports zum HTML-Arbeiten-Projekt eingereicht haben; das Team analysiert diese derzeit und plant im neuen Jahr erste Verbesserungen.

Meinung von GN⁺

Die Bereitstellung des HTML-Formats durch arXiv ist ein wichtiger Fortschritt für die Zugänglichkeit von Forschung und wird insbesondere Wissenschaftlern mit Behinderungen sehr helfen.
Diese Veränderung wird dazu beitragen, technische Barrieren in der wissenschaftlichen Community zu verringern und die Inklusivität der Forschung zu erhöhen.
Trotz des experimentellen Status zeigt arXivs Entscheidung, diese Funktion zügig bereitzustellen, eine positive Haltung, die die Bedürfnisse von Forschern in den Vordergrund stellt.

1 Kommentare

GN⁺ 2023-12-22

Hacker-News-Kommentare

Im Artikel ist kein HTML-Beispiel verlinkt, aber hier ist ein beliebiger Link: arXiv-HTML-Beispiellink. Cool, dass Dark Mode unterstützt wird. Ein Umschalter ist nicht sichtbar, aber es wird entsprechend dem Systemmodus gerendert. Das dürfte die Zugänglichkeit von arXiv auf Mobilgeräten deutlich verbessern.
- 30 Jahre nachdem HTML erfunden wurde, um Zugänglichkeit und Zusammenarbeit für Forschung und Wissenschaft zu unterstützen, hat das Weiße Haus neue Richtlinien zur Barrierefreiheit veröffentlicht. Damit wurde erstmals eine neue offizielle Richtlinie in HTML statt als PDF veröffentlicht. Link zu den Richtlinien des Weißen Hauses zur Barrierefreiheit
- Wenn man sich über wichtige neue AI/ML-Papers auf arXiv informieren möchte, sollte man sich Emergent Mind ansehen. Die Seite verfolgt Erwähnungen von arXiv-Papers in sozialen Medien (Hacker News, Reddit, X, YouTube, GitHub usw.) und ordnet sie anhand des Aktivitätsvolumens in sozialen Medien und des Veröffentlichungszeitpunkts des Papers ein. Für jedes Paper erstellt sie mit GPT-4 eine Zusammenfassung und liefert Links zu Diskussionen in sozialen Medien, Paper-Referenzen und verwandten Papers. Die Seite ist noch neu und wurde noch nicht viel geteilt. Feedback oder Wünsche zur Verbesserung sind willkommen.
- Falls es Papers gibt, bei denen in der Seitenleiste kein HTML-Link erscheint, würde mich interessieren, wie man herausfinden und beheben kann, warum sie nicht als HTML gerendert werden.
- Es wäre gut, wenn Einreichende die Möglichkeit bekämen, neben der PDF-Version auch ihre eigene HTML-Version hochzuladen, statt sich nur auf den automatischen Konvertierungsprozess zu verlassen.
  - Wenn sie kontaktiert werden, weil es Probleme mit der HTML-Version ihres Papers gibt, könnten Autorinnen und Autoren frustriert sein, weil sie es nicht korrigieren können, außer zu hoffen, dass Änderungen am PDF die HTML-Erzeugung beeinflussen. Formatierungsprobleme direkt im PDF zu beheben ist einfacher.
  - Es wäre auch interessant, Experimente mit alternativen Formaten für Papers zuzulassen. Zum Beispiel ein Paper mit einer Sandbox, in der man die diskutierte Programmiersprache ausprobieren kann, oder bei einem Paper über mehrdimensionale Analysis eine interaktive 3D-Visualisierung einer Funktion.
- Immer auf das Web zu setzen, ist eine sehr gute Entscheidung.
- Das für diesen Dienst verwendete Tool ist arXiv-readability. Ich verlinke es, um ein paar Klicks zu sparen.
- PDF ist beim Rendern von Textdokumenten HTML weit überlegen. Und der Unterschied ist erheblich. Das war schon vor 10, sogar vor 15–20 Jahren möglich. Dass das nicht passiert ist, liegt nicht nur an Trägheit. LaTeX und PDF sind beim Text-Rendering deutlich besser, und ein statisches Format ist für Nachfolgende nützlich, weil es einen über die Zeit fixierten Zustand festhält. Anders als die von Natur aus fließende Beschaffenheit von HTML. Und noch einmal: Das Rendering ist nicht vergleichbar, und das sendet bewusst oder unbewusst ein Qualitätssignal.
- Ich hoffe, arXiv stellt die Bereitstellung von Papers im PDF-Format nicht ein. Ich lese auch am Computer lieber PDFs.
- Wenn ich auf arXiv große PDFs (über 100 MB, häufig bei ML-Papers mit Fokus auf hochauflösende Bildgenerierung) öffne, wird außer einem Ladebalken nichts gerendert, und es gibt eine merkliche Ladezeit von mehr als 10 Sekunden. Ich frage mich, was diese Verzögerung verursacht. Ist es ein Netzwerkproblem, oder ist Chrome beim Rendern großer PDFs wirklich so langsam? Muss ein PDF vollständig heruntergeladen werden, bevor das Rendern beginnt? Wie auch immer, diese Verzögerung ist meine einzige Beschwerde über arXiv, und ein schrittweise gerendertes HTML-Dokument, bei dem der Text sofort lädt, wäre eine große Verbesserung.

ArXiv bietet wissenschaftliche Arbeiten jetzt auch im HTML-Format an

Gerechter Zugang zu wissenschaftlicher Forschung

Einführung des HTML-Formats

Verbesserte Zugänglichkeit für Wissenschaftler mit Behinderungen

Experimentelle Phase der HTML-Konvertierung

Dank für das HTML-Projekt

Meinung von GN⁺

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare