2 Punkte von GN⁺ 2025-12-08 | 1 Kommentare | Auf WhatsApp teilen
  • arXiv hat begonnen, die Zugänglichkeit der Forschung zu verbessern, indem zusätzlich zum PDF Paper im HTML-Format angeboten werden
  • Bei über zwei Millionen Arbeiten sind für einige Paper auf Grundlage automatisierter Konvertierung keine HTML-Versionen verfügbar; die Konvertierungsqualität soll kontinuierlich verbessert werden
  • HTML hat gegenüber der Zugänglichkeit Vorteile durch bessere Kompatibilität mit Hilfstechnologien wie Screen Readern, Sprachsynthese und mobilen Geräten
  • Die Community kann sich direkt einbringen, indem sie Fehler meldet und die LaTeX-Konvertierung verbessert
  • Dieser Ansatz zeigt arXivs langfristige Richtung für mehr Inklusion und Zugänglichkeit in der wissenschaftlichen Forschung

Überblick zur Bereitstellung von HTML-Papers

  • arXiv führt neben dem bisherigen PDF ein HTML-Paper-Format ein, um die Forschungszugänglichkeit zu erhöhen
    • Laut Community-Feedback ist die Bereitstellung von HTML die Maßnahme, die kurzfristig den größten Einfluss haben kann
  • Die HTML-Version wird unterhalb des PDF-Download-Links auf der Abstract-Seite angezeigt
    • Autoren können während des Einreichens die HTML-Vorschau ihres Papers überprüfen
  • arXiv ergänzt seine über zwei Millionen Paper schrittweise mit HTML, wobei es für einige Paper aufgrund von Konvertierungsfehlern keine HTML-Version gibt
  • Der HTML-Beta-Launch ist der Anfang, und Verbesserungen der LaTeX-Konvertierung sowie fortlaufendes Feedback-Sammeln laufen weiter

Warum sie als „experimentell“ bezeichnet wurde

  • Mehr als 90 % der arXiv-Einreichungen sind im TeX-Format (vor allem LaTeX), was es technisch schwierig macht, eine präzise Umwandlung nach HTML zu erreichen
    • LaTeX ist sehr flexibel, und die Art der Nutzung ist zwischen den Autor:innen unterschiedlich
    • HTML ist sehr gut kompatibel mit Screen Readern, Sprachumwandlung, Bildschirmlupe und mobilen Geräten
  • Die Konvertierung muss automatisiert und schnell bleiben, daher ist perfekte Darstellung nicht immer möglich
  • Die Entscheidung, HTML als „experimentell“ zu veröffentlichen, hat zwei Gründe
    1. Es werden jetzt zugängliche Paper benötigt — Forschende mit Zugänglichkeitsanforderungen baten darum, den Start nicht aufzuschieben
    2. Es wird Hilfe der Community benötigt — um Konvertierungsfehler zu melden und Probleme bestimmter LaTeX-Pakete zu identifizieren

Mögliche Fehler in HTML-Papers

  • HTML-Paper sind noch in Bearbeitung, und es kann zu Konvertierungs- oder Darstellungsfehlern kommen
  • arXiv teilt die Ursachen für Fehler mit und erklärt, wie Autor:innen diese minimieren können
  • Details sind auf einer separaten Seite einsehbar

Mitwirken der Community

  • 1) HTML-Papers lesen und Probleme melden

    • Klicken Sie auf den HTML-Link auf der Abstract-Seite des Papers, an dem Sie interessiert sind
    • Probleme können über die Open Issue-Schaltfläche, durch Textauswahl oder mit dem Tastenkürzel Ctrl+? gemeldet werden
    • Screenreader-Nutzer:innen können mit Alt+y den Button für den Zugänglichkeitsbericht pro Absatz umschalten
    • Bitte melden Sie keine Fehler nur deshalb, weil die HTML-Version nicht wie das PDF aussieht
    • Bei HTML steht die Funktion vor der Form; Unterschiede bei Zeilenumbrüchen und Abständen sind designbedingt
    • HTML ist in Bezug auf Kompatibilität mit Hilfstechnologien und Geräteadaption PDFs überlegen
  • 2) Unterstützung bei der Verbesserung der LaTeX-Konvertierung

    • Autoren können die Konvertierungsqualität verbessern, indem sie arXivs Leitfaden zu Best Practices für LaTeX-Markup befolgen
    • Entwickler können über die Issue-Liste des LaTeXML-Projekts zur Verbesserung der Konvertierung beitragen
    • Fachverbände und Verlage können mit der Überprüfung von .cls-Dateien, die nicht unterstützte Pakete verwenden, zur Verbesserung der Zugänglichkeit beitragen

Dank an Mitwirkende

  • Die Ratschläge und Expertise von Forscher:innen mit Behinderungen spielten über das gesamte Projekt eine große Rolle
  • Die Umsetzung von HTML-Papers war möglich durch die Zusammenarbeit mit dem LaTeX Project und dem LaTeXML-Team der NIST
  • Das tiefe Vertrauen gilt der Wissen, der Technik und dem Engagement für Zugänglichkeit beider Teams

1 Kommentare

 
GN⁺ 2025-12-08
Hacker-News-Kommentar
  • Als Entwickler von arXiv HTML Papers ein kurzes Update:
    Mir ist bewusst, dass es derzeit viele Probleme bei Qualität und Abdeckung des Paper-Renderings gibt. Wenn ihr solche Probleme findet, meldet sie bitte auf der GitHub-Issue-Seite
    Der größte Engpass ist der Mangel an Entwicklungszeit, und der Schlüssel zu Verbesserungen auf der LaTeX-Seite bleibt weiterhin LaTeXML

  • Ich lese arXiv-Paper viel lieber im HTML-Format als als PDF
    Man kann Browser-Erweiterungen direkt nutzen und so Übersetzungen, Notizen, das Senden an LLMs und viele andere Aufgaben leicht erledigen
    Derzeit gibt es bei arXiv den Standard-HTML-Dienst (https://arxiv.org/html/xxxx.xxxxx) und einen alternativen Dienst (https://ar5iv.labs.arxiv.org/html/xxxx.xxxxx)
    Der Standard-Dienst hat jedoch gravierende Abdeckungsprobleme; zum Beispiel funktioniert dieses Paper nicht. Ein Wechsel zum alternativen Dienst hilft manchmal, aber es gibt auch Fälle, in denen beide Dienste scheitern (Beispiel)

  • Hätte sich das Unicode-Konsortium stärker auf die Unterstützung mathematischer Symbole statt auf Emoji konzentriert, hätten wir uns vielleicht von der (LA)TeX/PDF-zentrierten Struktur lösen können
    OpenType und TrueType unterstützen bereits komplexes Rendering, und auch Font-Fallback ist möglich
    Das Problem waren nicht technische Beschränkungen, sondern eine politische Entscheidung, dass dies nicht in die Symbol-Ebene aufgenommen werde
    Interessanterweise erzwingt Gemini 3 Pro unabhängig von jeder Einstellung die Ausgabe von LaTeX-Formeln. Meine Versuchsergebnisse habe ich hier geteilt

    • Selbst wenn Hoch- und Tiefstellung gut verarbeitet werden, sind grundlegende mathematische Ausdrücke wie Brüche oder variable Klammern nicht möglich
      Denn Unicode ist seinem Wesen nach ein Zeichensystem und kein Layout-System
    • Mathematische Formeln sind viel komplexer als Emoji. Ich denke, ein Vergleich ist an sich schwierig
    • Es ist überraschend, dass nur Gemini 3 dieses Problem zu haben scheint. Die meisten LLMs dürften ohnehin LaTeX-zentriert sein, daher wirkt das eher wie ein natürliches Ergebnis als Standard
    • Tatsächlich ist „wegen Mathematik braucht man LaTeX“ nur noch eine alte Ausrede
      HTML-basierte Paper sind völlig möglich, aber Forschende halten weiterhin an traditionellen zweispaltigen Layouts und Serifenschriften fest
      Das Problem ist eine Kultur, in der es wichtiger ist, „wie ein echtes Paper auszusehen“, als mobile Zugänglichkeit oder Lesbarkeit
    • Ich schlage einen zweistufigen Ansatz vor.
      In Schritt 1 wird die Frage gestellt, und in Schritt 2 wandelt ein kleines Modell die LaTeX-Schreibweise in Unicode-Formeln um
  • HTML-Paper wurden bereits seit einigen Jahren angeboten
    Tatsächlich wurde dies 2023 eingeführt, wie im offiziellen Blog bestätigt wird

    • Warum ist es „experimentelles“ HTML?
      Weil 90 % der arXiv-Paper LaTeX-basiert sind und die Umwandlung daher sehr schwierig ist.
      Die zentrale Aufgabe ist, bei schneller und automatisierter Konvertierung zugleich die Zugänglichkeit zu verbessern
    • Verwandte Informationen stehen auf der GitHub-Dokumentationsseite. Dort wird erwähnt, dass ein 2023-Tag nötig ist
  • Als Autor, der oft komplexe TeX-Strukturen verwendet, hat sich mein Arbeitsaufwand deutlich erhöht, seit die HTML-Konvertierung eingeführt wurde
    Die Konvertierung ist auch langsam, und es gibt keine Möglichkeit, sie lokal zu simulieren
    Trotzdem halte ich es für einen guten Versuch, die Zugänglichkeit zu verbessern

  • Ich fände es gut, wenn Paper auch im epub-Format angeboten würden. Ich weiß nicht, ob es technische Schwierigkeiten gibt oder ob einfach die Nachfrage fehlt

    • epub ist de facto HTML-basiert
      Ich habe jedoch noch keinen Reader gesehen, der so angenehm oder schön darstellt wie ein PDF. Auch die Kommentarfunktionen sind plattformübergreifend nur schlecht kompatibel
    • epub ist letztlich ein gut aufbereitetes Ergebnis aus HTML/CSS.
      Für Forschende wäre es ineffizient, zusätzlich diese Qualitätssicherung zu übernehmen; wenn man es braucht, kann man einfach selbst einen HTML→epub-Konverter verwenden
    • Es gibt auch die Frage: „Warum braucht man überhaupt epub?“ Schließlich ist es ohnehin HTML
  • Das Problem der Zugänglichkeit von Forschung ist nicht neu, aber jetzt ist der dringendste Zeitpunkt
    Wenn arXiv neben PDF auch HTML-Paper anbietet, könnte das die schnellste und größte Veränderung bewirken

    • Ich war dankbar, mein Preprint in HTML zu sehen. Ich würde auch gern wissen, wie die Community beitragen kann
  • Meine größte Beschwerde ist, dass die Einbettung von Videos in Papers so eingeschränkt ist
    Man kann sie nur als ergänzendes Material anhängen oder über externe Links bereitstellen.
    Ich wünschte, man könnte GIFs oder Videos direkt in den Haupttext des Papers einbetten

  • Als ich die Erklärung sah, dass „90 % LaTeX-basiert sind und die Umwandlung schwierig ist“, dachte ich, dass das wirklich eine anspruchsvolle Aufgabe ist. Ein guter Versuch

  • Als ich um 1998 für die Gestaltung der Schülerzeitung zuständig war, schlug ich vor, von Corel Draw auf HTML umzusteigen
    Letztlich haben wir damals die Einführung von HTML aufgegeben – aus denselben Gründen wie jetzt in diesen Kommentaren