5 Punkte von GN⁺ 2024-10-22 | 1 Kommentare | Auf WhatsApp teilen
  • Ein Tool zum Konvertieren von Websites in ePub
  • Extrahiert eine Liste von HTML-Seiten aus einer Website und kompiliert sie zu einem ePub-Buch, das in einen gewünschten eReader importiert werden kann
  • Fortgeschrittene Nutzer, die JavaScript schreiben können, können zusätzliche Parser-Definitionen hinzufügen, um das Parsen einer Website individuell anzupassen

Unterstützte Websites

  • Novel Update
  • Wuxia World
  • die meisten Websites aus awesome-read-the-docs
  • benutzerdefinierte Websites, die UL/OL-Elemente als Inhaltsverzeichnis verwenden, reguläre Ausdrücke im Link-Text nutzen oder Query-Selektoren verwenden
  • benutzerdefinierte Web-Apps mit vordefinierten Titel-(Header-)Elementen und einem klickbaren Weiter-Button

GN⁺-Zusammenfassung

  • Epublifier ist ein Tool, das Inhalte von Websites in das ePub-Format umwandelt, damit sie sich leicht auf einem eReader lesen lassen
  • Das Tool unterstützt insbesondere Websites wie Novel Update und Wuxia World; fortgeschrittene Nutzer können das Parsen per JavaScript individuell anpassen
  • Das Tool ist nützlich für Nutzer, die Webinhalte offline lesen möchten; ein ähnliches Tool mit vergleichbarer Funktion ist Calibre

1 Kommentare

 
GN⁺ 2024-10-22
Hacker-News-Kommentare
  • Calibre unterstützt viele Websites
  • Diese Erweiterung versucht zu erklären, wodurch sie sich von anderen Scrapern unterscheidet
    • Sie ist dafür gedacht, ePubs für Websites zu erzeugen, auf denen traditionelle Scraper nicht gut funktionieren
    • Übliche Kommandozeilen-Scraper und andere Erweiterungen funktionieren nur auf vordefinierten Websites
    • Es kann komplexe Konfiguration oder Code erforderlich sein
    • Manche Websites erzeugen oder laden Text dynamisch mit JavaScript
    • Da sie im Browser läuft, ist die Wahrscheinlichkeit geringer, erkannt und blockiert zu werden
    • Sie ist nicht für wiederholte Nutzung oder Hintergrundaufgaben gedacht
    • Sie bietet eine UI, damit sich Inhalte auch ohne Konfiguration für eine Website leicht scrapen lassen
    • Bei Websites, die andere Programme/Erweiterungen bereits verarbeiten, ist keine bessere Leistung zu erwarten
    • Sie wurde geschrieben, weil sie nicht an eine bestimmte Website gebunden ist
  • Das Interessante an diesem Programm ist die UI zum Extrahieren von Inhalten aus beliebigen Websites
  • Es wäre großartig, wenn es Websites verarbeiten könnte, bei denen alle Abschnitte hinter Akkordeons verborgen sind
  • Ich baue etwas Ähnliches
    • Ich entwickle einen Web-Scraper und ePub-Parser für Blogs, Webromane usw.
    • Außerdem entwickle ich eine begleitende PWA-App für Offline-Lesen
  • Manchmal möchte ich Paul Grahams Essays als ePub haben
  • Ich habe einmal eine einfache Version gebaut, die ePub-Dateien im Dateisystem eines Servers speichert
    • Mit Postlight Parser stellte sie eine vereinfachte Dokumentansicht von Websites bereit
  • Dieses Tool ist erstaunlich
    • Die Zeiten, in denen ich für Offline-Reisen viele Webseiten gecacht habe, sind vorbei
  • Ich frage mich, ob es fanfiction.net unterstützt
  • Ich würde es gern auf dokumentationslastigen Websites wie AWS, VueJS, MDN, w3schools, realpython und betterstack ausführen