Bei der Entwicklung eines Tools, das Webseiten in Markdown umwandelt, gibt es Überlegungen zu Lastmanagement und zur Nachhaltigkeit eines kostenlosen Dienstes.
Wichtige Probleme bei der Umwandlung von Webseiten in Markdown sind folgende:
Gründliches Scraping der Seiteninhalte (hoher Recall)
Entfernen von Werbung/Hilfsinhalten (hohe Präzision)
Korrekte Extraktion von Layout-/Abschnittstypen (Formatierung)
Bestehende Open-Source-Tools (Trafilatura, Newspaper4k, python-readability usw.) zeigen eine Leistung über einem gewissen Niveau. Gefragt wird nach Differenzierungsmerkmalen oder Verbesserungsmöglichkeiten.
Bei Websites mit Cookie-Hinweisen gibt es das Problem, dass statt des eigentlichen Inhalts nur Cookie-bezogene Inhalte geparst werden (z. B. cnbc.com).
Die Idee, GPT zum Herunterladen und Filtern von Bildern zu nutzen, ist gut.
Vorstellung ähnlicher Tools:
url2text.com: Kann zusammen mit JS-gerendertem HTML auch Metadaten, Screenshots usw. extrahieren
firecrawl.dev: Bietet nicht nur für einzelne Seiten, sondern auch für das Crawlen ganzer Websites Funktionen
substack-ai.vercel.app: Spezialisiert auf die Extraktion von Inhalten aus Substack-Newslettern
content-parser.com: Unterstützt verschiedene Formate wie Markdown, HTML, Text und PDF
Ähnliche Funktionen lassen sich auch mit allgemeinen Dokumentkonvertierungstools wie pandoc umsetzen
Die meisten Tools wurden unter Nutzung von Mozillas readability-Projekt entwickelt
1 Kommentare
Hacker-News-Kommentare
Zusammengefasst wie folgt:
Trafilatura,Newspaper4k,python-readabilityusw.) zeigen eine Leistung über einem gewissen Niveau. Gefragt wird nach Differenzierungsmerkmalen oder Verbesserungsmöglichkeiten.cnbc.com).url2text.com: Kann zusammen mit JS-gerendertem HTML auch Metadaten, Screenshots usw. extrahierenfirecrawl.dev: Bietet nicht nur für einzelne Seiten, sondern auch für das Crawlen ganzer Websites Funktionensubstack-ai.vercel.app: Spezialisiert auf die Extraktion von Inhalten aus Substack-Newsletterncontent-parser.com: Unterstützt verschiedene Formate wie Markdown, HTML, Text und PDFpandocumsetzenreadability-Projekt entwickelt