1 Kommentare

 
GN⁺ 2024-04-15
Hacker-News-Kommentare

Zusammengefasst wie folgt:

  • Bei der Entwicklung eines Tools, das Webseiten in Markdown umwandelt, gibt es Überlegungen zu Lastmanagement und zur Nachhaltigkeit eines kostenlosen Dienstes.
  • Wichtige Probleme bei der Umwandlung von Webseiten in Markdown sind folgende:
    1. Gründliches Scraping der Seiteninhalte (hoher Recall)
    2. Entfernen von Werbung/Hilfsinhalten (hohe Präzision)
    3. Korrekte Extraktion von Layout-/Abschnittstypen (Formatierung)
  • Bestehende Open-Source-Tools (Trafilatura, Newspaper4k, python-readability usw.) zeigen eine Leistung über einem gewissen Niveau. Gefragt wird nach Differenzierungsmerkmalen oder Verbesserungsmöglichkeiten.
  • Bei Websites mit Cookie-Hinweisen gibt es das Problem, dass statt des eigentlichen Inhalts nur Cookie-bezogene Inhalte geparst werden (z. B. cnbc.com).
  • Die Idee, GPT zum Herunterladen und Filtern von Bildern zu nutzen, ist gut.
  • Vorstellung ähnlicher Tools:
    • url2text.com: Kann zusammen mit JS-gerendertem HTML auch Metadaten, Screenshots usw. extrahieren
    • firecrawl.dev: Bietet nicht nur für einzelne Seiten, sondern auch für das Crawlen ganzer Websites Funktionen
    • substack-ai.vercel.app: Spezialisiert auf die Extraktion von Inhalten aus Substack-Newslettern
    • content-parser.com: Unterstützt verschiedene Formate wie Markdown, HTML, Text und PDF
  • Ähnliche Funktionen lassen sich auch mit allgemeinen Dokumentkonvertierungstools wie pandoc umsetzen
  • Die meisten Tools wurden unter Nutzung von Mozillas readability-Projekt entwickelt