- Ein Content-Parser, der unnötige Kommentare, Seitenleisten, Header und Footer von Webseiten entfernt und nur den Kerninhalt bereinigt als HTML/Markdown extrahiert
- YouTube-Videos werden extrahiert, indem Gespräche nach Sprechern getrennt werden (ab 0.12.0)
- Ursprünglich für den Obsidian Web Clipper entwickelt, aber in verschiedenen Umgebungen wie Browsern und Node.js nutzbar
- Als Ersatz für Mozilla Readability konzipiert und bietet flexiblere Verarbeitung sowie konsistentere Ausgabe
- Minimiert das Entfernen unsicherer Elemente
- Unterstützt standardisierte Ausgabe für Fußnoten, Formeln, Codeblöcke usw.
- Erkennt unnötige Elemente durch Analyse mobiler Styles
- Extrahiert automatisch mehr Metadaten, einschließlich schema.org-Metadaten
- Unterstützt eine CLI-Schnittstelle, sodass HTML·URL-Parsing direkt im Terminal möglich ist
- MIT-Lizenz
8 Kommentare
Defuddle - Open-Source-Alternative zu Readability für HTML-zu-Markdown
Der Beitrag war schon einmal vor 10 Monaten hier, aber diesmal wurde eine Funktion hinzugefügt, mit der sich Gespräche aus YouTube-Videos mit Sprechertrennung extrahieren lassen.
Außerdem kamen in der Zwischenzeit viele Funktionen hinzu, etwa asynchrone Extraktion von X-URLs und Artikelinhalten, Unterstützung für die Substack-App, eine CLI sowie Support für GitHub-URLs.
Jina AI Reader – ein Tool, das URLs in LLM-freundliche Eingaben umwandelt
Es wäre schön, wenn interne GeekNews-Links automatisch mit einem Titel versehen würden ...
Ich habe das angepasst. Künftige Kommentare werden automatisch in den Titel umgewandelt.
Wow, vielen Dank.
Wow, das ging ja wirklich sofort so einfach, krass. Ich hatte auch schon mal so eine Unannehmlichkeit, ich hätte wohl etwas sagen sollen.
Das Markdown wird etwas ungenau extrahiert. Es scheint nur dann gut zu funktionieren, wenn die SEO auf der Webseite genau richtig umgesetzt ist. Stimmt das?
In Kombination mit Claude Code ist das wirklich sehr gut zu gebrauchen.