defuddle – Extrahiert jede beliebige Webseite als Markdown

xguru · 2026-03-16T09:47:01+09:00

Ein Content-Parser, der unnötige Kommentare, Seitenleisten, Header und Footer von Webseiten entfernt und nur den Kerninhalt bereinigt als HTML/Markdown extrahiert YouTube-Videos werden extrahiert, indem Gespräche nach Sprechern getrennt werden (ab 0.12.0) Ursprünglich für den Obsidian Web Clipper entwickelt, aber in verschiedenen Umgebungen wie Browsern und Node.js nutzbar Als Ersatz für Mozilla Readability konzipiert und bietet flexiblere Verarbeitung sowie konsistentere Ausgabe Minimiert das Entfernen unsicherer Elemente Unterstützt standardisierte Ausgabe für Fußnoten, Formeln, Codeblöcke usw. Erkennt unnötige Elemente durch Analyse mobiler Styles Extrahiert automatisch mehr Metadaten, einschließlich schema.org-Metadaten Unterstützt eine CLI-Schnittstelle, sodass HTML·URL-Parsing direkt im Terminal möglich ist MIT-Lizenz

Ein Content-Parser, der unnötige Kommentare, Seitenleisten, Header und Footer von Webseiten entfernt und nur den Kerninhalt bereinigt als HTML/Markdown extrahiert
YouTube-Videos werden extrahiert, indem Gespräche nach Sprechern getrennt werden (ab 0.12.0)
Ursprünglich für den Obsidian Web Clipper entwickelt, aber in verschiedenen Umgebungen wie Browsern und Node.js nutzbar
Als Ersatz für Mozilla Readability konzipiert und bietet flexiblere Verarbeitung sowie konsistentere Ausgabe
- Minimiert das Entfernen unsicherer Elemente
- Unterstützt standardisierte Ausgabe für Fußnoten, Formeln, Codeblöcke usw.
- Erkennt unnötige Elemente durch Analyse mobiler Styles
- Extrahiert automatisch mehr Metadaten, einschließlich schema.org-Metadaten
Unterstützt eine CLI-Schnittstelle, sodass HTML·URL-Parsing direkt im Terminal möglich ist
MIT-Lizenz

8 Kommentare

tested 2026-03-16

Es wäre schön, wenn interne GeekNews-Links automatisch mit einem Titel versehen würden ...

xguru 2026-03-16

Ich habe das angepasst. Künftige Kommentare werden automatisch in den Titel umgewandelt.

tested 2026-03-16

Wow, vielen Dank.

crawler 2026-03-16

Wow, das ging ja wirklich sofort so einfach, krass. Ich hatte auch schon mal so eine Unannehmlichkeit, ich hätte wohl etwas sagen sollen.

xguru 2026-03-16

Defuddle - Open-Source-Alternative zu Readability für HTML-zu-Markdown
Der Beitrag war schon einmal vor 10 Monaten hier, aber diesmal wurde eine Funktion hinzugefügt, mit der sich Gespräche aus YouTube-Videos mit Sprechertrennung extrahieren lassen.
Außerdem kamen in der Zwischenzeit viele Funktionen hinzu, etwa asynchrone Extraktion von X-URLs und Artikelinhalten, Unterstützung für die Substack-App, eine CLI sowie Support für GitHub-URLs.

shakespeares 2026-03-16

Das Markdown wird etwas ungenau extrahiert. Es scheint nur dann gut zu funktionieren, wenn die SEO auf der Webseite genau richtig umgesetzt ist. Stimmt das?

dbs0829 2026-03-16

In Kombination mit Claude Code ist das wirklich sehr gut zu gebrauchen.

defuddle – Extrahiert jede beliebige Webseite als Markdown

Verwandte Beiträge

8 Kommentare