56 Punkte von xguru 2026-03-16 | 8 Kommentare | Auf WhatsApp teilen
  • Ein Content-Parser, der unnötige Kommentare, Seitenleisten, Header und Footer von Webseiten entfernt und nur den Kerninhalt bereinigt als HTML/Markdown extrahiert
  • YouTube-Videos werden extrahiert, indem Gespräche nach Sprechern getrennt werden (ab 0.12.0)
  • Ursprünglich für den Obsidian Web Clipper entwickelt, aber in verschiedenen Umgebungen wie Browsern und Node.js nutzbar
  • Als Ersatz für Mozilla Readability konzipiert und bietet flexiblere Verarbeitung sowie konsistentere Ausgabe
    • Minimiert das Entfernen unsicherer Elemente
    • Unterstützt standardisierte Ausgabe für Fußnoten, Formeln, Codeblöcke usw.
    • Erkennt unnötige Elemente durch Analyse mobiler Styles
    • Extrahiert automatisch mehr Metadaten, einschließlich schema.org-Metadaten
  • Unterstützt eine CLI-Schnittstelle, sodass HTML·URL-Parsing direkt im Terminal möglich ist
  • MIT-Lizenz

8 Kommentare

 
xguru 2026-03-16

Defuddle - Open-Source-Alternative zu Readability für HTML-zu-Markdown
Der Beitrag war schon einmal vor 10 Monaten hier, aber diesmal wurde eine Funktion hinzugefügt, mit der sich Gespräche aus YouTube-Videos mit Sprechertrennung extrahieren lassen.
Außerdem kamen in der Zwischenzeit viele Funktionen hinzu, etwa asynchrone Extraktion von X-URLs und Artikelinhalten, Unterstützung für die Substack-App, eine CLI sowie Support für GitHub-URLs.

 
tested 2026-03-16

Es wäre schön, wenn interne GeekNews-Links automatisch mit einem Titel versehen würden ...

 
xguru 2026-03-16

Ich habe das angepasst. Künftige Kommentare werden automatisch in den Titel umgewandelt.

 
tested 2026-03-16

Wow, vielen Dank.

 
crawler 2026-03-16

Wow, das ging ja wirklich sofort so einfach, krass. Ich hatte auch schon mal so eine Unannehmlichkeit, ich hätte wohl etwas sagen sollen.

 
shakespeares 2026-03-16

Das Markdown wird etwas ungenau extrahiert. Es scheint nur dann gut zu funktionieren, wenn die SEO auf der Webseite genau richtig umgesetzt ist. Stimmt das?

 
dbs0829 2026-03-16

In Kombination mit Claude Code ist das wirklich sehr gut zu gebrauchen.