mdream - Jede Website in sauberes Markdown und llms.txt umwandeln
(github.com/harlan-zw)- Ein Tool, das Websites schnell und schlank in die Formate Markdown und llms.txt umwandelt und damit die Erstellung von durchsuchbarem LLM-Kontext für KI unterstützt
- Herkömmliche HTML→Markdown-Konverter sind nicht für LLMs ausgelegt, verbrauchen daher viele Tokens und sind zudem langsam
- Der
mdream-Core ist ein für LLMs optimierter HTML→Markdown-Konverter, der optimierte Ausgaben mit etwa 50 % weniger Tokens erzeugt und 1,4 MB HTML in rund 50 ms extrem schnell umwandeln kann- Eine Bibliothek mit 5 kB gzip ohne externe Abhängigkeiten
- Mit dem Paket
@mdream/crawllässt sich eine gesamte Website crawlen, um llms.txt, llms-full.txt und einzelne Markdown-Dateien zu erzeugen; außerdem ist eine Anbindung an KI-Tools wie Claude Code möglich - Ausführbar in verschiedensten Umgebungen wie CLI, Docker, GitHub Actions, Vite und Nuxt
- Über ein Plugin-System lassen sich per Pipeline-Hooking Inhaltsfilterung, Node-Transformationen und benutzerdefiniertes Verhalten ergänzen
- extractionPlugin: Extrahiert bestimmte Elemente per CSS-Selektor und kann für Datenanalysen genutzt werden
- filterPlugin: Elemente können anhand von CSS-Selektoren oder Tag-IDs ein- oder ausgeschlossen werden
- frontmatterPlugin: Erzeugt YAML-Frontmatter aus HTML-Head-Informationen (
title,metausw.) - isolateMainPlugin: Extrahiert nur die Hauptinhalte über das Element
<main>oder den Bereich vonheaderbisfooter - tailwindPlugin: Wandelt Tailwind-CSS-Klassen in Markdown-Formatierung um (fett, kursiv usw.)
- readabilityPlugin: Bewertet und extrahiert die Lesbarkeit von Inhalten (experimentelle Funktion)
1 Kommentare
Ich habe es ausprobiert, aber es treten Fehler auf und es funktioniert nicht richtig. Ich habe einen Beitrag zum Eldan-Issue geschrieben.