- Ein Tool, das Websites schnell und schlank in die Formate Markdown und llms.txt umwandelt und damit die Erstellung von durchsuchbarem LLM-Kontext für KI unterstützt
- Herkömmliche HTML→Markdown-Konverter sind nicht für LLMs ausgelegt, verbrauchen daher viele Tokens und sind zudem langsam
- Der
mdream-Core ist ein für LLMs optimierter HTML→Markdown-Konverter, der optimierte Ausgaben mit etwa 50 % weniger Tokens erzeugt und 1,4 MB HTML in rund 50 ms extrem schnell umwandeln kann
- Eine Bibliothek mit 5 kB gzip ohne externe Abhängigkeiten
- Mit dem Paket
@mdream/crawl lässt sich eine gesamte Website crawlen, um llms.txt, llms-full.txt und einzelne Markdown-Dateien zu erzeugen; außerdem ist eine Anbindung an KI-Tools wie Claude Code möglich
- Ausführbar in verschiedensten Umgebungen wie CLI, Docker, GitHub Actions, Vite und Nuxt
- Über ein Plugin-System lassen sich per Pipeline-Hooking Inhaltsfilterung, Node-Transformationen und benutzerdefiniertes Verhalten ergänzen
- extractionPlugin: Extrahiert bestimmte Elemente per CSS-Selektor und kann für Datenanalysen genutzt werden
- filterPlugin: Elemente können anhand von CSS-Selektoren oder Tag-IDs ein- oder ausgeschlossen werden
- frontmatterPlugin: Erzeugt YAML-Frontmatter aus HTML-Head-Informationen (
title, meta usw.)
- isolateMainPlugin: Extrahiert nur die Hauptinhalte über das Element
<main> oder den Bereich von header bis footer
- tailwindPlugin: Wandelt Tailwind-CSS-Klassen in Markdown-Formatierung um (fett, kursiv usw.)
- readabilityPlugin: Bewertet und extrahiert die Lesbarkeit von Inhalten (experimentelle Funktion)
1 Kommentare
Ich habe es ausprobiert, aber es treten Fehler auf und es funktioniert nicht richtig. Ich habe einen Beitrag zum Eldan-Issue geschrieben.