9 Punkte von GN⁺ 2024-11-10 | 1 Kommentare | Auf WhatsApp teilen
  • Ein leistungsstarkes Tool zur Umwandlung von HTML in sauberes, gut lesbares Markdown
  • Unterstützt komplexe Formatierungen und bietet über benutzerdefinierte Optionen und Plugins vollständige Kontrolle über den Konvertierungsprozess
  • Kann als Golang-Bibliothek oder per CLI-Befehl verwendet werden; außerdem direkt über die Online-Demo oder die REST API ausprobierbar

Hauptfunktionen

  • Bold & Italic: Unterstützt Fett- und Kursivformatierung auch innerhalb von Wörtern
  • List: Unterstützt perfekt verschachtelte geordnete und ungeordnete Listen
  • Blockquote: Kann andere Elemente innerhalb von Zitaten enthalten und unterstützt auch verschachtelte Zitate nahtlos
  • Inline Code & Code Block: Verarbeitet Backticks und mehrzeilige Codeblöcke korrekt, um die Codestruktur zu erhalten
  • Link & Image: Formatiert mehrzeilige Links korrekt und fügt Escaping für Leerzeilen hinzu
  • Smart Escaping: Escaped Sonderzeichen nur dann, wenn es nötig ist, um unbeabsichtigtes Markdown-Rendering zu verhindern
  • Remove/Keep HTML: Bietet die Möglichkeit, bestimmte HTML-Tags zu entfernen oder beizubehalten
  • Plugin: Plugins lassen sich leicht erweitern, oder es können benutzerdefinierte Plugins zur Funktionserweiterung erstellt werden
    • Falls benutzerdefinierte Logik erforderlich ist, kann entsprechender Code geschrieben und registriert werden
    • Wenn die Standardeinstellungen nicht gefallen, kann PriorityEarly verwendet werden, um Logik vor anderen Regeln auszuführen
  • Converter kann in mehreren Goroutinen verwendet werden und nutzt intern einen Mutex

1 Kommentare

 
GN⁺ 2024-11-10
Hacker-News-Kommentare
  • Mit der kostenlosen API von Jina.ai kann man ohne Authentifizierung oder API-Key eine URL abrufen und ein Markdown-Dokument erhalten

    • Einige Websites lassen sich damit nicht verarbeiten, aber in den meisten Fällen erledigt es 90 % der Arbeit
    • Mit Pandoc lässt sich HTML in Markdown umwandeln
  • Ich frage mich, ob sich dieses unter der MIT-Lizenz stehende Tool als Alternative zu p2k, Instapaper usw. zum Lesen auf dem Kindle nutzen lässt

    • Diese Dienste rendern ungenau und verlangen Abogebühren
    • Wenn das Projekt aktiv gepflegt wird, könnte ich es mit verschiedenen Artikeln testen und Probleme melden
  • Ich verwende diese Bibliothek in einer Lambda-Funktion, um URLs in Markdown umzuwandeln und in S3 zu speichern

    • Per Webhook mit allen Bookmark-Apps verbunden, sodass alles, was ich bookmarke, als Markdown gespeichert wird
    • Praktisch zum Import in Obsidian
  • Nützlich, um LLMs mit Webseitendaten zu versorgen

    • Ich habe ein ähnliches Tool für die Elixir-Welt gebaut, aber es ist eingeschränkt
    • Vielleicht kann ich mir die Idee ausleihen
  • Es wäre gut, wenn das Tool eine n-Gramm-Deduplizierungsfunktion hätte

    • Es braucht eine Funktion, die identische Inhalte aus Header und Footer entfernt
  • Mit Urlbox kann man exakte Screenshots und Markdown von Webseiten erhalten

    • Diese Funktion lässt sich mit dem kostenlosen Tool nutzen
  • RedditToMarkdown und urltomarkdown.com sind nützlich, um LLM- und AI-Apps zu bauen

  • Ich suche nach einer ähnlichen Bibliothek für den Einsatz in einer Kotlin/Spring-App

    • Beim Umwandeln von HTML in Markdown ist der HTML-Dokument-String bereits bereinigt
  • Eine der Schwierigkeiten bei der Nutzung dieses Tools ist die Verarbeitung von Code-Blöcken mit Syntax-Highlighting

    • Ich frage mich, wie html-to-markdown in solchen Szenarien funktioniert