Microsoft MarkItDown - Python-Tool zum Konvertieren von Dateien und Office-Dokumenten in Markdown
(github.com/microsoft)- Ein Utility-Tool zum Konvertieren verschiedener Dateien in Markdown
- Unterstützte Formate:
- PDF (.pdf), PowerPoint (.pptx), Word (.docx), Excel (.xlsx)
- Bilder (EXIF-Metadaten und OCR), Audio (EXIF-Metadaten und Sprachtranskription)
- HTML (mit spezieller Behandlung insbesondere für Wikipedia) sowie diverse weitere textbasierte Formate (csv, json, xml usw.)
- Die API ist einfach zu verwenden:
from markitdown import MarkItDown markitdown = MarkItDown() result = markitdown.convert("test.xlsx") print(result.text_content)
2 Kommentare
Oh, es sieht so aus, als würde man das sogar innerhalb von Microsoft als Open Source veröffentlichen wollen?
Hacker-News-Kommentare
Wenn
uvinstalliert ist, kann man es für Dateien ohne separate Installation mit dem Befehluvx markitdown path-to-file.pdfausführenEs gibt Erfahrung damit, im Unternehmen eine Funktion zu entwickeln, die Dateien in LLM-freundlichen Text umwandelt
Viele Startups und Open-Source-Projekte machen diesen Bereich unnötig komplex, aber das Endziel ist ein einfaches Projekt, das leicht verständlich und leicht bereitzustellen ist
Bei der PDF-Verarbeitung wäre eine Funktion wünschenswert, mit der sich steuern lässt, „wie viel Verarbeitung man möchte“
Für die PDF-Verarbeitung könnte es besser sein, PDFMiner direkt zu integrieren
Mit Pandoc lassen sich
.docx-Dateien in Markdown und andere Dateiformate umwandelnEs wurden Tabletop-RPG-Bücher mit komplexem visuellem Layout und vielen Tabellen im PDF-Format indexiert
Dass im README keine Erwähnung von LLMs vorkommt, ist unerwartet, aber positiv
Es wird eine Erfahrung aus einem Online-Sprachkurs geteilt, bei dem Aufgaben über Slack eingereicht wurden
.md-Datei eingereicht, aber die Lehrkraft konnte damit nichts anfangenNeugier auf einen Vergleich mit docling
Es wird gefragt, ob es eine gute Bibliothek gibt, um von Markdown nach PDF oder
.docxzu konvertierenFür Microsoft sollte es möglich sein, aus Outlook-HTML und
.docxzumindest halbwegs brauchbare Ergebnisse zu erzielen