Mistral OCR veröffentlicht – die beste API für das Verständnis von Dokumenten

(mistral.ai)

13 Punkte von GN⁺ 2025-03-07 | 2 Kommentare | Auf WhatsApp teilen

Mistral OCR ist die weltbeste API für das Verständnis von Dokumenten und bietet die Fähigkeit, Dokumente präziser zu verstehen und zu analysieren als bestehende Modelle
Extrahiert aus PDFs und Bildern Text, Medien, Formeln und Tabellen und wandelt sie in strukturierte Ausgaben um
Die API ist derzeit für 1000 Seiten/1 $ verfügbar (bei Batch-Verarbeitung halbieren sich die Kosten pro Seite)

Hauptmerkmale von Mistral OCR

Verständnis komplexer Dokumente: Interpretiert Tabellen, Bilder, Formeln und sogar LaTeX-Formatierung präzise
Mehrsprachige und multimodale Unterstützung: Unterstützt verschiedene Sprachen, Schriftarten und Schriftsysteme
Leistung auf Spitzenniveau der Branche: Erzielt eine höhere Genauigkeit als andere OCR-Modelle
Höchste Geschwindigkeit: Kann auf einem einzelnen Node bis zu 2000 Seiten pro Minute verarbeiten
Dokumente als Prompt nutzbar: Unterstützt strukturierte Ausgaben wie JSON
On-Premises-(Self-host)-Option verfügbar: Geeignet für Unternehmen, die vertrauliche Dokumente verarbeiten möchten

Verständnis komplexer Dokumente

Mistral OCR kann Dokumente mit wissenschaftlichen Arbeiten, Grafiken, Formeln, Tabellen und Bildern tiefgehend analysieren
Über das Beispiel-Notebook lässt sich sehen, wie OCR Text und Bilder aus PDFs extrahiert (Beispiel)

Leistungsvergleich (Benchmark)

Im Vergleich mit anderen führenden OCR-Modellen erzielt Mistral OCR die höchste Gesamtpunktzahl

Gesamtleistung (Overall): 94.89 (höher als bei anderen Modellen)
Leistung bei der Analyse von Formeln (Math): 94.29 (mehr als 7 Punkte höher als GPT-4o)
Mehrsprachige Erkennungsleistung: 89.55
Leistung bei gescannten Dokumenten (Scanned): 98.96
Leistung bei der Tabellenerkennung (Table): 96.12 (besser als andere Modelle)

Mehrsprachige Unterstützung

Mistral OCR kann eine Vielzahl von Sprachen und Schriftsystemen weltweit verarbeiten. Im Vergleich mit wichtigen Modellen erzielt es in allen Sprachen die beste OCR-Leistung

Russisch (ru): 99.09 (Azure OCR 97.35, Google Doc AI 95.56)
Französisch (fr): 99.20 (Azure 97.50, Google 96.36)
Chinesisch (zh): 97.11 (Azure 91.40, Google 90.89)
Deutsch (de): 99.51 (Azure 98.39, Google 97.09)

Hohe Verarbeitungsgeschwindigkeit

Mistral OCR ist leichter als bestehende OCR-Modelle und kann auf einem einzelnen Node bis zu 2000 Seiten/Minute verarbeiten
Unterstützt kontinuierliches Lernen und Verbesserungen in Umgebungen, in denen große Dokumentenmengen verarbeitet werden müssen

Dokumente als Prompt nutzen (Doc-as-prompt)

Kann bestimmte Informationen aus Dokumenten extrahieren und strukturierte Ausgaben wie JSON erzeugen
Die extrahierten Daten lassen sich zur Automatisierung mit nachgelagerten KI-Prozessen verknüpfen
Beispiel: Extraktion bestimmter Klauseln aus juristischen Dokumenten und anschließende Generierung von Antworten durch einen KI-Chatbot

On-Premises-(Self-host)-Option

Kann selbst gehostet werden, wenn die Verarbeitung vertraulicher Dokumente innerhalb des Unternehmens erforderlich ist
Geeignet für Institutionen und Unternehmen, bei denen Datenschutz und Sicherheit wichtig sind

Wichtige Anwendungsfälle

Digitalisierung wissenschaftlicher Forschung: Wandelt Aufsätze und Journale in Formate um, die von KI verarbeitet werden können, und beschleunigt so die Forschungszusammenarbeit
Bewahrung von Geschichte und Kulturerbe: Museen und Non-Profits können historische Dokumente digitalisieren, bewahren und teilen
Verbesserung des Kundenservice: Indiziert Handbücher und Dokumente, um die Geschwindigkeit bei der Kundenbetreuung zu erhöhen
KI-Nutzung für Design-, Bildungs- und Rechtsdokumente: Indiziert Konstruktionszeichnungen, Lehrmaterialien und regulatorische Unterlagen, um KI-gestützte Informationssuche zu ermöglichen

Mistral OCR ausprobieren

Mistral OCR kann kostenlos in Le Chat ausprobiert werden (Le Chat)
Die API ist auf la Plateforme verfügbar (API nutzen)
On-Premises-Bereitstellung und maßgeschneiderte Enterprise-Lösungen werden ebenfalls angeboten (Kontakt)

2 Kommentare

taeha 2025-03-13

Es gibt zwar keine Angaben zur koreanischen Leistung, aber nach dem Ausprobieren sieht es nicht schlecht aus.

GN⁺ 2025-03-07

Hacker-News-Kommentare

Es gibt die Meinung, es sei „nicht schlecht“. Allerdings treten weiterhin Halluzinationen auf
- Im als Beispiel bereitgestellten Bild wurde der Text im mittleren Block korrekt ausgegeben
- Im nächsten Block wurden jedoch Teile des Textes aus dem vorherigen Block wiederholt, Teile des nächsten Blocks fälschlich übernommen und Wörter erzeugt, die nicht existieren
- Der korrekte Text lautet „Louis, commandeur de Malte, capitaine aux gardes, 2 juin 1679.“
Es wurde ein Benchmark zum teilweisen Vergleich der Leistung von Mistral und Marker durchgeführt
- Bei einer von einem LLM bewerteten Auswertung von 375 Samples erreichte Mistral 4,32 Punkte und Marker 4,41 Punkte
- Marker kann auf H100 mit 20 bis 120 Seiten pro Sekunde inferieren
- Samples und Benchmark-Code sind jeweils auf Hugging Face und GitHub verfügbar
- Mistral OCR ist ein beeindruckendes Modell, aber OCR bleibt weiterhin ein schwieriges Problem
Es gibt die Erwartung, dass das Lesen von Papers und Lehrbüchern mit dem Fortschritt der OCR-Technologie einfacher wird
- Verweise auf Abbildungen können mit den tatsächlichen Abbildungen verknüpft werden, sodass der Lesefluss nicht unterbrochen wird
- Eine saubere Konvertierung nach HTML wird möglich, sodass man auf Definitionen klicken oder Fragen zur Verständniskontrolle hinzufügen kann
- Es könnte sogar möglich werden, Andy Matuschaks Orbit SRS automatisch in PDFs zu integrieren
Die OCR-Technologie nähert sich einem Zustand, in dem sie fast gelöst ist
- Im Business-Bereich gibt es jedoch weiterhin eine große Lücke beim Übergang von roher OCR-Ausgabe zur Dokumentenverarbeitung
- LLMs und VLMs sind keine Magie, und eine 100%ige Automatisierung zu erwarten ist unrealistisch
- Erforderlich sind der Aufbau von Datensätzen, das Feinjustieren von Pipelines, das Erkennen von Unsicherheit und Korrekturen durch menschliches Eingreifen
Es gibt die Meinung, dass bei der Konvertierung medizinischer Lehrbücher von PDF nach MD die Ergebnisse von MinerU/PDF-Extract-Kit besser sind
- Der Colab-Link im Artikel funktioniert nicht, aber in der Dokumentation wurde ein funktionierender Link gefunden
Es gibt die Meinung, dass nun der Tag gekommen ist, an dem man PDFs bearbeiten kann
- Das OCR-Problem bei PDF-Archiven mit personenbezogenen Daten ist jedoch weiterhin nicht gelöst
Es gibt die Meinung, dass es sehr schnell und genauer als Google, Claude und andere sei
- Der Preis beträgt $1 pro 1000 Seiten, bei Batch-Verarbeitung wird nach 2000 Seiten abgerechnet
- Es gibt die Meinung, dass es hervorragend für die Konvertierung von PDFs nach Markdown geeignet ist
Wenn man statt eines spezialisierten Modells ein allgemeines VLM verwendet, gibt es den Nachteil, dass es schwer an spezifische Anwendungsfälle anzupassen ist
- Zum Beispiel wird mit Gemini dem extrahierten Markdown sehr spezifischer Alt-Text hinzugefügt
- Das kostet 2- bis 3-mal mehr als Gemini Flash, aber die Leistungssteigerung ist wichtig
Es wird nach einer kurzen Erklärung gesucht, warum VLM-OCR Halluzinationen verursacht