13 Punkte von GN⁺ 2025-03-07 | 2 Kommentare | Auf WhatsApp teilen
  • Mistral OCR ist die weltbeste API für das Verständnis von Dokumenten und bietet die Fähigkeit, Dokumente präziser zu verstehen und zu analysieren als bestehende Modelle
  • Extrahiert aus PDFs und Bildern Text, Medien, Formeln und Tabellen und wandelt sie in strukturierte Ausgaben um
  • Die API ist derzeit für 1000 Seiten/1 $ verfügbar (bei Batch-Verarbeitung halbieren sich die Kosten pro Seite)

Hauptmerkmale von Mistral OCR

  • Verständnis komplexer Dokumente: Interpretiert Tabellen, Bilder, Formeln und sogar LaTeX-Formatierung präzise
  • Mehrsprachige und multimodale Unterstützung: Unterstützt verschiedene Sprachen, Schriftarten und Schriftsysteme
  • Leistung auf Spitzenniveau der Branche: Erzielt eine höhere Genauigkeit als andere OCR-Modelle
  • Höchste Geschwindigkeit: Kann auf einem einzelnen Node bis zu 2000 Seiten pro Minute verarbeiten
  • Dokumente als Prompt nutzbar: Unterstützt strukturierte Ausgaben wie JSON
  • On-Premises-(Self-host)-Option verfügbar: Geeignet für Unternehmen, die vertrauliche Dokumente verarbeiten möchten

Verständnis komplexer Dokumente

  • Mistral OCR kann Dokumente mit wissenschaftlichen Arbeiten, Grafiken, Formeln, Tabellen und Bildern tiefgehend analysieren
  • Über das Beispiel-Notebook lässt sich sehen, wie OCR Text und Bilder aus PDFs extrahiert (Beispiel)

Leistungsvergleich (Benchmark)

Im Vergleich mit anderen führenden OCR-Modellen erzielt Mistral OCR die höchste Gesamtpunktzahl

  • Gesamtleistung (Overall): 94.89 (höher als bei anderen Modellen)
  • Leistung bei der Analyse von Formeln (Math): 94.29 (mehr als 7 Punkte höher als GPT-4o)
  • Mehrsprachige Erkennungsleistung: 89.55
  • Leistung bei gescannten Dokumenten (Scanned): 98.96
  • Leistung bei der Tabellenerkennung (Table): 96.12 (besser als andere Modelle)

Mehrsprachige Unterstützung

Mistral OCR kann eine Vielzahl von Sprachen und Schriftsystemen weltweit verarbeiten. Im Vergleich mit wichtigen Modellen erzielt es in allen Sprachen die beste OCR-Leistung

  • Russisch (ru): 99.09 (Azure OCR 97.35, Google Doc AI 95.56)
  • Französisch (fr): 99.20 (Azure 97.50, Google 96.36)
  • Chinesisch (zh): 97.11 (Azure 91.40, Google 90.89)
  • Deutsch (de): 99.51 (Azure 98.39, Google 97.09)

Hohe Verarbeitungsgeschwindigkeit

  • Mistral OCR ist leichter als bestehende OCR-Modelle und kann auf einem einzelnen Node bis zu 2000 Seiten/Minute verarbeiten
  • Unterstützt kontinuierliches Lernen und Verbesserungen in Umgebungen, in denen große Dokumentenmengen verarbeitet werden müssen

Dokumente als Prompt nutzen (Doc-as-prompt)

  • Kann bestimmte Informationen aus Dokumenten extrahieren und strukturierte Ausgaben wie JSON erzeugen
  • Die extrahierten Daten lassen sich zur Automatisierung mit nachgelagerten KI-Prozessen verknüpfen
  • Beispiel: Extraktion bestimmter Klauseln aus juristischen Dokumenten und anschließende Generierung von Antworten durch einen KI-Chatbot

On-Premises-(Self-host)-Option

  • Kann selbst gehostet werden, wenn die Verarbeitung vertraulicher Dokumente innerhalb des Unternehmens erforderlich ist
  • Geeignet für Institutionen und Unternehmen, bei denen Datenschutz und Sicherheit wichtig sind

Wichtige Anwendungsfälle

  1. Digitalisierung wissenschaftlicher Forschung: Wandelt Aufsätze und Journale in Formate um, die von KI verarbeitet werden können, und beschleunigt so die Forschungszusammenarbeit
  2. Bewahrung von Geschichte und Kulturerbe: Museen und Non-Profits können historische Dokumente digitalisieren, bewahren und teilen
  3. Verbesserung des Kundenservice: Indiziert Handbücher und Dokumente, um die Geschwindigkeit bei der Kundenbetreuung zu erhöhen
  4. KI-Nutzung für Design-, Bildungs- und Rechtsdokumente: Indiziert Konstruktionszeichnungen, Lehrmaterialien und regulatorische Unterlagen, um KI-gestützte Informationssuche zu ermöglichen

Mistral OCR ausprobieren

  • Mistral OCR kann kostenlos in Le Chat ausprobiert werden (Le Chat)
  • Die API ist auf la Plateforme verfügbar (API nutzen)
  • On-Premises-Bereitstellung und maßgeschneiderte Enterprise-Lösungen werden ebenfalls angeboten (Kontakt)

2 Kommentare

 
taeha 2025-03-13

Es gibt zwar keine Angaben zur koreanischen Leistung, aber nach dem Ausprobieren sieht es nicht schlecht aus.

 
GN⁺ 2025-03-07
Hacker-News-Kommentare
  • Es gibt die Meinung, es sei „nicht schlecht“. Allerdings treten weiterhin Halluzinationen auf

    • Im als Beispiel bereitgestellten Bild wurde der Text im mittleren Block korrekt ausgegeben
    • Im nächsten Block wurden jedoch Teile des Textes aus dem vorherigen Block wiederholt, Teile des nächsten Blocks fälschlich übernommen und Wörter erzeugt, die nicht existieren
    • Der korrekte Text lautet „Louis, commandeur de Malte, capitaine aux gardes, 2 juin 1679.“
  • Es wurde ein Benchmark zum teilweisen Vergleich der Leistung von Mistral und Marker durchgeführt

    • Bei einer von einem LLM bewerteten Auswertung von 375 Samples erreichte Mistral 4,32 Punkte und Marker 4,41 Punkte
    • Marker kann auf H100 mit 20 bis 120 Seiten pro Sekunde inferieren
    • Samples und Benchmark-Code sind jeweils auf Hugging Face und GitHub verfügbar
    • Mistral OCR ist ein beeindruckendes Modell, aber OCR bleibt weiterhin ein schwieriges Problem
  • Es gibt die Erwartung, dass das Lesen von Papers und Lehrbüchern mit dem Fortschritt der OCR-Technologie einfacher wird

    • Verweise auf Abbildungen können mit den tatsächlichen Abbildungen verknüpft werden, sodass der Lesefluss nicht unterbrochen wird
    • Eine saubere Konvertierung nach HTML wird möglich, sodass man auf Definitionen klicken oder Fragen zur Verständniskontrolle hinzufügen kann
    • Es könnte sogar möglich werden, Andy Matuschaks Orbit SRS automatisch in PDFs zu integrieren
  • Die OCR-Technologie nähert sich einem Zustand, in dem sie fast gelöst ist

    • Im Business-Bereich gibt es jedoch weiterhin eine große Lücke beim Übergang von roher OCR-Ausgabe zur Dokumentenverarbeitung
    • LLMs und VLMs sind keine Magie, und eine 100%ige Automatisierung zu erwarten ist unrealistisch
    • Erforderlich sind der Aufbau von Datensätzen, das Feinjustieren von Pipelines, das Erkennen von Unsicherheit und Korrekturen durch menschliches Eingreifen
  • Es gibt die Meinung, dass bei der Konvertierung medizinischer Lehrbücher von PDF nach MD die Ergebnisse von MinerU/PDF-Extract-Kit besser sind

    • Der Colab-Link im Artikel funktioniert nicht, aber in der Dokumentation wurde ein funktionierender Link gefunden
  • Es gibt die Meinung, dass nun der Tag gekommen ist, an dem man PDFs bearbeiten kann

    • Das OCR-Problem bei PDF-Archiven mit personenbezogenen Daten ist jedoch weiterhin nicht gelöst
  • Es gibt die Meinung, dass es sehr schnell und genauer als Google, Claude und andere sei

    • Der Preis beträgt $1 pro 1000 Seiten, bei Batch-Verarbeitung wird nach 2000 Seiten abgerechnet
    • Es gibt die Meinung, dass es hervorragend für die Konvertierung von PDFs nach Markdown geeignet ist
  • Wenn man statt eines spezialisierten Modells ein allgemeines VLM verwendet, gibt es den Nachteil, dass es schwer an spezifische Anwendungsfälle anzupassen ist

    • Zum Beispiel wird mit Gemini dem extrahierten Markdown sehr spezifischer Alt-Text hinzugefügt
    • Das kostet 2- bis 3-mal mehr als Gemini Flash, aber die Leistungssteigerung ist wichtig
  • Es wird nach einer kurzen Erklärung gesucht, warum VLM-OCR Halluzinationen verursacht