Mistral OCR 3 vorgestellt
(mistral.ai)- Ein OCR-Modell der nächsten Generation, das Genauigkeit und Effizienz in der Dokumentenverarbeitung gleichzeitig verbessert und bei verschiedensten Dokumenttypen eine hohe Erkennungsleistung bietet
- Gegenüber der vorherigen Version wurde eine allgemeine Leistungssteigerung von 74 % erzielt, mit hervorragenden Ergebnissen bei Handschrift, Formularen, komplexen Tabellen und gescannten Dokumenten
- Durch HTML-basierte Tabellenrekonstruktion und Unterstützung für Markdown-Ausgabe lassen sich auch strukturelle Informationen von Dokumenten erhalten
- Mit 2 US-Dollar pro 1.000 Seiten und 50 % Rabatt bei Massenverarbeitung ist auch Kosteneffizienz gegeben
- Eine OCR-Technologie, die sich breit einsetzen lässt – von großen Unternehmens-Pipelines bis zu interaktiven Dokument-Workflows – und sich als zentrale Infrastruktur für generative KI-gestützte Datennutzung etabliert
Wichtige Leistung und Merkmale
- Mistral OCR 3 extrahiert mit hoher Präzision Text und eingebettete Bilder aus unterschiedlichsten Dokumenten
- Unterstützt Ausgabe im Markdown-Format und HTML-Tabellenrekonstruktion, sodass nicht nur Inhalte, sondern auch die Struktur von Dokumenten erkannt werden kann
- Dank kompakter Modellgröße wird es zu geringeren Kosten als konkurrierende Lösungen angeboten: 2 US-Dollar pro 1.000 Seiten, mit Batch API 1 US-Dollar
- Das Modell mistral-ocr-2512 kann per API integriert werden; über die UI von Document AI Playground lassen sich PDFs und Bilder in Text oder strukturiertes JSON umwandeln
Leistungsverbesserung und Benchmarks
- In internen Benchmarks wurde eine Gewinnrate von 74 % gegenüber Mistral OCR 2 erzielt
- Die Tests basierten auf realen Business-Anwendungsfällen von Kunden; die Genauigkeit wurde mit der fuzzy-match metric bewertet
- Erzielt eine Genauigkeit, die sowohl Enterprise-Lösungen für Dokumentenverarbeitung als auch KI-basierte OCR übertrifft
Wichtige Upgrade-Bereiche
- Handschrifterkennung: interpretiert Handschrift, gemischte Anmerkungen und handschriftliche Einträge auf gedruckten Formularen präzise
- Formularverarbeitung: verbesserte Erkennung von Kästchen, Labels, handschriftlichen Eingaben und komplexen Layouts
- Scans und komplexe Dokumente: hohe Robustheit gegenüber Kompressionsartefakten, Verzerrungen, niedriger Auflösung und Hintergrundrauschen
- Komplexe Tabellenstrukturen: vollständige Rekonstruktion von Tabellen mit Überschriften, verbundenen Zellen und Hierarchien über mehrere Zeilen und Spalten mittels HTML-Tags (
colspan/rowspan) - Allgemeine Leistungsverbesserung gegenüber Mistral OCR 2 in allen Sprachen und Dokumentformen
Einsatzbeispiele und Anwendungsfelder
- Geeignet sowohl für groß angelegte Unternehmens-Dokumentenpipelines als auch für interaktive Dokument-Workflows
- Unterstützt unter anderem Extraktion von Text und Bildern mit anschließender Markdown-Konvertierung, automatisches Parsen von Formularen und Rechnungen, Aufbau von Document-Understanding-Pipelines sowie die Digitalisierung von Handschrift und historischen Dokumenten
- Erste Kunden nutzen es bereits, um Rechnungen in strukturierte Felder umzuwandeln, Unternehmensarchive zu digitalisieren, Text aus technischen und wissenschaftlichen Berichten zu extrahieren und die Enterprise-Suche zu verbessern
- Tim Law von IDC sagte: „OCR ist eine Basistechnologie für generative KI und agentische KI; hochpräzise und kostengünstige Textextraktion entscheidet über die Wettbewerbsfähigkeit bei der Datennutzung.“
Zugangswege und Kompatibilität
- Sofort nutzbar über API oder die Oberfläche von Document AI Playground
- Vollständig kompatibel mit Mistral OCR 2, sodass ein Upgrade in bestehenden Systemen problemlos möglich ist
- Weitere Details finden sich unter mistral.ai/docs
1 Kommentare
Hacker-News-Kommentare
Nachdem ich dieses Video auf Twitter gesehen habe, frage ich mich, warum Mistral nicht mit aktuellen SoTA-Modellen vergleicht
Ein Vergleich mit Modellen wie Chandra, dots.ocr, olmOCR, MinerU, Monkey OCR und PaddleOCR wäre sinnvoll
Mistral vergleicht hier nicht mit VLM-basierten Modellen, sondern mit gewöhnlichen Computer-Vision-Diensten
Erstere haben ein besseres Dokumentenverständnis, letztere liefern dafür präzise Bounding Boxes
Auch die Fehlermuster unterscheiden sich — VLMs lesen manchmal ganze Sätze falsch, während Vision-Modelle eher Tippfehler innerhalb einzelner Wörter machen
In den letzten drei Monaten sind extrem viele Open-Source-OCR-Modelle erschienen
Besonders Modelle mit weniger als 1B Parametern laufen sogar auf Edge-Geräten gut
Ein Vergleich mit Modellen wie paddleOCR-VL, olmOCR-2, chandra und dots.ocr wäre wünschenswert
Schade, dass es kaum Leaderboards oder Arenen für OCR oder CV gibt
Es funktioniert ähnlich wie llmarena, also als direkter Vergleich zwischen Modellen, aber Mistral wurde dort noch nicht aktualisiert
Aktuell liegt Gemini weit vorn
Andere OCR-Dienste rechnen tokenbasiert ab, was die tatsächlichen Kosten schwer kalkulierbar macht
Zum Beispiel wirkt Gemini 3.0 flash auf den ersten Blick ähnlich teuer, ist aber auf Tokenbasis real eher etwa dreimal so teuer
Danach habe ich Claude Root-Rechte gegeben und es stattdessen installieren lassen, und es schien dabei deutlich mehr Spaß zu haben als ich
Bei der Installation von open web UI hatte ich eine ähnliche Erfahrung und habe am Ende die benötigten Funktionen einfach selbst in 100 Zeilen HTML gebaut
Es wäre schön, wenn man OCR genauso einfach aufsetzen könnte
Mistral OCR 3 soll zwar für groß angelegte Enterprise-Pipelines geeignet sein, aber mit 79 % Genauigkeit ist es schwer, dem zu vertrauen
Für meine Arbeit mit wissenschaftlichen Fachzeitschriften sind Erkennungsfehler wie 2.9+0.5 statt 29+0.5 fatal
Am Ende braucht man in jedem Schritt menschliche Prüfung
Ich arbeite an einem Projekt, bei dem ein Shipibo-Spanisch-Wörterbuch in ein Shipibo-Englisch-Wörterbuch umgewandelt wird
Die Qualität der PDF-Scans ist nicht gut, und wegen des zweispaltigen Layouts sowie Headern und Footern scheitert OCR häufig
Es ist kompliziert, weil ich die Shipibo-Beispielsätze und die spanischen Definitionen trennen und nur ins Englische übersetzen muss
Jedes Mal, wenn es Neuigkeiten zu OCR oder LLMs gibt, probiere ich es aus und bin am Ende wieder enttäuscht
In der Shipibo-Kultur nahmen nicht gewöhnliche Menschen, sondern maestras Ayahuasca ein, um Krankheiten zu diagnostizieren
Für jede Pflanze wurde eine dieta (Askese-Diät) eingehalten, mit Einschränkungen bei Seife, Sex, Salzaufnahme usw.
Traditionell dauerte das oft mehr als ein Jahr, heute wurde es auf einige Wochen verkürzt
Ich fand es beeindruckend, wie tief dort Pflanzenmedizin erforscht wird
Ich versuche, Mathematiklehrbücher in Markdown mit LaTeX-Formeln umzuwandeln, aber bisher gibt es noch kein OCR-Modell, das mich zufriedenstellt
Ich werde es direkt im OCR playground von Mistral testen
Auch Formeln wurden perfekt in LaTeX umgewandelt
Ich suche nach In-Place-Übersetzung in Bildern
Mistral OCR3 ist auf Datenextraktion ausgerichtet und passt daher nicht zu meinem Anwendungsfall
Ich möchte Text in ausländischen Artbooks direkt auf dem Bild übersetzt anzeigen lassen, aber bestehende kostenpflichtige Dienste scheitern an nicht standardisierten Textlayouts
Derzeit halte ich Google Lens auf den Bildschirm, um zu übersetzen, aber das ist umständlich
Auch das in Chrome integrierte Lens erfordert eine manuelle Auswahl und ist daher nicht vollständig automatisch
Kennt jemand Neuigkeiten zu Fortschritten in diesem Bereich?
Mistral wirkt in letzter Zeit so, als würde es nur noch die Randbereiche von AI-Funktionen verfolgen
Im Vergleich zu OAI, Google und Anthropic scheint es zurückzufallen, und Investitionen auf EU-Ebene wirken unzureichend
Das ist viel wertvoller als Meme-Generierung
Da sich noch kein Geschäftsmodell wirklich etabliert hat, ist es für Mistral sinnvoller, sich auf die Qualität der Kernmodelle zu konzentrieren
Ein realistisches Ziel ist es, Talente in der EU zu halten und solide Modelle zu bauen
Ich habe Einschätzungen gesehen, dass Mistral schlechter abschneidet als mehrere Open-Source-OCRs wie Paddle, MinerU und MonkeyOCR
Siehe codesota.com/ocr
Ich teste Mistral als MathPix-Alternative
Dieses Python-Skript ist ein Prototyp für Windows, der nach dem Snipping ein Bild aus der Zwischenablage an Mistral sendet und das Markdown-Ergebnis automatisch einfügt
Das größte Problem von Mistral ist, dass auf Kundenanfragen nicht reagiert wird
Sich hinter „Preisanfrage“ zu verstecken, macht es wertlos, selbst wenn es besser als SoTA wäre
Ich würde eher einen teureren und schlechteren Dienst wählen, wenn ich mir diesen Prozess dadurch spare