Mistral OCR 3 vorgestellt

(mistral.ai)

2 Punkte von GN⁺ 2025-12-20 | 1 Kommentare | Auf WhatsApp teilen

Ein OCR-Modell der nächsten Generation, das Genauigkeit und Effizienz in der Dokumentenverarbeitung gleichzeitig verbessert und bei verschiedensten Dokumenttypen eine hohe Erkennungsleistung bietet
Gegenüber der vorherigen Version wurde eine allgemeine Leistungssteigerung von 74 % erzielt, mit hervorragenden Ergebnissen bei Handschrift, Formularen, komplexen Tabellen und gescannten Dokumenten
Durch HTML-basierte Tabellenrekonstruktion und Unterstützung für Markdown-Ausgabe lassen sich auch strukturelle Informationen von Dokumenten erhalten
Mit 2 US-Dollar pro 1.000 Seiten und 50 % Rabatt bei Massenverarbeitung ist auch Kosteneffizienz gegeben
Eine OCR-Technologie, die sich breit einsetzen lässt – von großen Unternehmens-Pipelines bis zu interaktiven Dokument-Workflows – und sich als zentrale Infrastruktur für generative KI-gestützte Datennutzung etabliert

Wichtige Leistung und Merkmale

Mistral OCR 3 extrahiert mit hoher Präzision Text und eingebettete Bilder aus unterschiedlichsten Dokumenten
- Unterstützt Ausgabe im Markdown-Format und HTML-Tabellenrekonstruktion, sodass nicht nur Inhalte, sondern auch die Struktur von Dokumenten erkannt werden kann
- Dank kompakter Modellgröße wird es zu geringeren Kosten als konkurrierende Lösungen angeboten: 2 US-Dollar pro 1.000 Seiten, mit Batch API 1 US-Dollar
Das Modell mistral-ocr-2512 kann per API integriert werden; über die UI von Document AI Playground lassen sich PDFs und Bilder in Text oder strukturiertes JSON umwandeln

Leistungsverbesserung und Benchmarks

In internen Benchmarks wurde eine Gewinnrate von 74 % gegenüber Mistral OCR 2 erzielt
- Die Tests basierten auf realen Business-Anwendungsfällen von Kunden; die Genauigkeit wurde mit der fuzzy-match metric bewertet
Erzielt eine Genauigkeit, die sowohl Enterprise-Lösungen für Dokumentenverarbeitung als auch KI-basierte OCR übertrifft

Wichtige Upgrade-Bereiche

Handschrifterkennung: interpretiert Handschrift, gemischte Anmerkungen und handschriftliche Einträge auf gedruckten Formularen präzise
Formularverarbeitung: verbesserte Erkennung von Kästchen, Labels, handschriftlichen Eingaben und komplexen Layouts
Scans und komplexe Dokumente: hohe Robustheit gegenüber Kompressionsartefakten, Verzerrungen, niedriger Auflösung und Hintergrundrauschen
Komplexe Tabellenstrukturen: vollständige Rekonstruktion von Tabellen mit Überschriften, verbundenen Zellen und Hierarchien über mehrere Zeilen und Spalten mittels HTML-Tags (colspan/rowspan)
Allgemeine Leistungsverbesserung gegenüber Mistral OCR 2 in allen Sprachen und Dokumentformen

Einsatzbeispiele und Anwendungsfelder

Geeignet sowohl für groß angelegte Unternehmens-Dokumentenpipelines als auch für interaktive Dokument-Workflows
- Unterstützt unter anderem Extraktion von Text und Bildern mit anschließender Markdown-Konvertierung, automatisches Parsen von Formularen und Rechnungen, Aufbau von Document-Understanding-Pipelines sowie die Digitalisierung von Handschrift und historischen Dokumenten
Erste Kunden nutzen es bereits, um Rechnungen in strukturierte Felder umzuwandeln, Unternehmensarchive zu digitalisieren, Text aus technischen und wissenschaftlichen Berichten zu extrahieren und die Enterprise-Suche zu verbessern
Tim Law von IDC sagte: „OCR ist eine Basistechnologie für generative KI und agentische KI; hochpräzise und kostengünstige Textextraktion entscheidet über die Wettbewerbsfähigkeit bei der Datennutzung.“

Zugangswege und Kompatibilität

Sofort nutzbar über API oder die Oberfläche von Document AI Playground
Vollständig kompatibel mit Mistral OCR 2, sodass ein Upgrade in bestehenden Systemen problemlos möglich ist
Weitere Details finden sich unter mistral.ai/docs

1 Kommentare

GN⁺ 2025-12-20

Hacker-News-Kommentare

Nachdem ich dieses Video auf Twitter gesehen habe, frage ich mich, warum Mistral nicht mit aktuellen SoTA-Modellen vergleicht
Ein Vergleich mit Modellen wie Chandra, dots.ocr, olmOCR, MinerU, Monkey OCR und PaddleOCR wäre sinnvoll
- Aus der Sicht von jemandem, der viel mit Dokumentenextraktion gearbeitet hat, ist der Ton des Tweets etwas störend, aber inhaltlich stimmt er
  Mistral vergleicht hier nicht mit VLM-basierten Modellen, sondern mit gewöhnlichen Computer-Vision-Diensten
  Erstere haben ein besseres Dokumentenverständnis, letztere liefern dafür präzise Bounding Boxes
  Auch die Fehlermuster unterscheiden sich — VLMs lesen manchmal ganze Sätze falsch, während Vision-Modelle eher Tippfehler innerhalb einzelner Wörter machen
- Ich habe auf den Link geklickt, und Twitter wirkte auf mich deutlich seltsamer als früher
- Ich würde auch gern einen Vergleich mit Qwen 3 VL 235B-A22B sehen. Meiner Erfahrung nach war das deutlich besser als MinerU
In den letzten drei Monaten sind extrem viele Open-Source-OCR-Modelle erschienen
Besonders Modelle mit weniger als 1B Parametern laufen sogar auf Edge-Geräten gut
Ein Vergleich mit Modellen wie paddleOCR-VL, olmOCR-2, chandra und dots.ocr wäre wünschenswert
Schade, dass es kaum Leaderboards oder Arenen für OCR oder CV gibt
- Vor etwa einem Monat wurde ein Projekt namens ocrarena.ai vorgestellt
  Es funktioniert ähnlich wie llmarena, also als direkter Vergleich zwischen Modellen, aber Mistral wurde dort noch nicht aktualisiert
  Aktuell liegt Gemini weit vorn
- Der Vorteil von MistralOCR ist die einfache Preisstruktur — $1 pro 1.000 Seiten, mit servergehosteter API
  Andere OCR-Dienste rechnen tokenbasiert ab, was die tatsächlichen Kosten schwer kalkulierbar macht
  Zum Beispiel wirkt Gemini 3.0 flash auf den ersten Blick ähnlich teuer, ist aber auf Tokenbasis real eher etwa dreimal so teuer
- Ich habe versucht, paddleOCR zu installieren, aber bei den 12 GB PyTorch-Abhängigkeiten wegen Versionskonflikten aufgegeben
  Danach habe ich Claude Root-Rechte gegeben und es stattdessen installieren lassen, und es schien dabei deutlich mehr Spaß zu haben als ich
  Bei der Installation von open web UI hatte ich eine ähnliche Erfahrung und habe am Ende die benötigten Funktionen einfach selbst in 100 Zeilen HTML gebaut
  Es wäre schön, wenn man OCR genauso einfach aufsetzen könnte
- codesota.com/ocr ist ebenfalls einen Blick wert
Mistral OCR 3 soll zwar für groß angelegte Enterprise-Pipelines geeignet sein, aber mit 79 % Genauigkeit ist es schwer, dem zu vertrauen
Für meine Arbeit mit wissenschaftlichen Fachzeitschriften sind Erkennungsfehler wie 2.9+0.5 statt 29+0.5 fatal
Am Ende braucht man in jedem Schritt menschliche Prüfung
- In solchen Fällen war datalab.to ziemlich brauchbar
- 79 % scheint keine Genauigkeit zu sein, sondern eher eine Siegquote
Ich arbeite an einem Projekt, bei dem ein Shipibo-Spanisch-Wörterbuch in ein Shipibo-Englisch-Wörterbuch umgewandelt wird
Die Qualität der PDF-Scans ist nicht gut, und wegen des zweispaltigen Layouts sowie Headern und Footern scheitert OCR häufig
Es ist kompliziert, weil ich die Shipibo-Beispielsätze und die spanischen Definitionen trennen und nur ins Englische übersetzen muss
Jedes Mal, wenn es Neuigkeiten zu OCR oder LLMs gibt, probiere ich es aus und bin am Ende wieder enttäuscht
- Ich frage mich, ob du dich für die Erforschung der Ayahuasca-Tradition interessierst
  In der Shipibo-Kultur nahmen nicht gewöhnliche Menschen, sondern maestras Ayahuasca ein, um Krankheiten zu diagnostizieren
  Für jede Pflanze wurde eine dieta (Askese-Diät) eingehalten, mit Einschränkungen bei Seife, Sex, Salzaufnahme usw.
  Traditionell dauerte das oft mehr als ein Jahr, heute wurde es auf einige Wochen verkürzt
  Ich fand es beeindruckend, wie tief dort Pflanzenmedizin erforscht wird
Ich versuche, Mathematiklehrbücher in Markdown mit LaTeX-Formeln umzuwandeln, aber bisher gibt es noch kein OCR-Modell, das mich zufriedenstellt
Ich werde es direkt im OCR playground von Mistral testen
- Ich habe Tausende Dokumente mit dem Gemini Pro 3 Vision-Modell verarbeitet, und es war mit Abstand präziser als jedes OCR, das ich bisher genutzt habe
  Auch Formeln wurden perfekt in LaTeX umgewandelt
- Bitte teile unbedingt, wie die Ergebnisse waren
Ich suche nach In-Place-Übersetzung in Bildern
Mistral OCR3 ist auf Datenextraktion ausgerichtet und passt daher nicht zu meinem Anwendungsfall
Ich möchte Text in ausländischen Artbooks direkt auf dem Bild übersetzt anzeigen lassen, aber bestehende kostenpflichtige Dienste scheitern an nicht standardisierten Textlayouts
Derzeit halte ich Google Lens auf den Bildschirm, um zu übersetzen, aber das ist umständlich
Auch das in Chrome integrierte Lens erfordert eine manuelle Auswahl und ist daher nicht vollständig automatisch
Kennt jemand Neuigkeiten zu Fortschritten in diesem Bereich?
- Wenn bezahlt in Ordnung ist, sind DEEPL oder die Dokumentübersetzungsfunktion von Word durchaus brauchbar
Mistral wirkt in letzter Zeit so, als würde es nur noch die Randbereiche von AI-Funktionen verfolgen
Im Vergleich zu OAI, Google und Anthropic scheint es zurückzufallen, und Investitionen auf EU-Ebene wirken unzureichend
- Gerade praktische Funktionen wie Formularverarbeitung sind das, was Menschen tatsächlich brauchen
  Das ist viel wertvoller als Meme-Generierung
- Es ist riskant, den Marktführern einfach nur zu folgen
  Da sich noch kein Geschäftsmodell wirklich etabliert hat, ist es für Mistral sinnvoller, sich auf die Qualität der Kernmodelle zu konzentrieren
  Ein realistisches Ziel ist es, Talente in der EU zu halten und solide Modelle zu bauen
- Die EU ‘investiert’ stark in Mistral — die eine Hälfte über Besteuerung, die andere über Regulierungsdebatten
- Die EU-Regulierung bremst so sehr, dass am Ende wohl eine Übernahme durch ein US-Unternehmen droht
- Trotzdem finde ich es besser, als einfach nur das nachzumachen, was alle anderen tun
Ich habe Einschätzungen gesehen, dass Mistral schlechter abschneidet als mehrere Open-Source-OCRs wie Paddle, MinerU und MonkeyOCR
Siehe codesota.com/ocr
Ich teste Mistral als MathPix-Alternative
Dieses Python-Skript ist ein Prototyp für Windows, der nach dem Snipping ein Bild aus der Zwischenablage an Mistral sendet und das Markdown-Ergebnis automatisch einfügt
Das größte Problem von Mistral ist, dass auf Kundenanfragen nicht reagiert wird
Sich hinter „Preisanfrage“ zu verstecken, macht es wertlos, selbst wenn es besser als SoTA wäre
- Ich hasse auch persönliche Gespräche mit Vertriebsleuten aus tiefster Seele
  Ich würde eher einen teureren und schlechteren Dienst wählen, wenn ich mir diesen Prozess dadurch spare

Mistral OCR 3 vorgestellt

Wichtige Leistung und Merkmale

Leistungsverbesserung und Benchmarks

Wichtige Upgrade-Bereiche

Einsatzbeispiele und Anwendungsfelder

Zugangswege und Kompatibilität

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare