Mistral OCR 4 veröffentlicht
(mistral.ai)- Mistral OCR 4, vorgestellt von Mistral AI, ist ein Dokumentenverständnis-Modell, das über OCR hinausgeht, das nur Text aus Dokumenten extrahiert, und zusätzlich Bounding Boxes, Blockklassifizierung und Inline-Konfidenzwerte zurückgibt
- Es unterstützt 170 Sprachen in 10 Sprachgruppen sowie Self-Hosting in einem einzelnen Container und eignet sich damit für Dokumentenerfassungs-Pipelines in Organisationen, für die Datensouveränität und Compliance wichtig sind
- In Bewertungen nach menschlicher Präferenz erzielte es im Durchschnitt eine Gewinnrate von 72 % und erreichte auch in öffentlichen und internen Evaluierungen hohe Werte, darunter OlmOCRBench 85.20 und OmniDocBench 93.07
- Wegen Bewertungsgrenzen wie Fehlern in den Referenzantworten, gleichwertiger Formelnotation, Lesereihenfolge bei mehrspaltigen Layouts und der Behandlung von Headern und Footern sollten Benchmark-Werte zusammen mit realen Dokumententests betrachtet werden
- Die API kostet $4 pro 1.000 Seiten, die Batch API $2 und Document AI $5; für rohe Extraktion reicht OCR 4 aus, während für strukturiertes JSON, Bildannotation und Custom Prompts der Weg über Document AI passend ist
Strukturierte Dokumentrepräsentation, die OCR 4 zurückgibt
- OCR 4 extrahiert und strukturiert Inhalte aus verschiedensten Dokumenten und bleibt nicht wie frühere Generationen bei sauberem Text und Tabellenumwandlung stehen, sondern liefert zusätzlich eine strukturierte Repräsentation
- Jeder Block enthält Bounding Boxes, einen Blocktyp sowie Inline-Konfidenzwerte auf Seiten- und Wortebene
- Nachgelagerte Systeme können dadurch nicht nur den Inhalt des Dokuments, sondern auch Position, Rolle und Vertrauensniveau jedes Elements nutzen
- Wichtige Einsatzabläufe sind wie folgt
- Semantisches Chunking für RAG: aufbereitete und klassifizierte Blöcke als Retrieval-Einheiten verwenden
- Strukturprimitive für Agenten: Unterstützung bei Formularausfüllung, Rechnungsverarbeitung und Compliance-Prüfungen
- Strukturierte Inhalte für Konnektoren: konsistente typisierte Ausgaben für Erfassungs- und Indexierungs-Pipelines
Formate, Sprachen und Bereitstellungsmodell
- Zu den Eingabeformaten gehören gängige Enterprise-Dokumentformate wie PDF, DOC, PPT und OpenDocument
- Unterstützt werden 170 Sprachen in 10 Sprachgruppen, darunter auch Fach- und Low-Resource-Sprachen, bei denen viele Systeme schwächer sind
- Das Modell ist klein genug, um in einem einzelnen Container bereitgestellt zu werden, und eignet sich dadurch für kostenbewusste Umgebungen mit hohem Durchsatz
- Es unterstützt vollständiges Self-Hosting, sodass Organisationen mit Anforderungen an Datensouveränität ihre Dokumentdaten in der eigenen Infrastruktur halten können
- Self-Managed-Deployments werden für Enterprise-Kunden angeboten
Preise und Nutzungswege
- Entwickler können das Modell per API integrieren, und Teams können dieselbe Engine über Document AI in Mistral Studio als No-Code-Anwendung nutzen
- Die Preise sind wie folgt
- OCR 4 API: $4 pro 1.000 Seiten
- Mit 50-%-Rabatt über die Batch API: $2 pro 1.000 Seiten
- Document AI: $5 pro 1.000 Seiten
- OCR 4 ist als Erfassungskomponente in das Mistral Search Toolkit integriert und liefert zitierfähige Eingaben für Erfassungs-, Such- und Evaluierungs-Workflows für RAG und Enterprise Search
Evaluationsergebnisse und Benchmark-Grenzen
- Die Evaluation von OCR 4 wurde im Vergleich zu AI-nativen OCR-Modellen, allgemeinen Frontier-Modellen, Enterprise-Dokumentdiensten und Mistral OCR 3 durchgeführt
- Die Bewertung nach menschlicher Präferenz wurde so aufgebaut, dass sie reale Nutzung abbildet: mit mehr als 600 Dokumenten in über 12 Sprachen, wobei unabhängige Annotatoren die Ausgaben der Konkurrenzsysteme und von OCR 4 pro Dokument blind verglichen
- Die Annotatoren bevorzugten OCR 4 bei den meisten Dokumenten gegenüber allen getesteten Systemen
- Die durchschnittliche Gewinnrate beträgt 72 %
- In der öffentlichen OlmOCRBench erreichte es mit 85.20 den höchsten Gesamtwert unter den getesteten Modellen
- In der internen Crawl Multilingual evaluation lag es mit .98 vor AI-nativen und Enterprise-Lösungen
- Der Wert in OmniDocBench beträgt 93.07, allerdings haben sowohl OlmOCRBench als auch OmniDocBench bekannte Grenzen bei der Bewertung bestimmter Ausgaben
- Viele der geprüften Abweichungen entstehen eher aus der Benchmark-Vergleichsmethode als aus Modellfehlern
- Fehler in den Referenzantworten: Referenzannotation kann fehlenden oder zusätzlichen Text, Transkriptionen verdeckter Bereiche oder Tippfehler enthalten
- Gleichwertige Formelnotation: Selbst wenn LaTeX identisch rendert, wird eine unterschiedliche Zeichenfolge als Abweichung gewertet
- Aufteilung von Formeln: Ob eine Formel als einzelner Ausdruck oder als mehrere Inline-Fragmente ausgegeben wird, kann das Referenz-Matching beeinflussen
- Lesereihenfolge bei mehrspaltigen Layouts: Durch an Spaltengrenzen getrennte Wörter und Annahmen zur Spaltenreihenfolge kann auch korrekte Extraktion als Fehler gewertet werden
- Zuordnung von Blocktypen: Selbst nachdem Header und Footer aus der Ausgabe entfernt wurden, kann der Test Zeichenfolgen wie Seitentitel fälschlich markieren
- Diese Artefakte konzentrieren sich auf mathematische, wissenschaftliche und mehrspaltige Dokumente und bestrafen korrekte Ausgaben häufiger, statt fehlerhafte Ausgaben zu belohnen
- Da alle Wettbewerberwerte aus internen Reproduktionen stammen, ist eine direkte Bewertung mit eigenen Dokumenten vor einer realen Einführung sicherer
Mehrsprachige Leistung
- In internen mehrsprachigen Evaluierungen lag OCR 4 in allen 8 Sprachgruppen vorn
- Englisch
- Westeuropa
- Osteuropa
- Nahost
- Chinesisch
- Ostasien
- Südostasien
- Spezialisierte Sprachen wie Hindi, Japanisch, Georgisch, Bengalisch, Armenisch, Hebräisch, Griechisch, Gujarati, Tamil, Malayalam, Kannada und Telugu
- Der Abstand war bei Fach- und Low-Resource-Sprachen am größten, und selbst in Bereichen, in denen viele Konkurrenzsysteme stark abbauen, hielt OCR 4 eine hohe Genauigkeit
Empfohlene Anwendungsfälle und ausgeschlossene Bereiche
- OCR 4 unterstützt sowohl High-Throughput-Pipelines als auch interaktive Dokument-Workflows
- Empfohlene Anwendungsfälle sind wie folgt
- Dokumentparsing und -extraktion für komplexe mehrsprachige Dokumente
- Erstellung strukturierter, klassifizierter und zitierfähiger Inhalte für RAG
- Eingaben für Such-Pipelines in Kombination mit dem Search Toolkit
- Agenten-Workflows wie Formularausfüllung, Rechnungsverarbeitung und Compliance-Prüfungen
- Strukturierte Daten-Pipelines mit menschlicher Validierung auf Basis von Konfidenzwerten
- Datenquellenkomponenten für Enterprise Search und Wissensdatenbanken
- Erste Nutzer setzen OCR 4 bereits für die Umwandlung strukturierter Felder aus Rechnungen, die Digitalisierung von Unternehmensarchiven, die saubere Textextraktion aus technischen und wissenschaftlichen Berichten sowie für Enterprise Search ein
- OCR 4 ist ein Dokumentenverständnis-Modell und kein Entscheidungsträger
- Es ist nicht gedacht für medizinische Diagnosen, rechtliche Beratung oder Bewertungen, Finanzentscheidungen mit hohem Risiko, sicherheitskritische Systeme, Echtzeit- oder latenzsensitive Verarbeitung oder Nicht-Dokument-Eingaben wie Roh-Audio und -Video
Kriterien für die Wahl zwischen OCR 4 API und Document AI
- OCR 4 wird über einen einzelnen API-Endpunkt bereitgestellt, und alle Anfragen führen dasselbe zugrunde liegende OCR-Modell aus
- Die Standardantwort enthält immer extrahierte Inhalte, Bounding Boxes, Blocktypen, Konfidenzwerte und strukturierten Text in Markdown
- Der reine Extraktionsmodus eignet sich für folgende Fälle
- Schnelle und präzise Dokumentextraktion direkt in Anwendungen, Agenten und Daten-Pipelines einbetten
- Eigene Nachverarbeitungslogik direkt auf Basis der Rohantwort, Bounding Boxes, Blocktypen und Konfidenzwerte aufbauen
- Erfassung mit hohem Durchsatz oder im Batch-Modus, bei der sich Durchsatz und Kosten über die Batch API steuern lassen
- Self-Hosting passend zu strengen Anforderungen an Datenschutz, Souveränität und Compliance
- Document-AI-Funktionen werden durch zusätzliche Parameter am selben Endpunkt aktiviert
- Wird zusammen mit dem Dokument ein JSON-Schema übergeben, wird die OCR-Ausgabe an
mistral-small-2603weitergeleitet, um strukturiertes JSON gemäß der angegebenen Spezifikation zu erzeugen - Wird ein Schema für Bildannotation übergeben, wird für jedes erkannte Bild ein zusätzlicher Vision-Language-Model-Aufruf ausgeführt, um strukturiertes JSON zu erzeugen
- Mit einem JSON-Schema und einem Custom Prompt lässt sich die Interpretation oder Zusammenfassung der extrahierten Inhalte des gesamten Dokuments steuern
- Business-Anwender, Solution-Teams und Pilotprojekte können so strukturierte Ergebnisse erzeugen, ohne separate Parsing-Logik für die Nachverarbeitung zu bauen
- Wird zusammen mit dem Dokument ein JSON-Schema übergeben, wird die OCR-Ausgabe an
- Wenn rohe Extraktionsinhalte benötigt werden, sollte OCR 4 direkt verwendet werden; wenn strukturierte Umformung, Annotation domänenspezifischer Felder oder die Verarbeitung von Custom Instructions erforderlich ist, werden zusätzliche Document-AI-Parameter ergänzt
Verfügbare Kanäle und Einstieg
- Mistral OCRv4 und das auf OCRv4 basierende Document AI sind über die API, Mistral Studio, Amazon SageMaker und Microsoft Foundry verfügbar
- Unterstützung für Snowflake Parse Document soll in Kürze folgen
- Für Organisationen, die sensible Informationen in der eigenen Infrastruktur halten müssen, bietet OCR 4 auch eine Self-Hosting-Option
- Zu den Einstiegsressourcen gehören
- Getting Started with OCR 4 Cookbook: behandelt die erste Extraktion, die Arbeit mit Bounding Boxes und die Blockklassifizierung
- OCR4 in Production webinar: Demo und Q&A am 7. Juli um 18:00 Uhr CET
- Contact Sales: Anfrage für weitere Informationen
1 Kommentare
Hacker-News-Kommentare
Der US Postal Service wirkt immer wie ein technisches Wunder
Er identifiziert und leitet mit deutlich primitiverer Technik Milliarden von Briefsendungen weiter, und US-Adressen sind absurd unstandardisiert, sodass selbst unterschiedlich geschriebene Varianten derselben Adresse oft trotzdem am selben Ort ankommen
Vieles in diesem Bereich ist sicher öffentlich bekannt, aber wenn man sieht, was USPS über Jahre in diesem Maßstab geschafft hat, wirkt jede OCR-Ankündigung wie ein bereits gelöstes Problem
Das war in den 1970ern, also ohne Internet und ohne zentrale Datenbank, und trotzdem wurde der Brief zugestellt
Mein Vater war wegen seiner aktiven Sozialarbeit und weil er eine Jugendfußballmannschaft leitete in der Gegend recht bekannt, sodass der Name allein offenbar genügte
Heute findet man Menschen oder Orte oft nicht mehr ohne Hilfe des Handys, und auch Briefträger hören nicht auf zu plaudern
So ein Brief würde heute vermutlich weder den technischen Prozess noch wahrscheinlich das menschliche Netzwerk überstehen
Wenn der Brief damit beim richtigen Postamt angekommen war, erledigten die Briefträger frühmorgens den Rest
Es machte ziemlich Spaß zu erraten, was manche Adressen bedeuten sollten, und besonders ältere Mitarbeiter kannten oft die Geschichte dahinter, warum ein Ort so adressiert wurde, oder konnten allein anhand des Namens der Bewohner die Adresse erraten
In Carmel-by-the-Sea gibt es keine Straßennummern, und Adressen in den Florida Keys bestehen oft einfach aus einer Meilenmarkierungsnummer
Dass die Zustellung funktioniert, liegt daran, dass die zuständige Person die Route kennt
Ich frage mich, ob es ein offenes Modell mit Fokus auf Kennzeichenerkennung gibt
Ich habe ein paar ältere Modelle gefunden, frage mich aber, ob gerade etwas Neueres entwickelt wird, ähnlich wie diese OCR-Modelle
Man könnte es auch direkt für diesen Zweck ausprobieren und die Leistung selbst prüfen
Das Video auf der verlinkten Seite war anders als erwartet
Ich hatte Mistral als europäisches AI-Unternehmen im Kopf, deshalb war ich überrascht, dass das Video in San Francisco aufgenommen wurde und die drei gezeigten Personen auch nicht besonders europäisch wirkten
Eine globale Organisation ist natürlich gut, aber ich hatte mit einem Pariser Büro und europäischem Akzent gerechnet
Sie haben viele Fragen und sehr enge Geldbeutel, während Amerikaner da anders sind
Wahrscheinlich gehört auch Sales Engineering dazu
Bei 8 bis 10 Stunden Zeitunterschied lässt sich das praktisch nicht vermeiden
Bei einer Firma, bei der ich früher gearbeitet habe, gab es stattdessen ein Büro in Vancouver, in derselben Zeitzone
Obwohl das Unternehmen größtenteils in Australien sitzt, wirken die Reihenfolge der Standorte und die Unternehmensseite unter https://www.blackmagicdesign.com/company/offices fast wie bei einer US-Firma
In dieser Hinsicht nutzen sie ziemlich clever die Vorteile beider Seiten: US-Kapital und europäische Talente
Es wäre interessant zu sehen, wo dieses Modell im Vergleich zu https://github.com/baidu/Unlimited-OCR landet
4 Dollar pro 1.000 Seiten ist günstig, aber die früheren Versionen lagen immer bei so etwas wie „98 % Genauigkeit auf Basis von 4 internen Benchmark-PDFs“ und waren in der Praxis fast allen Alternativen am Markt unterlegen, deshalb zögere ich, das erneut zu benchmarken
Auch diesmal werden die repräsentativen Zahlen aus dem internen Benchmark hervorgehoben, während bei OlmOCRBench und OmniDocBench von „bekannten Einschränkungen“ die Rede ist
https://getomni.ai/blog/benchmarking-open-source-models-for-ocr
Alle AI-Labore sollten wirklich aufhören, in Benchmark-Balkendiagrammen abgeschnittene y-Achsen zu verwenden
https://mistral.ai/_astro/cm-engish_ZhlvoT.webp?dpl=6a3a94bd1f38530b2974c539
Ich habe es mit Malayalam getestet; normale Handschrift wurde korrekt erkannt, aber ein etwas anderer Stil wurde als Kannada erkannt
Falls nötig, kann ich ein Sample bereitstellen, und Sarvam hat dasselbe Beispiel mit 99 % Genauigkeit verarbeitet, mit nur einem einzigen Textfehler
Zum Beispiel bei Indian English, bei Dokumenten mit in lateinischer Schrift geschriebenen indischen Ausdrücken oder bei komplexen Layouts mit Bildern und Tabellen
Ich hatte Interesse an indischen Diensten, aber preislich wirken sie etwas höher als erwartet, deshalb zögere ich noch
Natürlich kann es auch sein, dass ich mich falsch erinnere
Im Vergleich zum früheren OCR-v3-Modell vom Dezember wird außer Bounding Boxes kaum ein Unterschied erklärt, der Preis ist aber doppelt so hoch: https://mistral.ai/news/mistral-ocr-3/
Damals wurden andere Benchmarks verwendet
„Hinweis zur Nutzung außerhalb des vorgesehenen Bereichs. OCR 4 ist ein Modell zum Dokumentenverständnis und kein Entscheidungsträger. Es ist nicht für medizinische Diagnosen, Rechtsberatung oder -entscheidungen, risikoreiche Finanzentscheidungen, sicherheitskritische Systeme, Echtzeit-/latenzsensible Verarbeitung oder nicht-dokumentbasierte Eingaben (rohes Audio, Video usw.) gedacht.“
Ich freue mich jetzt schon auf den „innovativen“ Manager, der im nächsten Meeting vorschlägt: „Okay, aber was wäre, wenn wir es für risikoreiche Finanzentscheidungen mit nicht-dokumentbasierten Eingaben wie Handyfotos einsetzen?“
Ich wette, nächste Woche postet das jemand auf HN als „Idee“ in die Kommentare
Es gibt dutzende bessere Modelle, und damit würde man im Vergleich nur miserable Ergebnisse bekommen
Das ist kein Modell zum Beantworten von Fragen, sondern für Textumwandlung
Es wirkt einfach so, als wolle man krampfhaft einen Anti-AI-Winkel konstruieren
Mistral kommuniziert das nur etwas ehrlicher, vermutlich weil sie das Publikum nicht mit einem allgemeinen User-Tool (Chat), das wie ein Experte für alles wirkt, beeindrucken müssen oder wollen
In Wirklichkeit bestehen solche Tools auch ziemlich oft aus mehreren verketteten Spezialmodellen
Was man hier will, lässt sich mit ein paar Python-Skripten umsetzen
Mit Voxtral den Sprach-Prompt in Text umwandeln, ihn zusammen mit einem zusätzlichen System-Prompt an Mistral Large 3 geben, damit es einen Prompt für OCR und Dateipfade erzeugt, dann in einer Schleife die Dateien suchen und an OCR 3 schicken und das Ergebnis anschließend wieder mit Mistral Large 3 interpretieren und in eine Entscheidung überführen
Solche Setups sind üblich, eher selten ist es, alles mit nur einem Modell zu erledigen
Ich habe kürzlich versucht, mit Opus 4.8 OCR zu machen
Genau genommen ist das nicht das richtige Tool dafür, aber ich musste nur das Datum aus Belegen extrahieren
Es lag bei ungefähr 20 % der Daten falsch und bewertete trotzdem alles mit „hoher Zuversicht“
Wahrscheinlich hätte ich ein auf OCR spezialisiertes Modell verwenden sollen
Selbst die Shareware-OCR-Tools, die früher bei Schwarzweißscannern dabei waren, waren vermutlich besser als 20 % Fehlerquote
Es scheint ein separates altes OCR-Tool zu verwenden, und die Testergebnisse waren schlecht
In der Gemini API dagegen hat das Modell das OCR direkt gemacht, und die Genauigkeit war deutlich besser
Viel besser als kleine 1–4B Vision-Language-Modelle
Wenn Opus gescheitert ist, dann scheitern solche kleinen Modelle wahrscheinlich größtenteils auch
Ich habe kürzlich Hunderte PDFs mit teils katastrophaler Handschrift mit Opus 4.8 gescannt, und bis auf einen Eintrag, den nicht einmal ich selbst lesen konnte, hatte ich 100 % Erfolg