Mistral OCR 4 veröffentlicht

(mistral.ai)

1 Punkte von GN⁺ 3 시간 전 | 1 Kommentare | Auf WhatsApp teilen

Mistral OCR 4, vorgestellt von Mistral AI, ist ein Dokumentenverständnis-Modell, das über OCR hinausgeht, das nur Text aus Dokumenten extrahiert, und zusätzlich Bounding Boxes, Blockklassifizierung und Inline-Konfidenzwerte zurückgibt
Es unterstützt 170 Sprachen in 10 Sprachgruppen sowie Self-Hosting in einem einzelnen Container und eignet sich damit für Dokumentenerfassungs-Pipelines in Organisationen, für die Datensouveränität und Compliance wichtig sind
In Bewertungen nach menschlicher Präferenz erzielte es im Durchschnitt eine Gewinnrate von 72 % und erreichte auch in öffentlichen und internen Evaluierungen hohe Werte, darunter OlmOCRBench 85.20 und OmniDocBench 93.07
Wegen Bewertungsgrenzen wie Fehlern in den Referenzantworten, gleichwertiger Formelnotation, Lesereihenfolge bei mehrspaltigen Layouts und der Behandlung von Headern und Footern sollten Benchmark-Werte zusammen mit realen Dokumententests betrachtet werden
Die API kostet $4 pro 1.000 Seiten, die Batch API $2 und Document AI $5; für rohe Extraktion reicht OCR 4 aus, während für strukturiertes JSON, Bildannotation und Custom Prompts der Weg über Document AI passend ist

Strukturierte Dokumentrepräsentation, die OCR 4 zurückgibt

OCR 4 extrahiert und strukturiert Inhalte aus verschiedensten Dokumenten und bleibt nicht wie frühere Generationen bei sauberem Text und Tabellenumwandlung stehen, sondern liefert zusätzlich eine strukturierte Repräsentation
Jeder Block enthält Bounding Boxes, einen Blocktyp sowie Inline-Konfidenzwerte auf Seiten- und Wortebene
- Nachgelagerte Systeme können dadurch nicht nur den Inhalt des Dokuments, sondern auch Position, Rolle und Vertrauensniveau jedes Elements nutzen
Wichtige Einsatzabläufe sind wie folgt
- Semantisches Chunking für RAG: aufbereitete und klassifizierte Blöcke als Retrieval-Einheiten verwenden
- Strukturprimitive für Agenten: Unterstützung bei Formularausfüllung, Rechnungsverarbeitung und Compliance-Prüfungen
- Strukturierte Inhalte für Konnektoren: konsistente typisierte Ausgaben für Erfassungs- und Indexierungs-Pipelines

Formate, Sprachen und Bereitstellungsmodell

Zu den Eingabeformaten gehören gängige Enterprise-Dokumentformate wie PDF, DOC, PPT und OpenDocument
Unterstützt werden 170 Sprachen in 10 Sprachgruppen, darunter auch Fach- und Low-Resource-Sprachen, bei denen viele Systeme schwächer sind
Das Modell ist klein genug, um in einem einzelnen Container bereitgestellt zu werden, und eignet sich dadurch für kostenbewusste Umgebungen mit hohem Durchsatz
Es unterstützt vollständiges Self-Hosting, sodass Organisationen mit Anforderungen an Datensouveränität ihre Dokumentdaten in der eigenen Infrastruktur halten können
Self-Managed-Deployments werden für Enterprise-Kunden angeboten

Preise und Nutzungswege

Entwickler können das Modell per API integrieren, und Teams können dieselbe Engine über Document AI in Mistral Studio als No-Code-Anwendung nutzen
Die Preise sind wie folgt
- OCR 4 API: $4 pro 1.000 Seiten
- Mit 50-%-Rabatt über die Batch API: $2 pro 1.000 Seiten
- Document AI: $5 pro 1.000 Seiten
OCR 4 ist als Erfassungskomponente in das Mistral Search Toolkit integriert und liefert zitierfähige Eingaben für Erfassungs-, Such- und Evaluierungs-Workflows für RAG und Enterprise Search

Evaluationsergebnisse und Benchmark-Grenzen

Die Evaluation von OCR 4 wurde im Vergleich zu AI-nativen OCR-Modellen, allgemeinen Frontier-Modellen, Enterprise-Dokumentdiensten und Mistral OCR 3 durchgeführt
Die Bewertung nach menschlicher Präferenz wurde so aufgebaut, dass sie reale Nutzung abbildet: mit mehr als 600 Dokumenten in über 12 Sprachen, wobei unabhängige Annotatoren die Ausgaben der Konkurrenzsysteme und von OCR 4 pro Dokument blind verglichen
- Die Annotatoren bevorzugten OCR 4 bei den meisten Dokumenten gegenüber allen getesteten Systemen
- Die durchschnittliche Gewinnrate beträgt 72 %
In der öffentlichen OlmOCRBench erreichte es mit 85.20 den höchsten Gesamtwert unter den getesteten Modellen
In der internen Crawl Multilingual evaluation lag es mit .98 vor AI-nativen und Enterprise-Lösungen
Der Wert in OmniDocBench beträgt 93.07, allerdings haben sowohl OlmOCRBench als auch OmniDocBench bekannte Grenzen bei der Bewertung bestimmter Ausgaben
Viele der geprüften Abweichungen entstehen eher aus der Benchmark-Vergleichsmethode als aus Modellfehlern
- Fehler in den Referenzantworten: Referenzannotation kann fehlenden oder zusätzlichen Text, Transkriptionen verdeckter Bereiche oder Tippfehler enthalten
- Gleichwertige Formelnotation: Selbst wenn LaTeX identisch rendert, wird eine unterschiedliche Zeichenfolge als Abweichung gewertet
- Aufteilung von Formeln: Ob eine Formel als einzelner Ausdruck oder als mehrere Inline-Fragmente ausgegeben wird, kann das Referenz-Matching beeinflussen
- Lesereihenfolge bei mehrspaltigen Layouts: Durch an Spaltengrenzen getrennte Wörter und Annahmen zur Spaltenreihenfolge kann auch korrekte Extraktion als Fehler gewertet werden
- Zuordnung von Blocktypen: Selbst nachdem Header und Footer aus der Ausgabe entfernt wurden, kann der Test Zeichenfolgen wie Seitentitel fälschlich markieren
Diese Artefakte konzentrieren sich auf mathematische, wissenschaftliche und mehrspaltige Dokumente und bestrafen korrekte Ausgaben häufiger, statt fehlerhafte Ausgaben zu belohnen
Da alle Wettbewerberwerte aus internen Reproduktionen stammen, ist eine direkte Bewertung mit eigenen Dokumenten vor einer realen Einführung sicherer

Mehrsprachige Leistung

In internen mehrsprachigen Evaluierungen lag OCR 4 in allen 8 Sprachgruppen vorn
- Englisch
- Westeuropa
- Osteuropa
- Nahost
- Chinesisch
- Ostasien
- Südostasien
- Spezialisierte Sprachen wie Hindi, Japanisch, Georgisch, Bengalisch, Armenisch, Hebräisch, Griechisch, Gujarati, Tamil, Malayalam, Kannada und Telugu
Der Abstand war bei Fach- und Low-Resource-Sprachen am größten, und selbst in Bereichen, in denen viele Konkurrenzsysteme stark abbauen, hielt OCR 4 eine hohe Genauigkeit

Empfohlene Anwendungsfälle und ausgeschlossene Bereiche

OCR 4 unterstützt sowohl High-Throughput-Pipelines als auch interaktive Dokument-Workflows
Empfohlene Anwendungsfälle sind wie folgt
- Dokumentparsing und -extraktion für komplexe mehrsprachige Dokumente
- Erstellung strukturierter, klassifizierter und zitierfähiger Inhalte für RAG
- Eingaben für Such-Pipelines in Kombination mit dem Search Toolkit
- Agenten-Workflows wie Formularausfüllung, Rechnungsverarbeitung und Compliance-Prüfungen
- Strukturierte Daten-Pipelines mit menschlicher Validierung auf Basis von Konfidenzwerten
- Datenquellenkomponenten für Enterprise Search und Wissensdatenbanken
Erste Nutzer setzen OCR 4 bereits für die Umwandlung strukturierter Felder aus Rechnungen, die Digitalisierung von Unternehmensarchiven, die saubere Textextraktion aus technischen und wissenschaftlichen Berichten sowie für Enterprise Search ein
OCR 4 ist ein Dokumentenverständnis-Modell und kein Entscheidungsträger
- Es ist nicht gedacht für medizinische Diagnosen, rechtliche Beratung oder Bewertungen, Finanzentscheidungen mit hohem Risiko, sicherheitskritische Systeme, Echtzeit- oder latenzsensitive Verarbeitung oder Nicht-Dokument-Eingaben wie Roh-Audio und -Video

Kriterien für die Wahl zwischen OCR 4 API und Document AI

OCR 4 wird über einen einzelnen API-Endpunkt bereitgestellt, und alle Anfragen führen dasselbe zugrunde liegende OCR-Modell aus
Die Standardantwort enthält immer extrahierte Inhalte, Bounding Boxes, Blocktypen, Konfidenzwerte und strukturierten Text in Markdown
Der reine Extraktionsmodus eignet sich für folgende Fälle
- Schnelle und präzise Dokumentextraktion direkt in Anwendungen, Agenten und Daten-Pipelines einbetten
- Eigene Nachverarbeitungslogik direkt auf Basis der Rohantwort, Bounding Boxes, Blocktypen und Konfidenzwerte aufbauen
- Erfassung mit hohem Durchsatz oder im Batch-Modus, bei der sich Durchsatz und Kosten über die Batch API steuern lassen
- Self-Hosting passend zu strengen Anforderungen an Datenschutz, Souveränität und Compliance
Document-AI-Funktionen werden durch zusätzliche Parameter am selben Endpunkt aktiviert
- Wird zusammen mit dem Dokument ein JSON-Schema übergeben, wird die OCR-Ausgabe an mistral-small-2603 weitergeleitet, um strukturiertes JSON gemäß der angegebenen Spezifikation zu erzeugen
- Wird ein Schema für Bildannotation übergeben, wird für jedes erkannte Bild ein zusätzlicher Vision-Language-Model-Aufruf ausgeführt, um strukturiertes JSON zu erzeugen
- Mit einem JSON-Schema und einem Custom Prompt lässt sich die Interpretation oder Zusammenfassung der extrahierten Inhalte des gesamten Dokuments steuern
- Business-Anwender, Solution-Teams und Pilotprojekte können so strukturierte Ergebnisse erzeugen, ohne separate Parsing-Logik für die Nachverarbeitung zu bauen
Wenn rohe Extraktionsinhalte benötigt werden, sollte OCR 4 direkt verwendet werden; wenn strukturierte Umformung, Annotation domänenspezifischer Felder oder die Verarbeitung von Custom Instructions erforderlich ist, werden zusätzliche Document-AI-Parameter ergänzt

Verfügbare Kanäle und Einstieg

Mistral OCRv4 und das auf OCRv4 basierende Document AI sind über die API, Mistral Studio, Amazon SageMaker und Microsoft Foundry verfügbar
Unterstützung für Snowflake Parse Document soll in Kürze folgen
Für Organisationen, die sensible Informationen in der eigenen Infrastruktur halten müssen, bietet OCR 4 auch eine Self-Hosting-Option
Zu den Einstiegsressourcen gehören
- Getting Started with OCR 4 Cookbook: behandelt die erste Extraktion, die Arbeit mit Bounding Boxes und die Blockklassifizierung
- OCR4 in Production webinar: Demo und Q&A am 7. Juli um 18:00 Uhr CET
- Contact Sales: Anfrage für weitere Informationen

1 Kommentare

GN⁺ 3 시간 전

Hacker-News-Kommentare

Der US Postal Service wirkt immer wie ein technisches Wunder
Er identifiziert und leitet mit deutlich primitiverer Technik Milliarden von Briefsendungen weiter, und US-Adressen sind absurd unstandardisiert, sodass selbst unterschiedlich geschriebene Varianten derselben Adresse oft trotzdem am selben Ort ankommen
Vieles in diesem Bereich ist sicher öffentlich bekannt, aber wenn man sieht, was USPS über Jahre in diesem Maßstab geschafft hat, wirkt jede OCR-Ankündigung wie ein bereits gelöstes Problem
- Mein Vater bekam einmal einen Brief aus Algerien, auf dessen Umschlag nur drei Wörter standen: sein Name, „Créteil“ (die Stadt mit damals etwa 100.000 Einwohnern, in der er lebte) und „France“
  Das war in den 1970ern, also ohne Internet und ohne zentrale Datenbank, und trotzdem wurde der Brief zugestellt
  Mein Vater war wegen seiner aktiven Sozialarbeit und weil er eine Jugendfußballmannschaft leitete in der Gegend recht bekannt, sodass der Name allein offenbar genügte
  Heute findet man Menschen oder Orte oft nicht mehr ohne Hilfe des Handys, und auch Briefträger hören nicht auf zu plaudern
  So ein Brief würde heute vermutlich weder den technischen Prozess noch wahrscheinlich das menschliche Netzwerk überstehen
- Ich habe früher nebenbei bei der dänischen Post gearbeitet, und die automatische Sortierung ging nur bis zur Postleitzahl
  Wenn der Brief damit beim richtigen Postamt angekommen war, erledigten die Briefträger frühmorgens den Rest
  Es machte ziemlich Spaß zu erraten, was manche Adressen bedeuten sollten, und besonders ältere Mitarbeiter kannten oft die Geschichte dahinter, warum ein Ort so adressiert wurde, oder konnten allein anhand des Namens der Bewohner die Adresse erraten
- Tom Scott hat dazu ein gutes Video gemacht: https://www.youtube.com/watch?v=XxCha4Kez9c
- In US-Adressen gibt es viele seltsame Ausnahmen
  In Carmel-by-the-Sea gibt es keine Straßennummern, und Adressen in den Florida Keys bestehen oft einfach aus einer Meilenmarkierungsnummer
  Dass die Zustellung funktioniert, liegt daran, dass die zuständige Person die Route kennt
- Aus Sicht indischer Adressstandards ist die fehlende Standardisierung von US-Adressen eher zum Lachen
Ich frage mich, ob es ein offenes Modell mit Fokus auf Kennzeichenerkennung gibt
Ich habe ein paar ältere Modelle gefunden, frage mich aber, ob gerade etwas Neueres entwickelt wird, ähnlich wie diese OCR-Modelle
Man könnte es auch direkt für diesen Zweck ausprobieren und die Leistung selbst prüfen
Das Video auf der verlinkten Seite war anders als erwartet
Ich hatte Mistral als europäisches AI-Unternehmen im Kopf, deshalb war ich überrascht, dass das Video in San Francisco aufgenommen wurde und die drei gezeigten Personen auch nicht besonders europäisch wirkten
Eine globale Organisation ist natürlich gut, aber ich hatte mit einem Pariser Büro und europäischem Akzent gerechnet
- Leider sind europäische Kunden schwer dazu zu bringen, Geld auszugeben
  Sie haben viele Fragen und sehr enge Geldbeutel, während Amerikaner da anders sind
- Jedes europäische Tech-Unternehmen mit einer gewissen Größe hat mindestens ein Westküstenbüro in den USA, schon allein wegen des Vertriebs
  Wahrscheinlich gehört auch Sales Engineering dazu
  Bei 8 bis 10 Stunden Zeitunterschied lässt sich das praktisch nicht vermeiden
  Bei einer Firma, bei der ich früher gearbeitet habe, gab es stattdessen ein Büro in Vancouver, in derselben Zeitzone
- Bei Blackmagic Design ist es ähnlich
  Obwohl das Unternehmen größtenteils in Australien sitzt, wirken die Reihenfolge der Standorte und die Unternehmensseite unter https://www.blackmagicdesign.com/company/offices fast wie bei einer US-Firma
- Soweit ich weiß, hat der Großteil des Gründerteams seine Karriere bei US-Unternehmen wie Meta begonnen, und die wichtigsten Investoren sind ebenfalls US-VCs
  In dieser Hinsicht nutzen sie ziemlich clever die Vorteile beider Seiten: US-Kapital und europäische Talente
- Im Hintergrund hängt sogar gut sichtbar eine US-Flagge
Es wäre interessant zu sehen, wo dieses Modell im Vergleich zu https://github.com/baidu/Unlimited-OCR landet
- Stimmt, das wurde gerade angekündigt: https://x.com/BaiduAI_News/status/2069322806748410291
4 Dollar pro 1.000 Seiten ist günstig, aber die früheren Versionen lagen immer bei so etwas wie „98 % Genauigkeit auf Basis von 4 internen Benchmark-PDFs“ und waren in der Praxis fast allen Alternativen am Markt unterlegen, deshalb zögere ich, das erneut zu benchmarken
Auch diesmal werden die repräsentativen Zahlen aus dem internen Benchmark hervorgehoben, während bei OlmOCRBench und OmniDocBench von „bekannten Einschränkungen“ die Rede ist
https://getomni.ai/blog/benchmarking-open-source-models-for-ocr
- Gleiches Fazit, aber nachdem ich ein paar Samples selbst durchlaufen ließ, gab es seit der Version vom Dezember 2025 tatsächlich reale Verbesserungen
Alle AI-Labore sollten wirklich aufhören, in Benchmark-Balkendiagrammen abgeschnittene y-Achsen zu verwenden
https://mistral.ai/_astro/cm-engish_ZhlvoT.webp?dpl=6a3a94bd1f38530b2974c539
Ich habe es mit Malayalam getestet; normale Handschrift wurde korrekt erkannt, aber ein etwas anderer Stil wurde als Kannada erkannt
Falls nötig, kann ich ein Sample bereitstellen, und Sarvam hat dasselbe Beispiel mit 99 % Genauigkeit verarbeitet, mit nur einem einzigen Textfehler
- Mich würde interessieren, wie Sarvam außerhalb indischer Sprachen abschneidet
  Zum Beispiel bei Indian English, bei Dokumenten mit in lateinischer Schrift geschriebenen indischen Ausdrücken oder bei komplexen Layouts mit Bildern und Tabellen
  Ich hatte Interesse an indischen Diensten, aber preislich wirken sie etwas höher als erwartet, deshalb zögere ich noch
  Natürlich kann es auch sein, dass ich mich falsch erinnere
Im Vergleich zum früheren OCR-v3-Modell vom Dezember wird außer Bounding Boxes kaum ein Unterschied erklärt, der Preis ist aber doppelt so hoch: https://mistral.ai/news/mistral-ocr-3/
Damals wurden andere Benchmarks verwendet
„Hinweis zur Nutzung außerhalb des vorgesehenen Bereichs. OCR 4 ist ein Modell zum Dokumentenverständnis und kein Entscheidungsträger. Es ist nicht für medizinische Diagnosen, Rechtsberatung oder -entscheidungen, risikoreiche Finanzentscheidungen, sicherheitskritische Systeme, Echtzeit-/latenzsensible Verarbeitung oder nicht-dokumentbasierte Eingaben (rohes Audio, Video usw.) gedacht.“
Ich freue mich jetzt schon auf den „innovativen“ Manager, der im nächsten Meeting vorschlägt: „Okay, aber was wäre, wenn wir es für risikoreiche Finanzentscheidungen mit nicht-dokumentbasierten Eingaben wie Handyfotos einsetzen?“
Ich wette, nächste Woche postet das jemand auf HN als „Idee“ in die Kommentare
- Ich verstehe nicht, warum man das unbedingt tun wollte
  Es gibt dutzende bessere Modelle, und damit würde man im Vergleich nur miserable Ergebnisse bekommen
  Das ist kein Modell zum Beantworten von Fragen, sondern für Textumwandlung
  Es wirkt einfach so, als wolle man krampfhaft einen Anti-AI-Winkel konstruieren
- Alle AI-Unternehmen bauen spezialisierte Modelle, die in einer bestimmten Aufgabe sehr stark sind
  Mistral kommuniziert das nur etwas ehrlicher, vermutlich weil sie das Publikum nicht mit einem allgemeinen User-Tool (Chat), das wie ein Experte für alles wirkt, beeindrucken müssen oder wollen
  In Wirklichkeit bestehen solche Tools auch ziemlich oft aus mehreren verketteten Spezialmodellen
  Was man hier will, lässt sich mit ein paar Python-Skripten umsetzen
  Mit Voxtral den Sprach-Prompt in Text umwandeln, ihn zusammen mit einem zusätzlichen System-Prompt an Mistral Large 3 geben, damit es einen Prompt für OCR und Dateipfade erzeugt, dann in einer Schleife die Dateien suchen und an OCR 3 schicken und das Ergebnis anschließend wieder mit Mistral Large 3 interpretieren und in eine Entscheidung überführen
  Solche Setups sind üblich, eher selten ist es, alles mit nur einem Modell zu erledigen
- „Wir haben wichtige Finanzentscheidungen an OCR-Software delegiert, und Sie werden nicht glauben, was dann passierte“
Ich habe kürzlich versucht, mit Opus 4.8 OCR zu machen
Genau genommen ist das nicht das richtige Tool dafür, aber ich musste nur das Datum aus Belegen extrahieren
Es lag bei ungefähr 20 % der Daten falsch und bewertete trotzdem alles mit „hoher Zuversicht“
Wahrscheinlich hätte ich ein auf OCR spezialisiertes Modell verwenden sollen
- Das Extrahieren des Datums aus Belegen war doch schon vor etwa 30 Jahren weitgehend ein gelöstes Problem, oder?
  Selbst die Shareware-OCR-Tools, die früher bei Schwarzweißscannern dabei waren, waren vermutlich besser als 20 % Fehlerquote
- Opus kenne ich nicht, aber bei Geminis OCR im Abo-Produkt scheint es nicht das Modell selbst zu machen
  Es scheint ein separates altes OCR-Tool zu verwenden, und die Testergebnisse waren schlecht
  In der Gemini API dagegen hat das Modell das OCR direkt gemacht, und die Genauigkeit war deutlich besser
- Opus ist sehr gut in OCR
  Viel besser als kleine 1–4B Vision-Language-Modelle
  Wenn Opus gescheitert ist, dann scheitern solche kleinen Modelle wahrscheinlich größtenteils auch
- Das fällt mir schwer zu glauben
  Ich habe kürzlich Hunderte PDFs mit teils katastrophaler Handschrift mit Opus 4.8 gescannt, und bis auf einen Eintrag, den nicht einmal ich selbst lesen konnte, hatte ich 100 % Erfolg

Mistral OCR 4 veröffentlicht

Strukturierte Dokumentrepräsentation, die OCR 4 zurückgibt

Formate, Sprachen und Bereitstellungsmodell

Preise und Nutzungswege

Evaluationsergebnisse und Benchmark-Grenzen

Mehrsprachige Leistung

Empfohlene Anwendungsfälle und ausgeschlossene Bereiche

Kriterien für die Wahl zwischen OCR 4 API und Document AI

Verfügbare Kanäle und Einstieg

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare