1 Punkte von GN⁺ 3 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • Mistral OCR 4, vorgestellt von Mistral AI, ist ein Dokumentenverständnis-Modell, das über OCR hinausgeht, das nur Text aus Dokumenten extrahiert, und zusätzlich Bounding Boxes, Blockklassifizierung und Inline-Konfidenzwerte zurückgibt
  • Es unterstützt 170 Sprachen in 10 Sprachgruppen sowie Self-Hosting in einem einzelnen Container und eignet sich damit für Dokumentenerfassungs-Pipelines in Organisationen, für die Datensouveränität und Compliance wichtig sind
  • In Bewertungen nach menschlicher Präferenz erzielte es im Durchschnitt eine Gewinnrate von 72 % und erreichte auch in öffentlichen und internen Evaluierungen hohe Werte, darunter OlmOCRBench 85.20 und OmniDocBench 93.07
  • Wegen Bewertungsgrenzen wie Fehlern in den Referenzantworten, gleichwertiger Formelnotation, Lesereihenfolge bei mehrspaltigen Layouts und der Behandlung von Headern und Footern sollten Benchmark-Werte zusammen mit realen Dokumententests betrachtet werden
  • Die API kostet $4 pro 1.000 Seiten, die Batch API $2 und Document AI $5; für rohe Extraktion reicht OCR 4 aus, während für strukturiertes JSON, Bildannotation und Custom Prompts der Weg über Document AI passend ist

Strukturierte Dokumentrepräsentation, die OCR 4 zurückgibt

  • OCR 4 extrahiert und strukturiert Inhalte aus verschiedensten Dokumenten und bleibt nicht wie frühere Generationen bei sauberem Text und Tabellenumwandlung stehen, sondern liefert zusätzlich eine strukturierte Repräsentation
  • Jeder Block enthält Bounding Boxes, einen Blocktyp sowie Inline-Konfidenzwerte auf Seiten- und Wortebene
    • Nachgelagerte Systeme können dadurch nicht nur den Inhalt des Dokuments, sondern auch Position, Rolle und Vertrauensniveau jedes Elements nutzen
  • Wichtige Einsatzabläufe sind wie folgt
    • Semantisches Chunking für RAG: aufbereitete und klassifizierte Blöcke als Retrieval-Einheiten verwenden
    • Strukturprimitive für Agenten: Unterstützung bei Formularausfüllung, Rechnungsverarbeitung und Compliance-Prüfungen
    • Strukturierte Inhalte für Konnektoren: konsistente typisierte Ausgaben für Erfassungs- und Indexierungs-Pipelines

Formate, Sprachen und Bereitstellungsmodell

  • Zu den Eingabeformaten gehören gängige Enterprise-Dokumentformate wie PDF, DOC, PPT und OpenDocument
  • Unterstützt werden 170 Sprachen in 10 Sprachgruppen, darunter auch Fach- und Low-Resource-Sprachen, bei denen viele Systeme schwächer sind
  • Das Modell ist klein genug, um in einem einzelnen Container bereitgestellt zu werden, und eignet sich dadurch für kostenbewusste Umgebungen mit hohem Durchsatz
  • Es unterstützt vollständiges Self-Hosting, sodass Organisationen mit Anforderungen an Datensouveränität ihre Dokumentdaten in der eigenen Infrastruktur halten können
  • Self-Managed-Deployments werden für Enterprise-Kunden angeboten

Preise und Nutzungswege

  • Entwickler können das Modell per API integrieren, und Teams können dieselbe Engine über Document AI in Mistral Studio als No-Code-Anwendung nutzen
  • Die Preise sind wie folgt
    • OCR 4 API: $4 pro 1.000 Seiten
    • Mit 50-%-Rabatt über die Batch API: $2 pro 1.000 Seiten
    • Document AI: $5 pro 1.000 Seiten
  • OCR 4 ist als Erfassungskomponente in das Mistral Search Toolkit integriert und liefert zitierfähige Eingaben für Erfassungs-, Such- und Evaluierungs-Workflows für RAG und Enterprise Search

Evaluationsergebnisse und Benchmark-Grenzen

  • Die Evaluation von OCR 4 wurde im Vergleich zu AI-nativen OCR-Modellen, allgemeinen Frontier-Modellen, Enterprise-Dokumentdiensten und Mistral OCR 3 durchgeführt
  • Die Bewertung nach menschlicher Präferenz wurde so aufgebaut, dass sie reale Nutzung abbildet: mit mehr als 600 Dokumenten in über 12 Sprachen, wobei unabhängige Annotatoren die Ausgaben der Konkurrenzsysteme und von OCR 4 pro Dokument blind verglichen
    • Die Annotatoren bevorzugten OCR 4 bei den meisten Dokumenten gegenüber allen getesteten Systemen
    • Die durchschnittliche Gewinnrate beträgt 72 %
  • In der öffentlichen OlmOCRBench erreichte es mit 85.20 den höchsten Gesamtwert unter den getesteten Modellen
  • In der internen Crawl Multilingual evaluation lag es mit .98 vor AI-nativen und Enterprise-Lösungen
  • Der Wert in OmniDocBench beträgt 93.07, allerdings haben sowohl OlmOCRBench als auch OmniDocBench bekannte Grenzen bei der Bewertung bestimmter Ausgaben
  • Viele der geprüften Abweichungen entstehen eher aus der Benchmark-Vergleichsmethode als aus Modellfehlern
    • Fehler in den Referenzantworten: Referenzannotation kann fehlenden oder zusätzlichen Text, Transkriptionen verdeckter Bereiche oder Tippfehler enthalten
    • Gleichwertige Formelnotation: Selbst wenn LaTeX identisch rendert, wird eine unterschiedliche Zeichenfolge als Abweichung gewertet
    • Aufteilung von Formeln: Ob eine Formel als einzelner Ausdruck oder als mehrere Inline-Fragmente ausgegeben wird, kann das Referenz-Matching beeinflussen
    • Lesereihenfolge bei mehrspaltigen Layouts: Durch an Spaltengrenzen getrennte Wörter und Annahmen zur Spaltenreihenfolge kann auch korrekte Extraktion als Fehler gewertet werden
    • Zuordnung von Blocktypen: Selbst nachdem Header und Footer aus der Ausgabe entfernt wurden, kann der Test Zeichenfolgen wie Seitentitel fälschlich markieren
  • Diese Artefakte konzentrieren sich auf mathematische, wissenschaftliche und mehrspaltige Dokumente und bestrafen korrekte Ausgaben häufiger, statt fehlerhafte Ausgaben zu belohnen
  • Da alle Wettbewerberwerte aus internen Reproduktionen stammen, ist eine direkte Bewertung mit eigenen Dokumenten vor einer realen Einführung sicherer

Mehrsprachige Leistung

  • In internen mehrsprachigen Evaluierungen lag OCR 4 in allen 8 Sprachgruppen vorn
    • Englisch
    • Westeuropa
    • Osteuropa
    • Nahost
    • Chinesisch
    • Ostasien
    • Südostasien
    • Spezialisierte Sprachen wie Hindi, Japanisch, Georgisch, Bengalisch, Armenisch, Hebräisch, Griechisch, Gujarati, Tamil, Malayalam, Kannada und Telugu
  • Der Abstand war bei Fach- und Low-Resource-Sprachen am größten, und selbst in Bereichen, in denen viele Konkurrenzsysteme stark abbauen, hielt OCR 4 eine hohe Genauigkeit

Empfohlene Anwendungsfälle und ausgeschlossene Bereiche

  • OCR 4 unterstützt sowohl High-Throughput-Pipelines als auch interaktive Dokument-Workflows
  • Empfohlene Anwendungsfälle sind wie folgt
    • Dokumentparsing und -extraktion für komplexe mehrsprachige Dokumente
    • Erstellung strukturierter, klassifizierter und zitierfähiger Inhalte für RAG
    • Eingaben für Such-Pipelines in Kombination mit dem Search Toolkit
    • Agenten-Workflows wie Formularausfüllung, Rechnungsverarbeitung und Compliance-Prüfungen
    • Strukturierte Daten-Pipelines mit menschlicher Validierung auf Basis von Konfidenzwerten
    • Datenquellenkomponenten für Enterprise Search und Wissensdatenbanken
  • Erste Nutzer setzen OCR 4 bereits für die Umwandlung strukturierter Felder aus Rechnungen, die Digitalisierung von Unternehmensarchiven, die saubere Textextraktion aus technischen und wissenschaftlichen Berichten sowie für Enterprise Search ein
  • OCR 4 ist ein Dokumentenverständnis-Modell und kein Entscheidungsträger
    • Es ist nicht gedacht für medizinische Diagnosen, rechtliche Beratung oder Bewertungen, Finanzentscheidungen mit hohem Risiko, sicherheitskritische Systeme, Echtzeit- oder latenzsensitive Verarbeitung oder Nicht-Dokument-Eingaben wie Roh-Audio und -Video

Kriterien für die Wahl zwischen OCR 4 API und Document AI

  • OCR 4 wird über einen einzelnen API-Endpunkt bereitgestellt, und alle Anfragen führen dasselbe zugrunde liegende OCR-Modell aus
  • Die Standardantwort enthält immer extrahierte Inhalte, Bounding Boxes, Blocktypen, Konfidenzwerte und strukturierten Text in Markdown
  • Der reine Extraktionsmodus eignet sich für folgende Fälle
    • Schnelle und präzise Dokumentextraktion direkt in Anwendungen, Agenten und Daten-Pipelines einbetten
    • Eigene Nachverarbeitungslogik direkt auf Basis der Rohantwort, Bounding Boxes, Blocktypen und Konfidenzwerte aufbauen
    • Erfassung mit hohem Durchsatz oder im Batch-Modus, bei der sich Durchsatz und Kosten über die Batch API steuern lassen
    • Self-Hosting passend zu strengen Anforderungen an Datenschutz, Souveränität und Compliance
  • Document-AI-Funktionen werden durch zusätzliche Parameter am selben Endpunkt aktiviert
    • Wird zusammen mit dem Dokument ein JSON-Schema übergeben, wird die OCR-Ausgabe an mistral-small-2603 weitergeleitet, um strukturiertes JSON gemäß der angegebenen Spezifikation zu erzeugen
    • Wird ein Schema für Bildannotation übergeben, wird für jedes erkannte Bild ein zusätzlicher Vision-Language-Model-Aufruf ausgeführt, um strukturiertes JSON zu erzeugen
    • Mit einem JSON-Schema und einem Custom Prompt lässt sich die Interpretation oder Zusammenfassung der extrahierten Inhalte des gesamten Dokuments steuern
    • Business-Anwender, Solution-Teams und Pilotprojekte können so strukturierte Ergebnisse erzeugen, ohne separate Parsing-Logik für die Nachverarbeitung zu bauen
  • Wenn rohe Extraktionsinhalte benötigt werden, sollte OCR 4 direkt verwendet werden; wenn strukturierte Umformung, Annotation domänenspezifischer Felder oder die Verarbeitung von Custom Instructions erforderlich ist, werden zusätzliche Document-AI-Parameter ergänzt

Verfügbare Kanäle und Einstieg

  • Mistral OCRv4 und das auf OCRv4 basierende Document AI sind über die API, Mistral Studio, Amazon SageMaker und Microsoft Foundry verfügbar
  • Unterstützung für Snowflake Parse Document soll in Kürze folgen
  • Für Organisationen, die sensible Informationen in der eigenen Infrastruktur halten müssen, bietet OCR 4 auch eine Self-Hosting-Option
  • Zu den Einstiegsressourcen gehören

1 Kommentare

 
GN⁺ 3 시간 전
Hacker-News-Kommentare
  • Der US Postal Service wirkt immer wie ein technisches Wunder
    Er identifiziert und leitet mit deutlich primitiverer Technik Milliarden von Briefsendungen weiter, und US-Adressen sind absurd unstandardisiert, sodass selbst unterschiedlich geschriebene Varianten derselben Adresse oft trotzdem am selben Ort ankommen
    Vieles in diesem Bereich ist sicher öffentlich bekannt, aber wenn man sieht, was USPS über Jahre in diesem Maßstab geschafft hat, wirkt jede OCR-Ankündigung wie ein bereits gelöstes Problem

    • Mein Vater bekam einmal einen Brief aus Algerien, auf dessen Umschlag nur drei Wörter standen: sein Name, „Créteil“ (die Stadt mit damals etwa 100.000 Einwohnern, in der er lebte) und „France“
      Das war in den 1970ern, also ohne Internet und ohne zentrale Datenbank, und trotzdem wurde der Brief zugestellt
      Mein Vater war wegen seiner aktiven Sozialarbeit und weil er eine Jugendfußballmannschaft leitete in der Gegend recht bekannt, sodass der Name allein offenbar genügte
      Heute findet man Menschen oder Orte oft nicht mehr ohne Hilfe des Handys, und auch Briefträger hören nicht auf zu plaudern
      So ein Brief würde heute vermutlich weder den technischen Prozess noch wahrscheinlich das menschliche Netzwerk überstehen
    • Ich habe früher nebenbei bei der dänischen Post gearbeitet, und die automatische Sortierung ging nur bis zur Postleitzahl
      Wenn der Brief damit beim richtigen Postamt angekommen war, erledigten die Briefträger frühmorgens den Rest
      Es machte ziemlich Spaß zu erraten, was manche Adressen bedeuten sollten, und besonders ältere Mitarbeiter kannten oft die Geschichte dahinter, warum ein Ort so adressiert wurde, oder konnten allein anhand des Namens der Bewohner die Adresse erraten
    • Tom Scott hat dazu ein gutes Video gemacht: https://www.youtube.com/watch?v=XxCha4Kez9c
    • In US-Adressen gibt es viele seltsame Ausnahmen
      In Carmel-by-the-Sea gibt es keine Straßennummern, und Adressen in den Florida Keys bestehen oft einfach aus einer Meilenmarkierungsnummer
      Dass die Zustellung funktioniert, liegt daran, dass die zuständige Person die Route kennt
    • Aus Sicht indischer Adressstandards ist die fehlende Standardisierung von US-Adressen eher zum Lachen
  • Ich frage mich, ob es ein offenes Modell mit Fokus auf Kennzeichenerkennung gibt
    Ich habe ein paar ältere Modelle gefunden, frage mich aber, ob gerade etwas Neueres entwickelt wird, ähnlich wie diese OCR-Modelle
    Man könnte es auch direkt für diesen Zweck ausprobieren und die Leistung selbst prüfen

  • Das Video auf der verlinkten Seite war anders als erwartet
    Ich hatte Mistral als europäisches AI-Unternehmen im Kopf, deshalb war ich überrascht, dass das Video in San Francisco aufgenommen wurde und die drei gezeigten Personen auch nicht besonders europäisch wirkten
    Eine globale Organisation ist natürlich gut, aber ich hatte mit einem Pariser Büro und europäischem Akzent gerechnet

    • Leider sind europäische Kunden schwer dazu zu bringen, Geld auszugeben
      Sie haben viele Fragen und sehr enge Geldbeutel, während Amerikaner da anders sind
    • Jedes europäische Tech-Unternehmen mit einer gewissen Größe hat mindestens ein Westküstenbüro in den USA, schon allein wegen des Vertriebs
      Wahrscheinlich gehört auch Sales Engineering dazu
      Bei 8 bis 10 Stunden Zeitunterschied lässt sich das praktisch nicht vermeiden
      Bei einer Firma, bei der ich früher gearbeitet habe, gab es stattdessen ein Büro in Vancouver, in derselben Zeitzone
    • Bei Blackmagic Design ist es ähnlich
      Obwohl das Unternehmen größtenteils in Australien sitzt, wirken die Reihenfolge der Standorte und die Unternehmensseite unter https://www.blackmagicdesign.com/company/offices fast wie bei einer US-Firma
    • Soweit ich weiß, hat der Großteil des Gründerteams seine Karriere bei US-Unternehmen wie Meta begonnen, und die wichtigsten Investoren sind ebenfalls US-VCs
      In dieser Hinsicht nutzen sie ziemlich clever die Vorteile beider Seiten: US-Kapital und europäische Talente
    • Im Hintergrund hängt sogar gut sichtbar eine US-Flagge
  • Es wäre interessant zu sehen, wo dieses Modell im Vergleich zu https://github.com/baidu/Unlimited-OCR landet

  • 4 Dollar pro 1.000 Seiten ist günstig, aber die früheren Versionen lagen immer bei so etwas wie „98 % Genauigkeit auf Basis von 4 internen Benchmark-PDFs“ und waren in der Praxis fast allen Alternativen am Markt unterlegen, deshalb zögere ich, das erneut zu benchmarken
    Auch diesmal werden die repräsentativen Zahlen aus dem internen Benchmark hervorgehoben, während bei OlmOCRBench und OmniDocBench von „bekannten Einschränkungen“ die Rede ist
    https://getomni.ai/blog/benchmarking-open-source-models-for-ocr

    • Gleiches Fazit, aber nachdem ich ein paar Samples selbst durchlaufen ließ, gab es seit der Version vom Dezember 2025 tatsächlich reale Verbesserungen
  • Alle AI-Labore sollten wirklich aufhören, in Benchmark-Balkendiagrammen abgeschnittene y-Achsen zu verwenden
    https://mistral.ai/_astro/cm-engish_ZhlvoT.webp?dpl=6a3a94bd1f38530b2974c539

  • Ich habe es mit Malayalam getestet; normale Handschrift wurde korrekt erkannt, aber ein etwas anderer Stil wurde als Kannada erkannt
    Falls nötig, kann ich ein Sample bereitstellen, und Sarvam hat dasselbe Beispiel mit 99 % Genauigkeit verarbeitet, mit nur einem einzigen Textfehler

    • Mich würde interessieren, wie Sarvam außerhalb indischer Sprachen abschneidet
      Zum Beispiel bei Indian English, bei Dokumenten mit in lateinischer Schrift geschriebenen indischen Ausdrücken oder bei komplexen Layouts mit Bildern und Tabellen
      Ich hatte Interesse an indischen Diensten, aber preislich wirken sie etwas höher als erwartet, deshalb zögere ich noch
      Natürlich kann es auch sein, dass ich mich falsch erinnere
  • Im Vergleich zum früheren OCR-v3-Modell vom Dezember wird außer Bounding Boxes kaum ein Unterschied erklärt, der Preis ist aber doppelt so hoch: https://mistral.ai/news/mistral-ocr-3/
    Damals wurden andere Benchmarks verwendet

  • „Hinweis zur Nutzung außerhalb des vorgesehenen Bereichs. OCR 4 ist ein Modell zum Dokumentenverständnis und kein Entscheidungsträger. Es ist nicht für medizinische Diagnosen, Rechtsberatung oder -entscheidungen, risikoreiche Finanzentscheidungen, sicherheitskritische Systeme, Echtzeit-/latenzsensible Verarbeitung oder nicht-dokumentbasierte Eingaben (rohes Audio, Video usw.) gedacht.“
    Ich freue mich jetzt schon auf den „innovativen“ Manager, der im nächsten Meeting vorschlägt: „Okay, aber was wäre, wenn wir es für risikoreiche Finanzentscheidungen mit nicht-dokumentbasierten Eingaben wie Handyfotos einsetzen?“
    Ich wette, nächste Woche postet das jemand auf HN als „Idee“ in die Kommentare

    • Ich verstehe nicht, warum man das unbedingt tun wollte
      Es gibt dutzende bessere Modelle, und damit würde man im Vergleich nur miserable Ergebnisse bekommen
      Das ist kein Modell zum Beantworten von Fragen, sondern für Textumwandlung
      Es wirkt einfach so, als wolle man krampfhaft einen Anti-AI-Winkel konstruieren
    • Alle AI-Unternehmen bauen spezialisierte Modelle, die in einer bestimmten Aufgabe sehr stark sind
      Mistral kommuniziert das nur etwas ehrlicher, vermutlich weil sie das Publikum nicht mit einem allgemeinen User-Tool (Chat), das wie ein Experte für alles wirkt, beeindrucken müssen oder wollen
      In Wirklichkeit bestehen solche Tools auch ziemlich oft aus mehreren verketteten Spezialmodellen
      Was man hier will, lässt sich mit ein paar Python-Skripten umsetzen
      Mit Voxtral den Sprach-Prompt in Text umwandeln, ihn zusammen mit einem zusätzlichen System-Prompt an Mistral Large 3 geben, damit es einen Prompt für OCR und Dateipfade erzeugt, dann in einer Schleife die Dateien suchen und an OCR 3 schicken und das Ergebnis anschließend wieder mit Mistral Large 3 interpretieren und in eine Entscheidung überführen
      Solche Setups sind üblich, eher selten ist es, alles mit nur einem Modell zu erledigen
    • „Wir haben wichtige Finanzentscheidungen an OCR-Software delegiert, und Sie werden nicht glauben, was dann passierte“
  • Ich habe kürzlich versucht, mit Opus 4.8 OCR zu machen
    Genau genommen ist das nicht das richtige Tool dafür, aber ich musste nur das Datum aus Belegen extrahieren
    Es lag bei ungefähr 20 % der Daten falsch und bewertete trotzdem alles mit „hoher Zuversicht“
    Wahrscheinlich hätte ich ein auf OCR spezialisiertes Modell verwenden sollen

    • Das Extrahieren des Datums aus Belegen war doch schon vor etwa 30 Jahren weitgehend ein gelöstes Problem, oder?
      Selbst die Shareware-OCR-Tools, die früher bei Schwarzweißscannern dabei waren, waren vermutlich besser als 20 % Fehlerquote
    • Opus kenne ich nicht, aber bei Geminis OCR im Abo-Produkt scheint es nicht das Modell selbst zu machen
      Es scheint ein separates altes OCR-Tool zu verwenden, und die Testergebnisse waren schlecht
      In der Gemini API dagegen hat das Modell das OCR direkt gemacht, und die Genauigkeit war deutlich besser
    • Opus ist sehr gut in OCR
      Viel besser als kleine 1–4B Vision-Language-Modelle
      Wenn Opus gescheitert ist, dann scheitern solche kleinen Modelle wahrscheinlich größtenteils auch
    • Das fällt mir schwer zu glauben
      Ich habe kürzlich Hunderte PDFs mit teils katastrophaler Handschrift mit Opus 4.8 gescannt, und bis auf einen Eintrag, den nicht einmal ich selbst lesen konnte, hatte ich 100 % Erfolg