2 Punkte von GN⁺ 2025-12-20 | 1 Kommentare | Auf WhatsApp teilen
  • Ein OCR-Modell der nächsten Generation, das Genauigkeit und Effizienz in der Dokumentenverarbeitung gleichzeitig verbessert und bei verschiedensten Dokumenttypen eine hohe Erkennungsleistung bietet
  • Gegenüber der vorherigen Version wurde eine allgemeine Leistungssteigerung von 74 % erzielt, mit hervorragenden Ergebnissen bei Handschrift, Formularen, komplexen Tabellen und gescannten Dokumenten
  • Durch HTML-basierte Tabellenrekonstruktion und Unterstützung für Markdown-Ausgabe lassen sich auch strukturelle Informationen von Dokumenten erhalten
  • Mit 2 US-Dollar pro 1.000 Seiten und 50 % Rabatt bei Massenverarbeitung ist auch Kosteneffizienz gegeben
  • Eine OCR-Technologie, die sich breit einsetzen lässt – von großen Unternehmens-Pipelines bis zu interaktiven Dokument-Workflows – und sich als zentrale Infrastruktur für generative KI-gestützte Datennutzung etabliert

Wichtige Leistung und Merkmale

  • Mistral OCR 3 extrahiert mit hoher Präzision Text und eingebettete Bilder aus unterschiedlichsten Dokumenten
    • Unterstützt Ausgabe im Markdown-Format und HTML-Tabellenrekonstruktion, sodass nicht nur Inhalte, sondern auch die Struktur von Dokumenten erkannt werden kann
    • Dank kompakter Modellgröße wird es zu geringeren Kosten als konkurrierende Lösungen angeboten: 2 US-Dollar pro 1.000 Seiten, mit Batch API 1 US-Dollar
  • Das Modell mistral-ocr-2512 kann per API integriert werden; über die UI von Document AI Playground lassen sich PDFs und Bilder in Text oder strukturiertes JSON umwandeln

Leistungsverbesserung und Benchmarks

  • In internen Benchmarks wurde eine Gewinnrate von 74 % gegenüber Mistral OCR 2 erzielt
    • Die Tests basierten auf realen Business-Anwendungsfällen von Kunden; die Genauigkeit wurde mit der fuzzy-match metric bewertet
  • Erzielt eine Genauigkeit, die sowohl Enterprise-Lösungen für Dokumentenverarbeitung als auch KI-basierte OCR übertrifft

Wichtige Upgrade-Bereiche

  • Handschrifterkennung: interpretiert Handschrift, gemischte Anmerkungen und handschriftliche Einträge auf gedruckten Formularen präzise
  • Formularverarbeitung: verbesserte Erkennung von Kästchen, Labels, handschriftlichen Eingaben und komplexen Layouts
  • Scans und komplexe Dokumente: hohe Robustheit gegenüber Kompressionsartefakten, Verzerrungen, niedriger Auflösung und Hintergrundrauschen
  • Komplexe Tabellenstrukturen: vollständige Rekonstruktion von Tabellen mit Überschriften, verbundenen Zellen und Hierarchien über mehrere Zeilen und Spalten mittels HTML-Tags (colspan/rowspan)
  • Allgemeine Leistungsverbesserung gegenüber Mistral OCR 2 in allen Sprachen und Dokumentformen

Einsatzbeispiele und Anwendungsfelder

  • Geeignet sowohl für groß angelegte Unternehmens-Dokumentenpipelines als auch für interaktive Dokument-Workflows
    • Unterstützt unter anderem Extraktion von Text und Bildern mit anschließender Markdown-Konvertierung, automatisches Parsen von Formularen und Rechnungen, Aufbau von Document-Understanding-Pipelines sowie die Digitalisierung von Handschrift und historischen Dokumenten
  • Erste Kunden nutzen es bereits, um Rechnungen in strukturierte Felder umzuwandeln, Unternehmensarchive zu digitalisieren, Text aus technischen und wissenschaftlichen Berichten zu extrahieren und die Enterprise-Suche zu verbessern
  • Tim Law von IDC sagte: „OCR ist eine Basistechnologie für generative KI und agentische KI; hochpräzise und kostengünstige Textextraktion entscheidet über die Wettbewerbsfähigkeit bei der Datennutzung.“

Zugangswege und Kompatibilität

  • Sofort nutzbar über API oder die Oberfläche von Document AI Playground
  • Vollständig kompatibel mit Mistral OCR 2, sodass ein Upgrade in bestehenden Systemen problemlos möglich ist
  • Weitere Details finden sich unter mistral.ai/docs

1 Kommentare

 
GN⁺ 2025-12-20
Hacker-News-Kommentare
  • Nachdem ich dieses Video auf Twitter gesehen habe, frage ich mich, warum Mistral nicht mit aktuellen SoTA-Modellen vergleicht
    Ein Vergleich mit Modellen wie Chandra, dots.ocr, olmOCR, MinerU, Monkey OCR und PaddleOCR wäre sinnvoll

    • Aus der Sicht von jemandem, der viel mit Dokumentenextraktion gearbeitet hat, ist der Ton des Tweets etwas störend, aber inhaltlich stimmt er
      Mistral vergleicht hier nicht mit VLM-basierten Modellen, sondern mit gewöhnlichen Computer-Vision-Diensten
      Erstere haben ein besseres Dokumentenverständnis, letztere liefern dafür präzise Bounding Boxes
      Auch die Fehlermuster unterscheiden sich — VLMs lesen manchmal ganze Sätze falsch, während Vision-Modelle eher Tippfehler innerhalb einzelner Wörter machen
    • Ich habe auf den Link geklickt, und Twitter wirkte auf mich deutlich seltsamer als früher
    • Ich würde auch gern einen Vergleich mit Qwen 3 VL 235B-A22B sehen. Meiner Erfahrung nach war das deutlich besser als MinerU
  • In den letzten drei Monaten sind extrem viele Open-Source-OCR-Modelle erschienen
    Besonders Modelle mit weniger als 1B Parametern laufen sogar auf Edge-Geräten gut
    Ein Vergleich mit Modellen wie paddleOCR-VL, olmOCR-2, chandra und dots.ocr wäre wünschenswert
    Schade, dass es kaum Leaderboards oder Arenen für OCR oder CV gibt

    • Vor etwa einem Monat wurde ein Projekt namens ocrarena.ai vorgestellt
      Es funktioniert ähnlich wie llmarena, also als direkter Vergleich zwischen Modellen, aber Mistral wurde dort noch nicht aktualisiert
      Aktuell liegt Gemini weit vorn
    • Der Vorteil von MistralOCR ist die einfache Preisstruktur — $1 pro 1.000 Seiten, mit servergehosteter API
      Andere OCR-Dienste rechnen tokenbasiert ab, was die tatsächlichen Kosten schwer kalkulierbar macht
      Zum Beispiel wirkt Gemini 3.0 flash auf den ersten Blick ähnlich teuer, ist aber auf Tokenbasis real eher etwa dreimal so teuer
    • Ich habe versucht, paddleOCR zu installieren, aber bei den 12 GB PyTorch-Abhängigkeiten wegen Versionskonflikten aufgegeben
      Danach habe ich Claude Root-Rechte gegeben und es stattdessen installieren lassen, und es schien dabei deutlich mehr Spaß zu haben als ich
      Bei der Installation von open web UI hatte ich eine ähnliche Erfahrung und habe am Ende die benötigten Funktionen einfach selbst in 100 Zeilen HTML gebaut
      Es wäre schön, wenn man OCR genauso einfach aufsetzen könnte
    • codesota.com/ocr ist ebenfalls einen Blick wert
  • Mistral OCR 3 soll zwar für groß angelegte Enterprise-Pipelines geeignet sein, aber mit 79 % Genauigkeit ist es schwer, dem zu vertrauen
    Für meine Arbeit mit wissenschaftlichen Fachzeitschriften sind Erkennungsfehler wie 2.9+0.5 statt 29+0.5 fatal
    Am Ende braucht man in jedem Schritt menschliche Prüfung

    • In solchen Fällen war datalab.to ziemlich brauchbar
    • 79 % scheint keine Genauigkeit zu sein, sondern eher eine Siegquote
  • Ich arbeite an einem Projekt, bei dem ein Shipibo-Spanisch-Wörterbuch in ein Shipibo-Englisch-Wörterbuch umgewandelt wird
    Die Qualität der PDF-Scans ist nicht gut, und wegen des zweispaltigen Layouts sowie Headern und Footern scheitert OCR häufig
    Es ist kompliziert, weil ich die Shipibo-Beispielsätze und die spanischen Definitionen trennen und nur ins Englische übersetzen muss
    Jedes Mal, wenn es Neuigkeiten zu OCR oder LLMs gibt, probiere ich es aus und bin am Ende wieder enttäuscht

    • Ich frage mich, ob du dich für die Erforschung der Ayahuasca-Tradition interessierst
      In der Shipibo-Kultur nahmen nicht gewöhnliche Menschen, sondern maestras Ayahuasca ein, um Krankheiten zu diagnostizieren
      Für jede Pflanze wurde eine dieta (Askese-Diät) eingehalten, mit Einschränkungen bei Seife, Sex, Salzaufnahme usw.
      Traditionell dauerte das oft mehr als ein Jahr, heute wurde es auf einige Wochen verkürzt
      Ich fand es beeindruckend, wie tief dort Pflanzenmedizin erforscht wird
  • Ich versuche, Mathematiklehrbücher in Markdown mit LaTeX-Formeln umzuwandeln, aber bisher gibt es noch kein OCR-Modell, das mich zufriedenstellt
    Ich werde es direkt im OCR playground von Mistral testen

    • Ich habe Tausende Dokumente mit dem Gemini Pro 3 Vision-Modell verarbeitet, und es war mit Abstand präziser als jedes OCR, das ich bisher genutzt habe
      Auch Formeln wurden perfekt in LaTeX umgewandelt
    • Bitte teile unbedingt, wie die Ergebnisse waren
  • Ich suche nach In-Place-Übersetzung in Bildern
    Mistral OCR3 ist auf Datenextraktion ausgerichtet und passt daher nicht zu meinem Anwendungsfall
    Ich möchte Text in ausländischen Artbooks direkt auf dem Bild übersetzt anzeigen lassen, aber bestehende kostenpflichtige Dienste scheitern an nicht standardisierten Textlayouts
    Derzeit halte ich Google Lens auf den Bildschirm, um zu übersetzen, aber das ist umständlich
    Auch das in Chrome integrierte Lens erfordert eine manuelle Auswahl und ist daher nicht vollständig automatisch
    Kennt jemand Neuigkeiten zu Fortschritten in diesem Bereich?

    • Wenn bezahlt in Ordnung ist, sind DEEPL oder die Dokumentübersetzungsfunktion von Word durchaus brauchbar
  • Mistral wirkt in letzter Zeit so, als würde es nur noch die Randbereiche von AI-Funktionen verfolgen
    Im Vergleich zu OAI, Google und Anthropic scheint es zurückzufallen, und Investitionen auf EU-Ebene wirken unzureichend

    • Gerade praktische Funktionen wie Formularverarbeitung sind das, was Menschen tatsächlich brauchen
      Das ist viel wertvoller als Meme-Generierung
    • Es ist riskant, den Marktführern einfach nur zu folgen
      Da sich noch kein Geschäftsmodell wirklich etabliert hat, ist es für Mistral sinnvoller, sich auf die Qualität der Kernmodelle zu konzentrieren
      Ein realistisches Ziel ist es, Talente in der EU zu halten und solide Modelle zu bauen
    • Die EU ‘investiert’ stark in Mistral — die eine Hälfte über Besteuerung, die andere über Regulierungsdebatten
    • Die EU-Regulierung bremst so sehr, dass am Ende wohl eine Übernahme durch ein US-Unternehmen droht
    • Trotzdem finde ich es besser, als einfach nur das nachzumachen, was alle anderen tun
  • Ich habe Einschätzungen gesehen, dass Mistral schlechter abschneidet als mehrere Open-Source-OCRs wie Paddle, MinerU und MonkeyOCR
    Siehe codesota.com/ocr

  • Ich teste Mistral als MathPix-Alternative
    Dieses Python-Skript ist ein Prototyp für Windows, der nach dem Snipping ein Bild aus der Zwischenablage an Mistral sendet und das Markdown-Ergebnis automatisch einfügt

  • Das größte Problem von Mistral ist, dass auf Kundenanfragen nicht reagiert wird
    Sich hinter „Preisanfrage“ zu verstecken, macht es wertlos, selbst wenn es besser als SoTA wäre

    • Ich hasse auch persönliche Gespräche mit Vertriebsleuten aus tiefster Seele
      Ich würde eher einen teureren und schlechteren Dienst wählen, wenn ich mir diesen Prozess dadurch spare