2 Punkte von GN⁺ 2025-12-20 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Ein OCR-Modell der nächsten Generation, das Genauigkeit und Effizienz in der Dokumentenverarbeitung gleichzeitig verbessert und bei verschiedensten Dokumenttypen eine hohe Erkennungsleistung bietet
  • Gegenüber der vorherigen Version wurde eine allgemeine Leistungssteigerung von 74 % erzielt, mit hervorragenden Ergebnissen bei Handschrift, Formularen, komplexen Tabellen und gescannten Dokumenten
  • Durch HTML-basierte Tabellenrekonstruktion und Unterstützung für Markdown-Ausgabe lassen sich auch strukturelle Informationen von Dokumenten erhalten
  • Mit 2 US-Dollar pro 1.000 Seiten und 50 % Rabatt bei Massenverarbeitung ist auch Kosteneffizienz gegeben
  • Eine OCR-Technologie, die sich breit einsetzen lässt – von großen Unternehmens-Pipelines bis zu interaktiven Dokument-Workflows – und sich als zentrale Infrastruktur für generative KI-gestützte Datennutzung etabliert

Wichtige Leistung und Merkmale

  • Mistral OCR 3 extrahiert mit hoher Präzision Text und eingebettete Bilder aus unterschiedlichsten Dokumenten
    • Unterstützt Ausgabe im Markdown-Format und HTML-Tabellenrekonstruktion, sodass nicht nur Inhalte, sondern auch die Struktur von Dokumenten erkannt werden kann
    • Dank kompakter Modellgröße wird es zu geringeren Kosten als konkurrierende Lösungen angeboten: 2 US-Dollar pro 1.000 Seiten, mit Batch API 1 US-Dollar
  • Das Modell mistral-ocr-2512 kann per API integriert werden; über die UI von Document AI Playground lassen sich PDFs und Bilder in Text oder strukturiertes JSON umwandeln

Leistungsverbesserung und Benchmarks

  • In internen Benchmarks wurde eine Gewinnrate von 74 % gegenüber Mistral OCR 2 erzielt
    • Die Tests basierten auf realen Business-Anwendungsfällen von Kunden; die Genauigkeit wurde mit der fuzzy-match metric bewertet
  • Erzielt eine Genauigkeit, die sowohl Enterprise-Lösungen für Dokumentenverarbeitung als auch KI-basierte OCR übertrifft

Wichtige Upgrade-Bereiche

  • Handschrifterkennung: interpretiert Handschrift, gemischte Anmerkungen und handschriftliche Einträge auf gedruckten Formularen präzise
  • Formularverarbeitung: verbesserte Erkennung von Kästchen, Labels, handschriftlichen Eingaben und komplexen Layouts
  • Scans und komplexe Dokumente: hohe Robustheit gegenüber Kompressionsartefakten, Verzerrungen, niedriger Auflösung und Hintergrundrauschen
  • Komplexe Tabellenstrukturen: vollständige Rekonstruktion von Tabellen mit Überschriften, verbundenen Zellen und Hierarchien über mehrere Zeilen und Spalten mittels HTML-Tags (colspan/rowspan)
  • Allgemeine Leistungsverbesserung gegenüber Mistral OCR 2 in allen Sprachen und Dokumentformen

Einsatzbeispiele und Anwendungsfelder

  • Geeignet sowohl für groß angelegte Unternehmens-Dokumentenpipelines als auch für interaktive Dokument-Workflows
    • Unterstützt unter anderem Extraktion von Text und Bildern mit anschließender Markdown-Konvertierung, automatisches Parsen von Formularen und Rechnungen, Aufbau von Document-Understanding-Pipelines sowie die Digitalisierung von Handschrift und historischen Dokumenten
  • Erste Kunden nutzen es bereits, um Rechnungen in strukturierte Felder umzuwandeln, Unternehmensarchive zu digitalisieren, Text aus technischen und wissenschaftlichen Berichten zu extrahieren und die Enterprise-Suche zu verbessern
  • Tim Law von IDC sagte: „OCR ist eine Basistechnologie für generative KI und agentische KI; hochpräzise und kostengünstige Textextraktion entscheidet über die Wettbewerbsfähigkeit bei der Datennutzung.“

Zugangswege und Kompatibilität

  • Sofort nutzbar über API oder die Oberfläche von Document AI Playground
  • Vollständig kompatibel mit Mistral OCR 2, sodass ein Upgrade in bestehenden Systemen problemlos möglich ist
  • Weitere Details finden sich unter mistral.ai/docs

Noch keine Kommentare.

Noch keine Kommentare.