- Ein OCR-Modell der nächsten Generation, das Genauigkeit und Effizienz in der Dokumentenverarbeitung gleichzeitig verbessert und bei verschiedensten Dokumenttypen eine hohe Erkennungsleistung bietet
- Gegenüber der vorherigen Version wurde eine allgemeine Leistungssteigerung von 74 % erzielt, mit hervorragenden Ergebnissen bei Handschrift, Formularen, komplexen Tabellen und gescannten Dokumenten
- Durch HTML-basierte Tabellenrekonstruktion und Unterstützung für Markdown-Ausgabe lassen sich auch strukturelle Informationen von Dokumenten erhalten
- Mit 2 US-Dollar pro 1.000 Seiten und 50 % Rabatt bei Massenverarbeitung ist auch Kosteneffizienz gegeben
- Eine OCR-Technologie, die sich breit einsetzen lässt – von großen Unternehmens-Pipelines bis zu interaktiven Dokument-Workflows – und sich als zentrale Infrastruktur für generative KI-gestützte Datennutzung etabliert
Wichtige Leistung und Merkmale
- Mistral OCR 3 extrahiert mit hoher Präzision Text und eingebettete Bilder aus unterschiedlichsten Dokumenten
- Unterstützt Ausgabe im Markdown-Format und HTML-Tabellenrekonstruktion, sodass nicht nur Inhalte, sondern auch die Struktur von Dokumenten erkannt werden kann
- Dank kompakter Modellgröße wird es zu geringeren Kosten als konkurrierende Lösungen angeboten: 2 US-Dollar pro 1.000 Seiten, mit Batch API 1 US-Dollar
- Das Modell mistral-ocr-2512 kann per API integriert werden; über die UI von Document AI Playground lassen sich PDFs und Bilder in Text oder strukturiertes JSON umwandeln
Leistungsverbesserung und Benchmarks
- In internen Benchmarks wurde eine Gewinnrate von 74 % gegenüber Mistral OCR 2 erzielt
- Die Tests basierten auf realen Business-Anwendungsfällen von Kunden; die Genauigkeit wurde mit der fuzzy-match metric bewertet
- Erzielt eine Genauigkeit, die sowohl Enterprise-Lösungen für Dokumentenverarbeitung als auch KI-basierte OCR übertrifft
Wichtige Upgrade-Bereiche
- Handschrifterkennung: interpretiert Handschrift, gemischte Anmerkungen und handschriftliche Einträge auf gedruckten Formularen präzise
- Formularverarbeitung: verbesserte Erkennung von Kästchen, Labels, handschriftlichen Eingaben und komplexen Layouts
- Scans und komplexe Dokumente: hohe Robustheit gegenüber Kompressionsartefakten, Verzerrungen, niedriger Auflösung und Hintergrundrauschen
- Komplexe Tabellenstrukturen: vollständige Rekonstruktion von Tabellen mit Überschriften, verbundenen Zellen und Hierarchien über mehrere Zeilen und Spalten mittels HTML-Tags (
colspan/rowspan)
- Allgemeine Leistungsverbesserung gegenüber Mistral OCR 2 in allen Sprachen und Dokumentformen
Einsatzbeispiele und Anwendungsfelder
- Geeignet sowohl für groß angelegte Unternehmens-Dokumentenpipelines als auch für interaktive Dokument-Workflows
- Unterstützt unter anderem Extraktion von Text und Bildern mit anschließender Markdown-Konvertierung, automatisches Parsen von Formularen und Rechnungen, Aufbau von Document-Understanding-Pipelines sowie die Digitalisierung von Handschrift und historischen Dokumenten
- Erste Kunden nutzen es bereits, um Rechnungen in strukturierte Felder umzuwandeln, Unternehmensarchive zu digitalisieren, Text aus technischen und wissenschaftlichen Berichten zu extrahieren und die Enterprise-Suche zu verbessern
- Tim Law von IDC sagte: „OCR ist eine Basistechnologie für generative KI und agentische KI; hochpräzise und kostengünstige Textextraktion entscheidet über die Wettbewerbsfähigkeit bei der Datennutzung.“
Zugangswege und Kompatibilität
- Sofort nutzbar über API oder die Oberfläche von Document AI Playground
- Vollständig kompatibel mit Mistral OCR 2, sodass ein Upgrade in bestehenden Systemen problemlos möglich ist
- Weitere Details finden sich unter mistral.ai/docs
Noch keine Kommentare.