OCR4all – OCR für alle

(ocr4all.org)

39 Punkte von GN⁺ 2025-02-15 | 1 Kommentare | Auf WhatsApp teilen

Vollständig kostenlos und Open Source. Keine Abos / kostenpflichtigen Funktionen / versteckter Code
Flexibel einsetzbar – von der hochwertigen Verarbeitung anspruchsvoller Vorlagen bis zur Massenerkennung von Volltext in Druckwerken
Leistungsstarke Unterstützung für Layout- und Textannotation
- Mit dem LAREX-Editor lassen sich Layout- und Textelemente manuell annotieren, korrigieren oder vergleichen
Vollständig kompatibel mit dem OCR-D-Ökosystem
Auf Benutzerfreundlichkeit ausgelegt: Komplexe OCR-Workflows lassen sich über die UI erstellen, ohne Code oder CLI zu verwenden
Einfache plattformübergreifende Entwicklung: Unabhängig vom Betriebssystem mit Docker und einem einzigen Befehl ausführbar

1 Kommentare

GN⁺ 2025-02-15

Hacker-News-Kommentare

Komplexe Segmentierungs-Pipelines waren vor einigen Jahren nötig, sind jetzt aber fehleranfällig und nehmen dem Modell wichtigen Kontext. Für den Übergang zu Handschrift wird Kontext benötigt
- Um historische Handschriften zu entziffern, würden Fachleute sagen, dass das gesamte Dokument nötig ist
- Man muss bis zum Ende Texterkennung statt Zeichenerkennung betreiben
- Modelle mit CER zu bewerten, ist nicht sinnvoll
- Die Texterkennung wiederholt die Fehler, die maschinelle Übersetzung vor 15 Jahren gemacht hat
OCR4all ist Software zur Wiederherstellung und Erkennung digitaler Texte aus frühneuzeitlichen Druckwerken
- Komplexe Drucktypen und uneinheitliche Layouts testen die Fähigkeiten gewöhnlicher Software zur Texterkennung
- Es scheint auf Calamari-OCR aufzubauen
OCR4all adressiert die Bedürfnisse nichttechnischer Nutzer klar und intuitiv
- Es gibt Anweisungen, unter Linux ein Terminal zu öffnen und Befehle einzugeben
- Fraglich ist, wie das nichttechnischen Nutzern hilft
Apples Vision Framework bietet eine schnellere und genauere Bibliothek zur Texterkennung als Tesseract
- Es kann nahezu alle Bildformate verarbeiten
- Es wurde ein einfaches CLI-Tool und ein Python-Wrapper geschrieben
Die Kombination von Tesseract und LLMs zur Korrektur von Fehlern und zur Verbesserung der Formatierung ist derzeit der Sweet Spot bei Geschwindigkeit/Effizienz/Genauigkeit
- Durch Bearbeiten des englischen Prompt-Texts lassen sich dokumentenspezifische Aspekte priorisieren
Es wurde eine KI-gestützte OCR-API entwickelt
- Sie kombiniert Tesseract und Poppler-utils, um Dokumentsegmente intelligent zu extrahieren
- Sie lässt sich leicht auf mehrere Vision-LLM-Modelle erweitern
- Sie gibt eine vollständige KI-Agenten-API als Dockerized-Container aus
Dieser Workflow dient der Digitalisierung historischer Druckdokumente
- Es geht um die Bewahrung alter Bekanntmachungen in Frakturschrift
OCR4all bietet einen Workflow zur automatischen Texterkennung durch die Kombination verschiedener Open-Source-Lösungen
- Es scheint auf OCR-D zu basieren, das wiederum auf Tesseract, Kraken, DUP-ocropy und Calamari-OCR aufbaut
- Es scheint eine Open-Source-Alternative zu Transkribus zu sein
- eScriptorium ist eine weitere Alternative
Es ist unklar, ob es sich um eine neue SOTA-OCR-Engine oder um ein Tool handelt, das andere bekannte Engines nutzt
- Die Landingpage dürfte klarer sein
Ich dachte, OCR sei mit Tesseract weitgehend gelöst, suche aber nach einer Bibliothek oder Implementierung für MRC-Kompression in Ergebnis-PDFs
- Kommerzielle Produkte sind teuer, und das Trennen, Komprimieren und anschließende Zusammenführen von Bildebenen ist ein schwieriges Problem

OCR4all – OCR für alle

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare