39 Punkte von GN⁺ 2025-02-15 | 1 Kommentare | Auf WhatsApp teilen
  • Vollständig kostenlos und Open Source. Keine Abos / kostenpflichtigen Funktionen / versteckter Code
  • Flexibel einsetzbar – von der hochwertigen Verarbeitung anspruchsvoller Vorlagen bis zur Massenerkennung von Volltext in Druckwerken
  • Leistungsstarke Unterstützung für Layout- und Textannotation
    • Mit dem LAREX-Editor lassen sich Layout- und Textelemente manuell annotieren, korrigieren oder vergleichen
  • Vollständig kompatibel mit dem OCR-D-Ökosystem
  • Auf Benutzerfreundlichkeit ausgelegt: Komplexe OCR-Workflows lassen sich über die UI erstellen, ohne Code oder CLI zu verwenden
  • Einfache plattformübergreifende Entwicklung: Unabhängig vom Betriebssystem mit Docker und einem einzigen Befehl ausführbar

1 Kommentare

 
GN⁺ 2025-02-15
Hacker-News-Kommentare
  • Komplexe Segmentierungs-Pipelines waren vor einigen Jahren nötig, sind jetzt aber fehleranfällig und nehmen dem Modell wichtigen Kontext. Für den Übergang zu Handschrift wird Kontext benötigt

    • Um historische Handschriften zu entziffern, würden Fachleute sagen, dass das gesamte Dokument nötig ist
    • Man muss bis zum Ende Texterkennung statt Zeichenerkennung betreiben
    • Modelle mit CER zu bewerten, ist nicht sinnvoll
    • Die Texterkennung wiederholt die Fehler, die maschinelle Übersetzung vor 15 Jahren gemacht hat
  • OCR4all ist Software zur Wiederherstellung und Erkennung digitaler Texte aus frühneuzeitlichen Druckwerken

    • Komplexe Drucktypen und uneinheitliche Layouts testen die Fähigkeiten gewöhnlicher Software zur Texterkennung
    • Es scheint auf Calamari-OCR aufzubauen
  • OCR4all adressiert die Bedürfnisse nichttechnischer Nutzer klar und intuitiv

    • Es gibt Anweisungen, unter Linux ein Terminal zu öffnen und Befehle einzugeben
    • Fraglich ist, wie das nichttechnischen Nutzern hilft
  • Apples Vision Framework bietet eine schnellere und genauere Bibliothek zur Texterkennung als Tesseract

    • Es kann nahezu alle Bildformate verarbeiten
    • Es wurde ein einfaches CLI-Tool und ein Python-Wrapper geschrieben
  • Die Kombination von Tesseract und LLMs zur Korrektur von Fehlern und zur Verbesserung der Formatierung ist derzeit der Sweet Spot bei Geschwindigkeit/Effizienz/Genauigkeit

    • Durch Bearbeiten des englischen Prompt-Texts lassen sich dokumentenspezifische Aspekte priorisieren
  • Es wurde eine KI-gestützte OCR-API entwickelt

    • Sie kombiniert Tesseract und Poppler-utils, um Dokumentsegmente intelligent zu extrahieren
    • Sie lässt sich leicht auf mehrere Vision-LLM-Modelle erweitern
    • Sie gibt eine vollständige KI-Agenten-API als Dockerized-Container aus
  • Dieser Workflow dient der Digitalisierung historischer Druckdokumente

    • Es geht um die Bewahrung alter Bekanntmachungen in Frakturschrift
  • OCR4all bietet einen Workflow zur automatischen Texterkennung durch die Kombination verschiedener Open-Source-Lösungen

    • Es scheint auf OCR-D zu basieren, das wiederum auf Tesseract, Kraken, DUP-ocropy und Calamari-OCR aufbaut
    • Es scheint eine Open-Source-Alternative zu Transkribus zu sein
    • eScriptorium ist eine weitere Alternative
  • Es ist unklar, ob es sich um eine neue SOTA-OCR-Engine oder um ein Tool handelt, das andere bekannte Engines nutzt

    • Die Landingpage dürfte klarer sein
  • Ich dachte, OCR sei mit Tesseract weitgehend gelöst, suche aber nach einer Bibliothek oder Implementierung für MRC-Kompression in Ergebnis-PDFs

    • Kommerzielle Produkte sind teuer, und das Trennen, Komprimieren und anschließende Zusammenführen von Bildebenen ist ein schwieriges Problem