3 Punkte von GN⁺ 2024-11-17 | 1 Kommentare | Auf WhatsApp teilen
  • Projektvorstellung

    • Dieses Projekt ist ein Tool, das mit llama-ocr und Together AIOCR Bilder in strukturiertes Markdown umwandelt.
    • Nutzer können Bilder hochladen, Text extrahieren und in das Markdown-Format konvertieren.
  • Hauptfunktionen

    • Bietet eine Funktion zum Hochladen von Bildern
    • Extrahiert Text aus Bildern und wandelt ihn in Markdown um
    • Stellt Beispielbilder bereit, mit denen Nutzer die Funktionen testen können
  • Codebeispiel

    • Es wird ein Codebeispiel bereitgestellt, das mit der Bibliothek llama-ocr Text aus Bildern extrahiert.
    • Die Funktion ocr erzeugt Markdown, indem ihr der Pfad zur Bilddatei und der API-Schlüssel übergeben werden.
  • Bedeutung des Projekts

    • Dieses Projekt verbessert die Effizienz bei der Dokumentarbeit, indem es das einfache Extrahieren von Text aus Bildern und dessen Umwandlung in Markdown ermöglicht.
    • Im Vergleich zu bestehenden OCR-Tools bietet es eine besonders einfache Nutzung und eine Markdown-Konvertierungsfunktion.

1 Kommentare

 
GN⁺ 2024-11-17
Hacker-News-Kommentare
  • Der Autor von llama-ocr hat ein Tool entwickelt, das Bilder über eine einfache API in strukturiertes Markdown umwandelt. Künftig sind zusätzlich PDF-Parsing und JSON-Ausgabe geplant.

    • Beim Webtoon-Beispiel wurde ein Problem festgestellt, bei dem in Großbuchstaben gesetzte Dialoge je nach Panel unterschiedlich ausgegeben werden.
    • Es wurde zum Digitalisieren alter Folien verwendet; das Gelb der Folien war in Wirklichkeit ein White-Balance-Problem.
    • Als Beispiel für die Voreingenommenheit des Modells wurde eine Folie fälschlich als Antiquität erkannt, wodurch ein falscher Titel erzeugt wurde.
    • Dateigrößen- oder Auflösungsgrenzen der API sind nicht dokumentiert.
  • Zur Verarbeitung von Gebotsformularen einer Wohltätigkeitsauktion wurde llama3.2-vision verwendet; selbst bei schwer lesbarer Handschrift war es ziemlich genau.

    • Unpraktisch war, dass die Ausgabe nicht konsistent als CSV erfolgte.
    • Da der Umfang des Problems bei etwa 100 Seiten lag, war eine manuelle Bereinigung möglich.
  • Allgemeine OCR-Modelle eignen sich nicht gut zum Digitalisieren von Text in Familienfotos; Gemini Flash war am besten.

    • Es gibt aber weiterhin viele Fehler, sodass manuelle Arbeit schneller ist.
  • Es wird bezweifelt, ob dies für einen "Show HN"-Post geeignet ist, da der Bezug zum Namen Llama gering ist.

  • Ein mit einem genetischen Algorithmus erzeugter Satz wurde als echter Kreis gezeichnet, aber nicht als Text erkannt.

  • Es wurde eine mehrseitige PDF hochgeladen, woraufhin mitgeteilt wurde, dass dies nicht unterstützt wird.

  • Ein HN-Screenshot wurde hochgeladen, aber es wurde kein Markdown-Code ausgegeben.

  • Japanische OCR funktioniert über die ChatGPT API gut.

  • Auf einem Walmart-Kassenbon wurde die Zahl 9 fälschlich als 0 erkannt.