10 Punkte von calmlake79 2026-02-28 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Rust-basierte Open-Source-Engine zur Extraktion von PDF-Tabellen
  • Bestehende Python-Tools (Camelot, Tabula, pdfplumber) benötigen schwere Laufzeitabhängigkeiten wie OpenCV, Ghostscript und Java, was in serverlosen Umgebungen zu starken Speicherbeschränkungen führt
  • TREX läuft als einzelnes Binärprogramm ohne externe Abhängigkeiten und kann mit etwa 30 MB Speicher auf Cloud Run/Lambda ohne OOM ausgeführt werden
  • Unterstützt zwei integrierte Parsing-Strategien: Lattice (basierend auf Gitterlinien) / Stream (Koordinateninferenz); mit dem DL Router lässt sich pro Seite automatisch die optimale Strategie wählen
  • Der Deep-Learning-basierte DL Router analysiert Seitenmerkmale und wählt automatisch die optimale Parsing-Strategie (Lattice/Stream/Blend). Wenn während des Betriebs Ereignisse zu fehlgeschlagenen Extraktionen gesammelt und das ONNX-Modell neu trainiert wird, kann die Genauigkeit kontinuierlich verbessert werden
  • Kann unter Node.js direkt mit npm i @dreamyoungs/trex (CLI-Wrapper) oder npm i @dreamyoungs/trex-node (NAPI-RS Native Binding) verwendet werden
  • Unterstützt außerdem Docker REST API und Python-Bindings sowie eine Dual-Lizenz unter MIT / Apache-2.0

Noch keine Kommentare.

Noch keine Kommentare.