TREX – Mit Rust entwickelte Engine zur Extraktion von PDF-Tabellen (verbesserte Genauigkeit durch De

calmlake79 · 2026-02-28T23:52:42+09:00

Rust-basierte Open-Source-Engine zur Extraktion von PDF-Tabellen Bestehende Python-Tools (Camelot, Tabula, pdfplumber) benötigen schwere Laufzeitabhängigkeiten wie OpenCV, Ghostscript und Java, was in serverlosen Umgebungen zu starken Speicherbeschränkungen führt TREX läuft als einzelnes Binärprogramm ohne externe Abhängigkeiten und kann mit etwa 30 MB Speicher auf Cloud Run/Lambda ohne OOM ausgeführt werden Unterstützt zwei integrierte Parsing-Strategien: Lattice (basierend auf Gitterlinien) / Stream (Koordinateninferenz); mit dem DL Router lässt sich pro Seite automatisch die optimale Strategie wählen Der Deep-Learning-basierte DL Router analysiert Seitenmerkmale und wählt automatisch die optimale Parsing-Strategie (Lattice/Stream/Blend). Wenn während des Betriebs Ereignisse zu fehlgeschlagenen Extraktionen gesammelt und das ONNX-Modell neu trainiert wird, kann die Genauigkeit kontinuierlich verbessert werden Kann unter Node.js direkt mit npm i @dreamyoungs/trex (CLI-Wrapper) oder npm i @dreamyoungs/trex-node (NAPI-RS Native Binding) verwendet werden Unterstützt außerdem Docker REST API und Python-Bindings sowie eine Dual-Lizenz unter MIT / Apache-2.0

Rust-basierte Open-Source-Engine zur Extraktion von PDF-Tabellen
Bestehende Python-Tools (Camelot, Tabula, pdfplumber) benötigen schwere Laufzeitabhängigkeiten wie OpenCV, Ghostscript und Java, was in serverlosen Umgebungen zu starken Speicherbeschränkungen führt
TREX läuft als einzelnes Binärprogramm ohne externe Abhängigkeiten und kann mit etwa 30 MB Speicher auf Cloud Run/Lambda ohne OOM ausgeführt werden
Unterstützt zwei integrierte Parsing-Strategien: Lattice (basierend auf Gitterlinien) / Stream (Koordinateninferenz); mit dem DL Router lässt sich pro Seite automatisch die optimale Strategie wählen
Der Deep-Learning-basierte DL Router analysiert Seitenmerkmale und wählt automatisch die optimale Parsing-Strategie (Lattice/Stream/Blend). Wenn während des Betriebs Ereignisse zu fehlgeschlagenen Extraktionen gesammelt und das ONNX-Modell neu trainiert wird, kann die Genauigkeit kontinuierlich verbessert werden
Kann unter Node.js direkt mit npm i @dreamyoungs/trex (CLI-Wrapper) oder npm i @dreamyoungs/trex-node (NAPI-RS Native Binding) verwendet werden
Unterstützt außerdem Docker REST API und Python-Bindings sowie eine Dual-Lizenz unter MIT / Apache-2.0

TREX – Mit Rust entwickelte Engine zur Extraktion von PDF-Tabellen (verbesserte Genauigkeit durch Deep Learning)

Noch keine Kommentare.

TREX – Mit Rust entwickelte Engine zur Extraktion von PDF-Tabellen (verbesserte Genauigkeit durch Deep Learning)

Verwandte Beiträge

Noch keine Kommentare.