Launch HN: Trellis – KI-gestützte Workflows für unstrukturierte Daten

(news.ycombinator.com)

6 Punkte von GN⁺ 2024-08-15 | 1 Kommentare | Auf WhatsApp teilen

Trellis ist ein KI-gestütztes ETL-Tool (Extract, Transform, Load) für unstrukturierte Daten
Es wandelt Telefonate, PDFs und Chat-Inhalte entsprechend einem von Nutzern in natürlicher Sprache definierten Schema in strukturierte SQL-Formate um
Es hilft Daten- und Operations-Teams dabei, manuelle Dateneingaben zu automatisieren und komplexe Daten mit SQL-Abfragen zu verarbeiten

Hintergrund zur Entwicklung von Trellis

Nach ihrem Kennenlernen am Stanford AI Lab arbeiteten sie mit den Datenteams mehrerer Großunternehmen zusammen und stießen dabei auf das Problem unstrukturierter Daten
80 % der Unternehmensdaten bestehen aus unstrukturierten Daten und lassen sich mit bestehenden Plattformen nur schwer verarbeiten
So konnte beispielsweise eine große Geschäftsbank ihre Kreditrisikomodelle nicht verbessern, weil wichtige Daten in PDFs und E-Mails eingeschlossen waren
Auf Basis ihrer KI-Forschung entwickelten sie eine KI-gestützte ETL-Lösung, die unstrukturierte Daten in schema-konforme Tabellen umwandelt

Technische Herausforderungen

Unterstützung komplexer Dokumente: Verarbeitung langer Dokumente mit LLM-basiertem Map-Reduce und Einsatz von Vision-Modellen zur Extraktion von Tabellen und Layouts
Model Routing: Auswahl des optimalen Modells für jede Transformation, um Kosten und Geschwindigkeit zu optimieren
Datenvalidierung und Schema-Garantie: Sicherstellung der Genauigkeit durch Referenzlinks und Anomalieerkennung

Vielfältige Einsatzfälle

Finanzdienstleistungen: Verarbeitung komplexer Dokumente (Anleihen, Kreditratings usw.) in strukturierte Formate, um Underwriting zu beschleunigen und die Kreditbearbeitung zu automatisieren
Kundensupport und Backoffice-Betrieb: Schnellere Onboarding-Prozesse und Sicherstellung der Einhaltung von SOPs durch Dokumenten-Mapping zwischen verschiedenen Schemata und ERP-Systemen
Datenvorverarbeitung und Datenerfassung: Bedarf an Datenvorverarbeitung in ETL-Pipelines und Datenerfassung für RAG

Zusammenfassung von GN⁺

Trellis ist ein KI-gestütztes ETL-Tool, das unstrukturierte Daten in strukturierte SQL-Formate umwandelt und manuelle Arbeit in Daten- und Operations-Teams automatisiert
Es bewältigt technische Herausforderungen wie die Verarbeitung komplexer Dokumente, Model Routing und Datenvalidierung
Es kann in verschiedensten Branchen nützlich eingesetzt werden, etwa in Finanzdienstleistungen, im Kundensupport oder in der Datenvorverarbeitung
Besonders nützlich ist es für Unternehmen, die Schwierigkeiten bei der Verarbeitung unstrukturierter Daten haben
Ähnliche Projekte mit vergleichbaren Funktionen sind unter anderem Alteryx und Talend

1 Kommentare

GN⁺ 2024-08-15

Hacker-News-Kommentare

Arbeitet an einem Open-Source-Python-Paket, das ähnliche Funktionen bietet
- Teilt ein Enron-E-Mail-Demobeispiel
Bei einer großen Geschäftsbank konnte man die in PDFs und E-Mails eingeschlossenen Daten nicht nutzbar machen und daher das Kreditrisikomodell nicht verbessern
- Die Lösung dieses Problems schafft großen Mehrwert
Hat bei SoundTrace an einem verwandten Projekt gearbeitet
- Musste die PDF-Audiogrammdaten neuer Clients vollständig extrahieren
- Über eine Pipeline wurden aus PDFs per OCR Text und Tabellen extrahiert und anschließend mit einem LLM direkt geparst
- Audiogramm-Grafiken wurden an ein ConvNet geschickt, Tabellen programmatisch geparst
- Die Ergebnisse wurden mit Claude Sonnet validiert, und bei Abweichungen erfolgte eine manuelle Prüfung
- Die Genauigkeit erreichte fast 100 %
Hat bei Instabase gearbeitet; die Fähigkeit, PDFs und gescannte Dokumente zu verarbeiten, ist entscheidend
Gratuliert zum Launch von Trellis; Edge Cases müssen nahezu bei 0 % liegen
- Ein Service, den jede Organisation braucht; bei Erfolg wird es viele Kunden geben
Fragt nach Wettbewerb und Unterschieden zu Roe AI
Fragt sich, wie die Datengenauigkeit validiert wurde
Nutzt in einem privaten Projekt TypeChat, Zod und Unstructured für ähnliche Aufgaben
Hat mit Function Calling von OpenAI Felder aus Tausenden gescannten Dokumenten extrahiert
- Bei einigen Feldern war die Wiedergewinnungsrate über verschiedene Eingabedokumentformate hinweg schlecht
- Hat mit JSON-Schemas experimentiert, um optimale Informationen zu extrahieren
- Bei langen Dokumenten musste entschieden werden, ob das gesamte Dokument oder nur relevante Teile gesendet werden sollten
- Die OCR-Qualität war schlecht
- Die zentrale Innovation ist, Nicht-Technikern zu ermöglichen, Schritt 2 wiederholt auszuführen
Gratuliert zum Launch trotz des noch ungelösten großen Problems
- Kunden mit großen Problemen und großen Budgets werden am stärksten vernachlässigt
- Über Onboarding/Integration wie bei Palantir werden kundenspezifische Lösungen bereitgestellt
- Über 99 % Genauigkeit und menschliches Eingreifen sind wirksam
- Die Verbesserung von 95 % auf 99 % kann einen großen Unterschied machen
- Statt „AI-basierter Workflow“ sollte eher „Extraktion mit 99 %+ Genauigkeit“ betont werden

Launch HN: Trellis – KI-gestützte Workflows für unstrukturierte Daten

Hintergrund zur Entwicklung von Trellis

Technische Herausforderungen

Vielfältige Einsatzfälle

Zusammenfassung von GN⁺

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare