Launch HN: Trellis – KI-gestützte Workflows für unstrukturierte Daten
(news.ycombinator.com)- Trellis ist ein KI-gestütztes ETL-Tool (Extract, Transform, Load) für unstrukturierte Daten
- Es wandelt Telefonate, PDFs und Chat-Inhalte entsprechend einem von Nutzern in natürlicher Sprache definierten Schema in strukturierte SQL-Formate um
- Es hilft Daten- und Operations-Teams dabei, manuelle Dateneingaben zu automatisieren und komplexe Daten mit SQL-Abfragen zu verarbeiten
Hintergrund zur Entwicklung von Trellis
- Nach ihrem Kennenlernen am Stanford AI Lab arbeiteten sie mit den Datenteams mehrerer Großunternehmen zusammen und stießen dabei auf das Problem unstrukturierter Daten
- 80 % der Unternehmensdaten bestehen aus unstrukturierten Daten und lassen sich mit bestehenden Plattformen nur schwer verarbeiten
- So konnte beispielsweise eine große Geschäftsbank ihre Kreditrisikomodelle nicht verbessern, weil wichtige Daten in PDFs und E-Mails eingeschlossen waren
- Auf Basis ihrer KI-Forschung entwickelten sie eine KI-gestützte ETL-Lösung, die unstrukturierte Daten in schema-konforme Tabellen umwandelt
Technische Herausforderungen
- Unterstützung komplexer Dokumente: Verarbeitung langer Dokumente mit LLM-basiertem Map-Reduce und Einsatz von Vision-Modellen zur Extraktion von Tabellen und Layouts
- Model Routing: Auswahl des optimalen Modells für jede Transformation, um Kosten und Geschwindigkeit zu optimieren
- Datenvalidierung und Schema-Garantie: Sicherstellung der Genauigkeit durch Referenzlinks und Anomalieerkennung
Vielfältige Einsatzfälle
- Finanzdienstleistungen: Verarbeitung komplexer Dokumente (Anleihen, Kreditratings usw.) in strukturierte Formate, um Underwriting zu beschleunigen und die Kreditbearbeitung zu automatisieren
- Kundensupport und Backoffice-Betrieb: Schnellere Onboarding-Prozesse und Sicherstellung der Einhaltung von SOPs durch Dokumenten-Mapping zwischen verschiedenen Schemata und ERP-Systemen
- Datenvorverarbeitung und Datenerfassung: Bedarf an Datenvorverarbeitung in ETL-Pipelines und Datenerfassung für RAG
Zusammenfassung von GN⁺
- Trellis ist ein KI-gestütztes ETL-Tool, das unstrukturierte Daten in strukturierte SQL-Formate umwandelt und manuelle Arbeit in Daten- und Operations-Teams automatisiert
- Es bewältigt technische Herausforderungen wie die Verarbeitung komplexer Dokumente, Model Routing und Datenvalidierung
- Es kann in verschiedensten Branchen nützlich eingesetzt werden, etwa in Finanzdienstleistungen, im Kundensupport oder in der Datenvorverarbeitung
- Besonders nützlich ist es für Unternehmen, die Schwierigkeiten bei der Verarbeitung unstrukturierter Daten haben
- Ähnliche Projekte mit vergleichbaren Funktionen sind unter anderem Alteryx und Talend
1 Kommentare
Hacker-News-Kommentare
Arbeitet an einem Open-Source-Python-Paket, das ähnliche Funktionen bietet
Bei einer großen Geschäftsbank konnte man die in PDFs und E-Mails eingeschlossenen Daten nicht nutzbar machen und daher das Kreditrisikomodell nicht verbessern
Hat bei SoundTrace an einem verwandten Projekt gearbeitet
Hat bei Instabase gearbeitet; die Fähigkeit, PDFs und gescannte Dokumente zu verarbeiten, ist entscheidend
Gratuliert zum Launch von Trellis; Edge Cases müssen nahezu bei 0 % liegen
Fragt nach Wettbewerb und Unterschieden zu Roe AI
Fragt sich, wie die Datengenauigkeit validiert wurde
Nutzt in einem privaten Projekt TypeChat, Zod und Unstructured für ähnliche Aufgaben
Hat mit Function Calling von OpenAI Felder aus Tausenden gescannten Dokumenten extrahiert
Gratuliert zum Launch trotz des noch ungelösten großen Problems