6 Punkte von GN⁺ 2024-08-15 | 1 Kommentare | Auf WhatsApp teilen
  • Trellis ist ein KI-gestütztes ETL-Tool (Extract, Transform, Load) für unstrukturierte Daten
  • Es wandelt Telefonate, PDFs und Chat-Inhalte entsprechend einem von Nutzern in natürlicher Sprache definierten Schema in strukturierte SQL-Formate um
  • Es hilft Daten- und Operations-Teams dabei, manuelle Dateneingaben zu automatisieren und komplexe Daten mit SQL-Abfragen zu verarbeiten

Hintergrund zur Entwicklung von Trellis

  • Nach ihrem Kennenlernen am Stanford AI Lab arbeiteten sie mit den Datenteams mehrerer Großunternehmen zusammen und stießen dabei auf das Problem unstrukturierter Daten
  • 80 % der Unternehmensdaten bestehen aus unstrukturierten Daten und lassen sich mit bestehenden Plattformen nur schwer verarbeiten
  • So konnte beispielsweise eine große Geschäftsbank ihre Kreditrisikomodelle nicht verbessern, weil wichtige Daten in PDFs und E-Mails eingeschlossen waren
  • Auf Basis ihrer KI-Forschung entwickelten sie eine KI-gestützte ETL-Lösung, die unstrukturierte Daten in schema-konforme Tabellen umwandelt

Technische Herausforderungen

  • Unterstützung komplexer Dokumente: Verarbeitung langer Dokumente mit LLM-basiertem Map-Reduce und Einsatz von Vision-Modellen zur Extraktion von Tabellen und Layouts
  • Model Routing: Auswahl des optimalen Modells für jede Transformation, um Kosten und Geschwindigkeit zu optimieren
  • Datenvalidierung und Schema-Garantie: Sicherstellung der Genauigkeit durch Referenzlinks und Anomalieerkennung

Vielfältige Einsatzfälle

  • Finanzdienstleistungen: Verarbeitung komplexer Dokumente (Anleihen, Kreditratings usw.) in strukturierte Formate, um Underwriting zu beschleunigen und die Kreditbearbeitung zu automatisieren
  • Kundensupport und Backoffice-Betrieb: Schnellere Onboarding-Prozesse und Sicherstellung der Einhaltung von SOPs durch Dokumenten-Mapping zwischen verschiedenen Schemata und ERP-Systemen
  • Datenvorverarbeitung und Datenerfassung: Bedarf an Datenvorverarbeitung in ETL-Pipelines und Datenerfassung für RAG

Zusammenfassung von GN⁺

  • Trellis ist ein KI-gestütztes ETL-Tool, das unstrukturierte Daten in strukturierte SQL-Formate umwandelt und manuelle Arbeit in Daten- und Operations-Teams automatisiert
  • Es bewältigt technische Herausforderungen wie die Verarbeitung komplexer Dokumente, Model Routing und Datenvalidierung
  • Es kann in verschiedensten Branchen nützlich eingesetzt werden, etwa in Finanzdienstleistungen, im Kundensupport oder in der Datenvorverarbeitung
  • Besonders nützlich ist es für Unternehmen, die Schwierigkeiten bei der Verarbeitung unstrukturierter Daten haben
  • Ähnliche Projekte mit vergleichbaren Funktionen sind unter anderem Alteryx und Talend

1 Kommentare

 
GN⁺ 2024-08-15
Hacker-News-Kommentare
  • Arbeitet an einem Open-Source-Python-Paket, das ähnliche Funktionen bietet

    • Teilt ein Enron-E-Mail-Demobeispiel
  • Bei einer großen Geschäftsbank konnte man die in PDFs und E-Mails eingeschlossenen Daten nicht nutzbar machen und daher das Kreditrisikomodell nicht verbessern

    • Die Lösung dieses Problems schafft großen Mehrwert
  • Hat bei SoundTrace an einem verwandten Projekt gearbeitet

    • Musste die PDF-Audiogrammdaten neuer Clients vollständig extrahieren
    • Über eine Pipeline wurden aus PDFs per OCR Text und Tabellen extrahiert und anschließend mit einem LLM direkt geparst
    • Audiogramm-Grafiken wurden an ein ConvNet geschickt, Tabellen programmatisch geparst
    • Die Ergebnisse wurden mit Claude Sonnet validiert, und bei Abweichungen erfolgte eine manuelle Prüfung
    • Die Genauigkeit erreichte fast 100 %
  • Hat bei Instabase gearbeitet; die Fähigkeit, PDFs und gescannte Dokumente zu verarbeiten, ist entscheidend

  • Gratuliert zum Launch von Trellis; Edge Cases müssen nahezu bei 0 % liegen

    • Ein Service, den jede Organisation braucht; bei Erfolg wird es viele Kunden geben
  • Fragt nach Wettbewerb und Unterschieden zu Roe AI

  • Fragt sich, wie die Datengenauigkeit validiert wurde

  • Nutzt in einem privaten Projekt TypeChat, Zod und Unstructured für ähnliche Aufgaben

  • Hat mit Function Calling von OpenAI Felder aus Tausenden gescannten Dokumenten extrahiert

    • Bei einigen Feldern war die Wiedergewinnungsrate über verschiedene Eingabedokumentformate hinweg schlecht
    • Hat mit JSON-Schemas experimentiert, um optimale Informationen zu extrahieren
    • Bei langen Dokumenten musste entschieden werden, ob das gesamte Dokument oder nur relevante Teile gesendet werden sollten
    • Die OCR-Qualität war schlecht
    • Die zentrale Innovation ist, Nicht-Technikern zu ermöglichen, Schritt 2 wiederholt auszuführen
  • Gratuliert zum Launch trotz des noch ungelösten großen Problems

    • Kunden mit großen Problemen und großen Budgets werden am stärksten vernachlässigt
    • Über Onboarding/Integration wie bei Palantir werden kundenspezifische Lösungen bereitgestellt
    • Über 99 % Genauigkeit und menschliches Eingreifen sind wirksam
    • Die Verbesserung von 95 % auf 99 % kann einen großen Unterschied machen
    • Statt „AI-basierter Workflow“ sollte eher „Extraktion mit 99 %+ Genauigkeit“ betont werden