20 Punkte von xguru 2025-05-29 | 2 Kommentare | Auf WhatsApp teilen
  • Ein Open-Source-Tool, das die integrierte Suche und Verwaltung multimodaler Daten wie Bilder, PDFs und Videos ermöglicht
    • Im Vergleich zu bestehenden RAG-Ansätzen optimiert für die Verarbeitung technischer und visueller Dokumente
  • Nutzt ColPali-Embeddings, um ganze Seiten wie Bilder zu verarbeiten, und bietet semantische Suchfunktionen, die Layout, Typografie und visuellen Kontext mitverstehen
  • Es lassen sich domänenspezifische Wissensgraphen erstellen, die Entitäten über mehrere Dokumente hinweg verknüpfen können; dabei können benutzerdefinierte oder vortrainierte System-Prompts verwendet werden
  • Durchsucht verschiedene Dokumente wie PDFs, Bilder und Videos über eine einzige API und unterstützt auch MCP
  • Die Metadatenextraktion ist schnell und skalierbar und unterstützt auch Bounding Boxes, Klassifizierung und mehr
  • Workflow-Integrationen mit Google Suite, Slack, Confluence und mehr sind möglich
  • Ebenfalls enthalten ist KV-Cache-basierte Generierung (Cache-Augmented-Generation) zur Beschleunigung dokumentbasierter Generierung
  • Die Basisfunktionen werden unter der MIT-Lizenz als Open Source bereitgestellt, sodass ein kostenloser Einstieg möglich ist; einige fortgeschrittene Funktionen sind kostenpflichtig und im Namespace ee verfügbar

Einführung in die wichtigsten Konzepte und Funktionen

  • Multimodale Suche (ColPali)

    • Jede PDF-Seite wird als Bild verarbeitet, wodurch eine seitenbasierte Multivektor-Repräsentation statt einer texttokenbasierten Darstellung erzeugt wird
    • Auch Bilder, PDFs, Videos und visuelle Strukturen (Tabellen, Diagramme, Formatierungen usw.) können semantisch verstanden und durchsucht werden
    • Unterstützung für integrierte multimodale Abfragen über einen einzelnen Endpunkt
  • Wissensgraphen (Knowledge Graphs)

    • Erstellung domänenspezifischer Wissensgraphen mit einer einzigen Codezeile
    • Vorgefertigte Prompts können verwendet oder individuell angepasst werden
  • Schnelle und skalierbare Metadatenextraktion (Rules Processing)

    • Automatische Extraktion von Bounding Boxes, Labels und Klassifizierungsinformationen aus Dokumenten
    • Auch große Dokumentmengen werden schnell und zuverlässig verarbeitet
  • Vielfältige Integrationen (Integrations)

    • Direkte Integration mit Google Workspace, Slack, Confluence und mehr
  • Cache-Augmented-Generation (Cache-Augmented-Generation)

    • Erstellung eines KV-Caches pro Dokument zur Beschleunigung der Generierung
    • Nützlich in Umgebungen mit vielen wiederholten Abfragen

2 Kommentare

 
blizard4479 2025-05-29

Ich hatte vor ein paar Monaten testweise versucht, das einzusetzen, aber es brauchte deutlich mehr GPU-Ressourcen als erwartet und die Geschwindigkeit war auch stark reduziert, sodass es für kleine Unternehmen schwer einzuführen ist. Selbst mit zwei A10-GPUs dauerte allein die Suche etwa 30 Sekunden bis 1 Minute, wow,,

 
[Dieser Kommentar wurde ausgeblendet.]