Morphik – Open-Source-AI-native Wissensdatenbank

xguru · 2025-05-29T09:46:28+09:00

Ein Open-Source-Tool, das die integrierte Suche und Verwaltung multimodaler Daten wie Bilder, PDFs und Videos ermöglicht Im Vergleich zu bestehenden RAG-Ansätzen optimiert für die Verarbeitung technischer und visueller Dokumente Nutzt ColPali-Embeddings, um ganze Seiten wie Bilder zu verarbeiten, und bietet semantische Suchfunktionen, die Layout, Typografie und visuellen Kontext mitverstehen Es lassen sich domänenspezifische Wissensgraphen erstellen, die Entitäten über mehrere Dokumente hinweg verknüpfen können; dabei können benutzerdefinierte oder vortrainierte System-Prompts verwendet werden Durchsucht verschiedene Dokumente wie PDFs, Bilder und Videos über eine einzige API und unterstützt auch MCP Die Metadatenextraktion ist schnell und skalierbar und unterstützt auch Bounding Boxes, Klassifizierung und mehr Workflow-Integrationen mit Google Suite, Slack, Confluence und mehr sind möglich Ebenfalls enthalten ist KV-Cache-basierte Generierung (Cache-Augmented-Generation) zur Beschleunigung dokumentbasierter Generierung Die Basisfunktionen werden unter der MIT-Lizenz als Open Source bereitgestellt, sodass ein kostenloser Einstieg möglich ist; einige fortgeschrittene Funktionen sind kostenpflichtig und im Namespace ee verfügbar Einführung in die wichtigsten Konzepte und Funktionen Multimodale Suche (ColPali) Jede PDF-Seite wird als Bild verarbeitet, wodurch eine seitenbasierte Multivektor-Repräsentation statt einer texttokenbasierten Darstellung erzeugt wird Auch Bilder, PDFs, Videos und visuelle Strukturen (Tabellen, Diagramme, Formatierungen usw.) können semantisch verstanden und durchsucht werden Unterstützung für integrierte multimodale Abfragen über einen einzelnen Endpunkt Wissensgraphen (Knowledge Graphs) Erstellung domänenspezifischer Wissensgraphen mit einer einzigen Codezeile Vorgefertigte Prompts können verwendet oder individuell angepasst werden Schnelle und skalierbare Metadatenextraktion (Rules Processing) Automatische Extraktion von Bounding Boxes, Labels und Klassifizierungsinformationen aus Dokumenten Auch große Dokumentmengen werden schnell und zuverlässig verarbeitet Vielfältige Integrationen (Integrations) Direkte Integration mit Google Workspace, Slack, Confluence und mehr Cache-Augmented-Generation (Cache-Augmented-Generation) Erstellung eines KV-Caches pro Dokument zur Beschleunigung der Generierung Nützlich in Umgebungen mit vielen wiederholten Abfragen

(github.com/morphik-org)

20 Punkte von xguru 2025-05-29 | 2 Kommentare | Auf WhatsApp teilen

Ein Open-Source-Tool, das die integrierte Suche und Verwaltung multimodaler Daten wie Bilder, PDFs und Videos ermöglicht
- Im Vergleich zu bestehenden RAG-Ansätzen optimiert für die Verarbeitung technischer und visueller Dokumente
Nutzt ColPali-Embeddings, um ganze Seiten wie Bilder zu verarbeiten, und bietet semantische Suchfunktionen, die Layout, Typografie und visuellen Kontext mitverstehen
Es lassen sich domänenspezifische Wissensgraphen erstellen, die Entitäten über mehrere Dokumente hinweg verknüpfen können; dabei können benutzerdefinierte oder vortrainierte System-Prompts verwendet werden
Durchsucht verschiedene Dokumente wie PDFs, Bilder und Videos über eine einzige API und unterstützt auch MCP
Die Metadatenextraktion ist schnell und skalierbar und unterstützt auch Bounding Boxes, Klassifizierung und mehr
Workflow-Integrationen mit Google Suite, Slack, Confluence und mehr sind möglich
Ebenfalls enthalten ist KV-Cache-basierte Generierung (Cache-Augmented-Generation) zur Beschleunigung dokumentbasierter Generierung
Die Basisfunktionen werden unter der MIT-Lizenz als Open Source bereitgestellt, sodass ein kostenloser Einstieg möglich ist; einige fortgeschrittene Funktionen sind kostenpflichtig und im Namespace ee verfügbar

Einführung in die wichtigsten Konzepte und Funktionen

Multimodale Suche (ColPali)
- Jede PDF-Seite wird als Bild verarbeitet, wodurch eine seitenbasierte Multivektor-Repräsentation statt einer texttokenbasierten Darstellung erzeugt wird
- Auch Bilder, PDFs, Videos und visuelle Strukturen (Tabellen, Diagramme, Formatierungen usw.) können semantisch verstanden und durchsucht werden
- Unterstützung für integrierte multimodale Abfragen über einen einzelnen Endpunkt
Wissensgraphen (Knowledge Graphs)
- Erstellung domänenspezifischer Wissensgraphen mit einer einzigen Codezeile
- Vorgefertigte Prompts können verwendet oder individuell angepasst werden
Schnelle und skalierbare Metadatenextraktion (Rules Processing)
- Automatische Extraktion von Bounding Boxes, Labels und Klassifizierungsinformationen aus Dokumenten
- Auch große Dokumentmengen werden schnell und zuverlässig verarbeitet
Vielfältige Integrationen (Integrations)
- Direkte Integration mit Google Workspace, Slack, Confluence und mehr
Cache-Augmented-Generation (Cache-Augmented-Generation)
- Erstellung eines KV-Caches pro Dokument zur Beschleunigung der Generierung
- Nützlich in Umgebungen mit vielen wiederholten Abfragen

2 Kommentare

blizard4479 2025-05-29

Ich hatte vor ein paar Monaten testweise versucht, das einzusetzen, aber es brauchte deutlich mehr GPU-Ressourcen als erwartet und die Geschwindigkeit war auch stark reduziert, sodass es für kleine Unternehmen schwer einzuführen ist. Selbst mit zwei A10-GPUs dauerte allein die Suche etwa 30 Sekunden bis 1 Minute, wow,,

2025-05-29

[Dieser Kommentar wurde ausgeblendet.]

Morphik – Open-Source-AI-native Wissensdatenbank

Einführung in die wichtigsten Konzepte und Funktionen

Multimodale Suche (ColPali)

Wissensgraphen (Knowledge Graphs)

Schnelle und skalierbare Metadatenextraktion (Rules Processing)

Vielfältige Integrationen (Integrations)

Cache-Augmented-Generation (Cache-Augmented-Generation)

Verwandte Beiträge

2 Kommentare