Der Aufstieg der AI-Dateninfrastruktur

(felicis.com)

16 Punkte von xguru 2024-11-25 | Noch keine Kommentare. | Auf WhatsApp teilen

„Wir stehen derzeit am Beginn einer neuen industriellen Revolution. Statt Strom zu erzeugen, erzeugen wir künstliche Intelligenz … [Open Source] ermöglicht es jedem Unternehmen, zu einem KI-Unternehmen zu werden.“ – Jensen Huang

Informationen aus Dokumenten zu extrahieren, ist kein neues Konzept. Doch generative KI (GenAI) benötigt große Mengen hochwertiger Daten
Daten sind sowohl für Training als auch für Inferenz wichtig, und der Umfang erweitert sich nicht nur mengenmäßig, sondern auch von Text- und Tabellendaten hin zu Video, Bild und Audio
Auch ein Wachstum räumlicher Daten wie Satellitenbilder und Robotersensordaten ist zu beobachten
Welche neuen Bereiche in der Datenschicht können durch KI am unmittelbarsten neu gestaltet werden?
- Extraktion und Pipelines für unstrukturierte Daten, Retrieval-Augmented Generation (RAG), Datenkuratierung, Datenspeicherung, KI-Gedächtnis
Ziel dieses Artikels ist es, die Landschaft der AI-Dateninfrastruktur zu analysieren, aktuelle Trends zu teilen und über die vielversprechendsten Innovationsbereiche zu sprechen

Aktueller Stand der AI-Dateninfrastruktur

Der Datenfluss in der Wertschöpfungskette von KI-Daten wird vereinfacht visualisiert, um den Ablauf von Daten im Training und in der Inferenz zu erklären
Die Wertschöpfungskette der Dateninfrastruktur wird in sechs Hauptbereiche unterteilt
- Datenquellen (Sources)
- Datenerfassung und -transformation (Ingestion & Transformation)
- Speicherung (Storage)
- Training (Training)
- Inferenz (Inference)
- Datenservices (Data Services)

Datenquellen

App-Daten: Extraktion aus Salesforce, ServiceNow usw.
Echtzeitdaten: Sensor-, Fertigungs- und Gesundheitsdaten
OLTP-Datenbanken: Transaktionsdaten wie Oracle und MongoDB
Synthetische Daten: künstlich erzeugte Daten, die nicht in der realen Welt gesammelt wurden (e.g., Mostly AI, Datagen, Tonic)
- kosteneffizient und vorteilhaft im Hinblick auf Daten-Compliance
- allerdings begrenzte Optimierung der Modellleistung, da statistische Ausreißer unzureichend repräsentiert sind
Webdaten: Sammlung öffentlicher Daten per Web-Scraping (e.g., Browse AI, Apify)
- unverzichtbar für das Training großskaliger Datenmodelle, jedoch könnten öffentliche Daten erschöpft sein (erwartet zwischen 2026 und 2032)

Datenerfassung und -transformation

Datenpipelines übertragen Daten vom Ursprungsort zum Ziel und transformieren sie in einen analysierbaren Zustand
- ETL/ELT: traditioneller Ansatz (Batch-Verarbeitung, Stream-Verarbeitung)
- Feature Engineering/Pipelines: im ML vor allem für die Verarbeitung tabellarischer Daten
- Pipelines für unstrukturierte Daten: integrieren Extraktion, Transformation und Speicherung, um unstrukturierte Daten aufzubereiten und zu speichern
Pipeline-Typen
- Batch-Verarbeitung: Daten werden in bestimmten Zeitintervallen extrahiert und geladen
- Stream-Verarbeitung: Daten werden in Echtzeit geladen (Kafka, Flink usw.)
Tools und Frameworks
- Streaming (Kafka, Confluent), Processing Engines (Databricks, Flink), Orchestrierungstools (Astronomer, Dagster, Airflow, Prefect usw.)
- Labeling-Tools: LabelBox, Scale AI usw. (wichtig für das Labeling von Testdaten)
  - Batch: ETL (Airbyte, Fivetran), Transform (dbt, coalesce)
  - Verarbeitung unstrukturierter Daten: Datavolo, Unstructured, LlamaIndex usw.

Datenspeicherung

Traditioneller Ansatz: Speicherung im Data Warehouse
Für KI genutzte Daten:
- Nutzung von Data-Lake- und Lakehouse-Strukturen
- Speicherung von Daten-Embeddings über Vektor-Datenbanken
Wichtige Tools:
- Data Lake: Databricks, Onehouse, Tabular, Amazon S3, GCS usw.
  - Vector DB: Pinecone, Chroma, Milvus, Weaviete usw.

Modelltraining

Trainingsmethoden:
- überwachtes Lernen, unüberwachtes Lernen, Reinforcement Learning
Trainingsprozess großer Sprachmodelle (LLMs):
- Vortraining: Erkennung von Datenmustern durch unüberwachtes Lernen
- überwachtes Lernen: Optimierung der Leistung
- Reinforcement Learning (RLHF): Leistungsverbesserung durch menschliches Feedback
Validierung und Evaluation:
- Bewertung der Eignung des Modells anhand von Genauigkeit, Präzision, Minimierung des Loss usw.
Letzte Phase:
- Sicherheitstests, Governance, Prüfung der Compliance
Wichtige Tools:
- Training: TensorFlow, Modular
  - Evaluation: neptune.ai, Weights & Biases
  - MLOps: Databricks, H2O.ai, DataRobot, Dataiku, DOMINO
  - Model: OpenAI, Cohere, Mistral AI, Runway

Modellinferenz

Prozess:
- Prompt-Eingabe → Tokenisierung/Vektorisierung → Datenverarbeitung → Erzeugung der Ausgabe
Anpassung:
- Verknüpfung von Vektor-Datenbanken und LLMs
- Erzeugung individueller Ergebnisse unter Berücksichtigung des Nutzerkontexts
Wesentliche Überlegungen:
- Datensicherheit, Modellqualität, Compliance
Wichtige Tools:
- Tooling: ANON, E2B
- Memory: MemGPT, cognee.ai
- RAG Framework: LangCHain, LlamaIndex, contextual.ai, databricks
- Agent/App: ChatGPT, Claude, character.ai, Decagon, NormAi

Datenservices

Kategorien:
- Datensicherheit: Zugriffskontrolle, Verhinderung von Datenabfluss (Rubrik, eureka, imperva, sentra, Dig, Cyera, Varonis, BigID)
- Datentransparenz: Monitoring von Qualität und Leistung von Datenpipelines (Anomalo, datologyai, OBSERVE, MonteCarlo, Cleanlab, Scale AI, onum, metaplane)
- Datenkatalog: Zentralisierung von Metadaten, Organisation von Datenbeständen (atlan, Alation, Collibra, Informatica, Acryl Data, CastorDoc, select star, data.world)
Fazit:
- Je besser Daten organisiert sind, desto effizienter sind Sicherheit, Transparenz und Verwaltung

[Datenneugestaltung durch KI]

Durch KI werden in den folgenden Bereichen der Dateninfrastruktur Innovationen beobachtet:

1. Pipelines für unstrukturierte Daten für KI-Agenten und Anwendungen

Der Aufstieg unstrukturierter Datenpipelines:
- steigende Nachfrage, interne unstrukturierte Daten in Conversational-AI- und Agenten-Anwendungen zu nutzen
- unstrukturierte Datenpipelines umfassen ähnliche Prozesse wie traditionelle Datenpipelines: Datenextraktion, Transformation, Indizierung, Speicherung
Wichtige Datenquellen:
- PDF-Texte, Wissensdatenbanken, Bilder usw.
- vor allem Daten zur Unterstützung von Anwendungsfällen im Bereich Conversational AI
Differenzierungsmerkmale:
- Unterschiede zu bestehenden Pipelines entstehen in der Transformationsphase:
  - Daten-Chunking (chunking): Aufteilung der Daten in kleine Einheiten
  - Metadatenextraktion: Erzeugung der für die Indizierung nötigen Daten
  - Embeddings: Umwandlung jedes Daten-Chunks in Vektorform zur Speicherung
Erfolgsfaktoren:
- Die Wahl der Chunking-Strategie und des Embedding-Modells hat entscheidenden Einfluss auf die Genauigkeit der Datensuche
- Aufkommen domänenspezifischer Embedding-Modelle: zum Beispiel Modelle, die auf Code oder juristische Inhalte spezialisiert sind
Nutzung vektorkompatibler Datenbanken:
- Speicherung unstrukturierter Daten und Umwandlung in ein abfragbares Format
- Personalisierung von LLMs durch RAG (Retrieval-Augmented Generation) und Agenten
Wichtige Beobachtungen
- Teams probieren verschiedene Chunking-Strategien aus
- Immer mehr domänenspezifische Embedding-Modelle tragen zur Verbesserung von Genauigkeit und Performance bei
- Unternehmen suchen nach Tools, die Daten in leicht abfragbare Formate umwandeln

2. Retrieval-Augmented Generation (RAG)

RAG im Überblick:
- RAG ist ein architektonischer Workflow, der benutzerdefinierte Daten nutzt, um die Effizienz von LLM-Anwendungen zu verbessern
- Funktionsweise:
  - Daten laden und zur Verarbeitung von Abfragen „indizieren“
  - Abfragen filtern auf Basis des Index die relevantesten Daten
  - Der gefilterte Kontext und die Abfrage werden als Prompt an das LLM übergeben, das daraufhin eine Antwort erzeugt
- Daten lassen sich als Teil des Produkterlebnisses aktivieren
Wichtige Vorteile von RAG:
- Bereitstellung aktueller Informationen:
  - LLMs sind durch ihre Vortrainingsdaten begrenzt und können daher veraltete oder ungenaue Antworten liefern
  - RAG greift auf externe Informationsquellen zu und liefert aktuellere Antworten
- Stärkung der Faktentreue:
  - RAG kompensiert das Problem, dass LLMs nicht immer präzise Informationen liefern
  - Mit kuratierten Wissensdatenbanken werden verlässlichere Informationen bereitgestellt
- Quellenangaben:
  - Zitate und Anmerkungen können zu LLM-Antworten hinzugefügt werden
  - erhöht das Vertrauen der Nutzer

3. Datenkuratierung zur Verbesserung der Trainings- und Inferenzleistung

Datenkuratierung: der Prozess des Filterns und Zusammenstellens von Datensätzen für optimale Trainings- und Inferenzleistung
- Hauptaufgaben:
  - Textklassifizierung
  - Anwendung von NSFW-Filtern
  - Deduplizierung von Daten
  - Optimierung der Batch-Größe
  - quellenseitige Optimierung auf Basis der Leistung
  - Datenaugmentation mit synthetischen Daten
Erkenntnisse aus der Ankündigung von Meta Llama-3:
- Kuratierung von Trainingsdaten:
  - „Um die besten Sprachmodelle zu trainieren, ist die Kuratierung hochwertiger großskaliger Datensätze entscheidend“
  - Meta entwickelte dafür die folgenden Datenfilter-Pipelines:
    - heuristische Filter
    - NSFW-Filter
    - semantische Deduplizierung
    - Textklassifikatoren zur Vorhersage der Datenqualität
- Kuratierung von Fine-Tuning-Daten:
  - „Die größten Verbesserungen der Modellqualität wurden erreicht, indem Daten sorgfältig kuratiert und die Annotationen menschlicher Annotatoren durch mehrere Qualitätssicherungsstufen überprüft wurden“
Effekte der Datenkuratierung:
- Laut dem Forschungsteam von Meta AI:
  - kann Kuratierung die Trainingszeit um bis zu 20 % verkürzen
  - verbessert sie die Downstream-Genauigkeit
  - bietet sie selbst bei einer Erschöpfung von Internetdaten einen Weg zur Leistungssteigerung von Modellen
Künftige Richtung:
- Für Modelltraining und Fine-Tuning sind automatisierte hochwertige Datenfilter, Deduplizierung und Klassifikatoren wichtig
- Unternehmen wie Datology AI arbeiten daran, dies umzusetzen

4. Datenspeicherung für KI

Es gibt drei große Trends bei der Speicherung von KI-Daten:
- Vektor-Datenbanken
- der Aufstieg von Data Lakes
- steigende Investitionen in Lakehouses
Die Bedeutung von Vektor-Datenbanken:
- Vektor-Datenbanken gelten als eine der Schlüsseltechnologien des KI-Booms
- geeignet zur Speicherung von Daten-Embeddings (numerischen Repräsentationen):
  - unstrukturierte Daten (Bilder, Audio, Video usw.) werden numerisch umgewandelt und gespeichert
  - unterstützen semantische Suche (z. B. liefert die Suche nach „dog“ auch „wolf“ oder „puppy“)
- Formen von Vektor-Datenbanken:
  - native Vektor-Datenbanken: speziell für die Vektorspeicherung konzipiert
  - Erweiterungen bestehender Datenbanken: bestehende Datenbanken werden um Vektor-Support ergänzt
- Anwendungsfall: Personalisierung von LLMs
  - kundenspezifische Unternehmensdaten werden als Vektor-Embeddings gespeichert und durchsuchbar gemacht
  - KI-Agenten nutzen diese Struktur für maßgeschneiderte Erlebnisse
Data Lakes und Lakehouses
- Der Aufstieg von Data Lakes:
  - die meisten Unternehmen speichern große Datenmengen in Data Lakes
  - für die Entwicklung kundenspezifischer KI ist die Nutzung von Data Lakes unverzichtbar
- Lakehouse-Architektur:
  - bietet eine Architektur, mit der sich Data Lakes effizient verwalten und abfragen lassen
  - Organisation der Daten in offenen Tabellenformaten:
    - Einsatz von Iceberg, Delta Lake, Hudi usw.
  - verbessert Datenorganisation und Query-Performance
- Die Rolle von Databricks:
  - Databricks übernahm Tabular und vereinte so die Entwicklungsteams von Delta Lake und Iceberg
  - erschwert den Einstieg für Wettbewerber und treibt die Entwicklung der Lakehouse-Technologie voran

5. KI-Gedächtnis

Der Aufstieg des KI-Gedächtnisses:
- Seit der Ankündigung der Memory-Funktion von ChatGPT ist KI-Gedächtnis zu einem zentralen Diskussionsthema geworden
- Standard-KI-Systemen fehlt es an starkem episodischem Gedächtnis und Kontinuität zwischen Interaktionen:
  - aktuelle Systeme befinden sich in einer Art Zustand des Kurzzeitgedächtnisverlusts
  - Einschränkungen bei komplexem sequenziellem Schlussfolgern und beim Wissensaustausch in Multi-Agenten-Systemen
Gedächtnis in Multi-Agenten-Systemen
- Mit der Entwicklung hin zu Multi-Agenten-Systemen werden Gedächtnisverwaltungssysteme zwischen Agenten erforderlich
- Funktionale Anforderungen:
  - Unterstützung für agentenspezifisches Speichern von Erinnerungen und Zugriff über Sitzungen hinweg
  - Einbeziehung von Zugriffs- und Datenschutzkontrollen
  - Memory-Pooling zwischen Agenten:
    - ein Agent kann auf Erfahrungen anderer Agenten zurückgreifen
    - verbessert die Entscheidungsfähigkeit
- Bedarf an hierarchischem Gedächtnis:
  - Speicherung von Erinnerungen in Ebenen nach Zugriffshäufigkeit, Wichtigkeit und Kosten
MemGPT: führendes Framework für KI-Gedächtnisverwaltung
- Die Vision von MemGPT: LLMs sollen die Evolution des Betriebssystems (OS) der nächsten Generation vorantreiben
- Architekturüberblick:
  - Gedächtnistypen:
    - primäres Kontextgedächtnis: vergleichbar mit Hauptspeicher (RAM)
    - externes Kontextgedächtnis: vergleichbar mit Festplattenspeicher/Disk Storage
Die Bedeutung von KI-Gedächtnis
- unterstützt Personalisierung, Lernen und Reflexion (reflection) und ist wesentlich für die Weiterentwicklung von KI-Anwendungen
- verbessert durch Zusammenarbeit zwischen Agenten und gemeinsames Erinnern die Fähigkeit, komplexe Aufgaben zu lösen

Chancen bei KI-Workloads

KI-Workloads und Dateninfrastruktur:
- Der Aufstieg von GenAI hat nicht jeden Aspekt der Dateninfrastruktur verändert, doch das Auftreten der folgenden Technologien ist eine äußerst spannende Entwicklung:
  - Extraktion und Pipelining unstrukturierter Daten
  - Retrieval-Augmented Generation (RAG)
  - Datenkuratierung
  - Datenspeicherung
  - KI-Gedächtnis
Investitionsstrategie von Felicis
- Fokus auf die Zukunft von KI und Dateninfrastruktur:
  - Investitionen in Startups rund um Daten- und Infrastrukturschichten
  - wichtige Investmentbeispiele:
    - Datology: Datenkuratierung
    - Metaplane: Data Observability
    - MotherDuck: serverloses Data Warehouse
    - Weights & Biases: Tool für Experiment-Tracking
Wachstumspotenzial des KI-Marktes
- Skalierbarkeit:
  - der KI-Markt expandiert stark, von Chatbots bis hin zu Multi-Agenten-Workflows
  - wir stehen noch ganz am Anfang, und es gibt viel Raum für weitere Entwicklungen
- Bedeutung von Datenlösungen:
  - Datenlösungen sind entscheidend für erfolgreiche KI-Anwendungen
  - es wird erwartet, dass große Datengeschäfte aufgebaut werden, um KI-Workloads zu unterstützen

Der Aufstieg der AI-Dateninfrastruktur

Aktueller Stand der AI-Dateninfrastruktur

Datenquellen

Datenerfassung und -transformation

Datenspeicherung

Modelltraining

Modellinferenz

Datenservices

[Datenneugestaltung durch KI]

1. Pipelines für unstrukturierte Daten für KI-Agenten und Anwendungen

2. Retrieval-Augmented Generation (RAG)

3. Datenkuratierung zur Verbesserung der Trainings- und Inferenzleistung

4. Datenspeicherung für KI

5. KI-Gedächtnis

Chancen bei KI-Workloads

Verwandte Beiträge

Noch keine Kommentare.