Der Aufstieg der AI-Dateninfrastruktur
(felicis.com)> „Wir stehen derzeit am Beginn einer neuen industriellen Revolution. Statt Strom zu erzeugen, erzeugen wir künstliche Intelligenz … [Open Source] ermöglicht es jedem Unternehmen, zu einem KI-Unternehmen zu werden.“ – Jensen Huang
- Informationen aus Dokumenten zu extrahieren, ist kein neues Konzept. Doch generative KI (GenAI) benötigt große Mengen hochwertiger Daten
- Daten sind sowohl für Training als auch für Inferenz wichtig, und der Umfang erweitert sich nicht nur mengenmäßig, sondern auch von Text- und Tabellendaten hin zu Video, Bild und Audio
- Auch ein Wachstum räumlicher Daten wie Satellitenbilder und Robotersensordaten ist zu beobachten
- Welche neuen Bereiche in der Datenschicht können durch KI am unmittelbarsten neu gestaltet werden?
- Extraktion und Pipelines für unstrukturierte Daten, Retrieval-Augmented Generation (RAG), Datenkuratierung, Datenspeicherung, KI-Gedächtnis
- Ziel dieses Artikels ist es, die Landschaft der AI-Dateninfrastruktur zu analysieren, aktuelle Trends zu teilen und über die vielversprechendsten Innovationsbereiche zu sprechen
Aktueller Stand der AI-Dateninfrastruktur
- Der Datenfluss in der Wertschöpfungskette von KI-Daten wird vereinfacht visualisiert, um den Ablauf von Daten im Training und in der Inferenz zu erklären
- Die Wertschöpfungskette der Dateninfrastruktur wird in sechs Hauptbereiche unterteilt
- Datenquellen (Sources)
- Datenerfassung und -transformation (Ingestion & Transformation)
- Speicherung (Storage)
- Training (Training)
- Inferenz (Inference)
- Datenservices (Data Services)
Datenquellen
- App-Daten: Extraktion aus Salesforce, ServiceNow usw.
- Echtzeitdaten: Sensor-, Fertigungs- und Gesundheitsdaten
- OLTP-Datenbanken: Transaktionsdaten wie Oracle und MongoDB
- Synthetische Daten: künstlich erzeugte Daten, die nicht in der realen Welt gesammelt wurden (e.g., Mostly AI, Datagen, Tonic)
- kosteneffizient und vorteilhaft im Hinblick auf Daten-Compliance
- allerdings begrenzte Optimierung der Modellleistung, da statistische Ausreißer unzureichend repräsentiert sind
- Webdaten: Sammlung öffentlicher Daten per Web-Scraping (e.g., Browse AI, Apify)
- unverzichtbar für das Training großskaliger Datenmodelle, jedoch könnten öffentliche Daten erschöpft sein (erwartet zwischen 2026 und 2032)
Datenerfassung und -transformation
- Datenpipelines übertragen Daten vom Ursprungsort zum Ziel und transformieren sie in einen analysierbaren Zustand
- ETL/ELT: traditioneller Ansatz (Batch-Verarbeitung, Stream-Verarbeitung)
- Feature Engineering/Pipelines: im ML vor allem für die Verarbeitung tabellarischer Daten
- Pipelines für unstrukturierte Daten: integrieren Extraktion, Transformation und Speicherung, um unstrukturierte Daten aufzubereiten und zu speichern
- Pipeline-Typen
- Batch-Verarbeitung: Daten werden in bestimmten Zeitintervallen extrahiert und geladen
- Stream-Verarbeitung: Daten werden in Echtzeit geladen (Kafka, Flink usw.)
- Tools und Frameworks
- Streaming (Kafka, Confluent), Processing Engines (Databricks, Flink), Orchestrierungstools (Astronomer, Dagster, Airflow, Prefect usw.)
- Labeling-Tools: LabelBox, Scale AI usw. (wichtig für das Labeling von Testdaten)
- Batch: ETL (Airbyte, Fivetran), Transform (dbt, coalesce)
- Verarbeitung unstrukturierter Daten: Datavolo, Unstructured, LlamaIndex usw.
Datenspeicherung
- Traditioneller Ansatz: Speicherung im Data Warehouse
- Für KI genutzte Daten:
- Nutzung von Data-Lake- und Lakehouse-Strukturen
- Speicherung von Daten-Embeddings über Vektor-Datenbanken
- Wichtige Tools:
- Data Lake: Databricks, Onehouse, Tabular, Amazon S3, GCS usw.
- Vector DB: Pinecone, Chroma, Milvus, Weaviete usw.
- Data Lake: Databricks, Onehouse, Tabular, Amazon S3, GCS usw.
Modelltraining
- Trainingsmethoden:
- überwachtes Lernen, unüberwachtes Lernen, Reinforcement Learning
- Trainingsprozess großer Sprachmodelle (LLMs):
- Vortraining: Erkennung von Datenmustern durch unüberwachtes Lernen
- überwachtes Lernen: Optimierung der Leistung
- Reinforcement Learning (RLHF): Leistungsverbesserung durch menschliches Feedback
- Validierung und Evaluation:
- Bewertung der Eignung des Modells anhand von Genauigkeit, Präzision, Minimierung des Loss usw.
- Letzte Phase:
- Sicherheitstests, Governance, Prüfung der Compliance
- Wichtige Tools:
- Training: TensorFlow, Modular
- Evaluation: neptune.ai, Weights & Biases
- MLOps: Databricks, H2O.ai, DataRobot, Dataiku, DOMINO
- Model: OpenAI, Cohere, Mistral AI, Runway
- Training: TensorFlow, Modular
Modellinferenz
- Prozess:
- Prompt-Eingabe → Tokenisierung/Vektorisierung → Datenverarbeitung → Erzeugung der Ausgabe
- Anpassung:
- Verknüpfung von Vektor-Datenbanken und LLMs
- Erzeugung individueller Ergebnisse unter Berücksichtigung des Nutzerkontexts
- Wesentliche Überlegungen:
- Datensicherheit, Modellqualität, Compliance
- Wichtige Tools:
- Tooling: ANON, E2B
- Memory: MemGPT, cognee.ai
- RAG Framework: LangCHain, LlamaIndex, contextual.ai, databricks
- Agent/App: ChatGPT, Claude, character.ai, Decagon, NormAi
Datenservices
- Kategorien:
- Datensicherheit: Zugriffskontrolle, Verhinderung von Datenabfluss (Rubrik, eureka, imperva, sentra, Dig, Cyera, Varonis, BigID)
- Datentransparenz: Monitoring von Qualität und Leistung von Datenpipelines (Anomalo, datologyai, OBSERVE, MonteCarlo, Cleanlab, Scale AI, onum, metaplane)
- Datenkatalog: Zentralisierung von Metadaten, Organisation von Datenbeständen (atlan, Alation, Collibra, Informatica, Acryl Data, CastorDoc, select star, data.world)
- Fazit:
- Je besser Daten organisiert sind, desto effizienter sind Sicherheit, Transparenz und Verwaltung
[Datenneugestaltung durch KI]
Durch KI werden in den folgenden Bereichen der Dateninfrastruktur Innovationen beobachtet:
1. Pipelines für unstrukturierte Daten für KI-Agenten und Anwendungen
- Der Aufstieg unstrukturierter Datenpipelines:
- steigende Nachfrage, interne unstrukturierte Daten in Conversational-AI- und Agenten-Anwendungen zu nutzen
- unstrukturierte Datenpipelines umfassen ähnliche Prozesse wie traditionelle Datenpipelines: Datenextraktion, Transformation, Indizierung, Speicherung
- Wichtige Datenquellen:
- PDF-Texte, Wissensdatenbanken, Bilder usw.
- vor allem Daten zur Unterstützung von Anwendungsfällen im Bereich Conversational AI
- Differenzierungsmerkmale:
- Unterschiede zu bestehenden Pipelines entstehen in der Transformationsphase:
- Daten-Chunking (
chunking): Aufteilung der Daten in kleine Einheiten - Metadatenextraktion: Erzeugung der für die Indizierung nötigen Daten
- Embeddings: Umwandlung jedes Daten-Chunks in Vektorform zur Speicherung
- Daten-Chunking (
- Unterschiede zu bestehenden Pipelines entstehen in der Transformationsphase:
- Erfolgsfaktoren:
- Die Wahl der Chunking-Strategie und des Embedding-Modells hat entscheidenden Einfluss auf die Genauigkeit der Datensuche
- Aufkommen domänenspezifischer Embedding-Modelle: zum Beispiel Modelle, die auf Code oder juristische Inhalte spezialisiert sind
- Nutzung vektorkompatibler Datenbanken:
- Speicherung unstrukturierter Daten und Umwandlung in ein abfragbares Format
- Personalisierung von LLMs durch RAG (Retrieval-Augmented Generation) und Agenten
- Wichtige Beobachtungen
- Teams probieren verschiedene Chunking-Strategien aus
- Immer mehr domänenspezifische Embedding-Modelle tragen zur Verbesserung von Genauigkeit und Performance bei
- Unternehmen suchen nach Tools, die Daten in leicht abfragbare Formate umwandeln
2. Retrieval-Augmented Generation (RAG)
- RAG im Überblick:
- RAG ist ein architektonischer Workflow, der benutzerdefinierte Daten nutzt, um die Effizienz von LLM-Anwendungen zu verbessern
- Funktionsweise:
- Daten laden und zur Verarbeitung von Abfragen „indizieren“
- Abfragen filtern auf Basis des Index die relevantesten Daten
- Der gefilterte Kontext und die Abfrage werden als Prompt an das LLM übergeben, das daraufhin eine Antwort erzeugt
- Daten lassen sich als Teil des Produkterlebnisses aktivieren
- Wichtige Vorteile von RAG:
- Bereitstellung aktueller Informationen:
- LLMs sind durch ihre Vortrainingsdaten begrenzt und können daher veraltete oder ungenaue Antworten liefern
- RAG greift auf externe Informationsquellen zu und liefert aktuellere Antworten
- Stärkung der Faktentreue:
- RAG kompensiert das Problem, dass LLMs nicht immer präzise Informationen liefern
- Mit kuratierten Wissensdatenbanken werden verlässlichere Informationen bereitgestellt
- Quellenangaben:
- Zitate und Anmerkungen können zu LLM-Antworten hinzugefügt werden
- erhöht das Vertrauen der Nutzer
- Bereitstellung aktueller Informationen:
3. Datenkuratierung zur Verbesserung der Trainings- und Inferenzleistung
- Datenkuratierung: der Prozess des Filterns und Zusammenstellens von Datensätzen für optimale Trainings- und Inferenzleistung
- Hauptaufgaben:
- Textklassifizierung
- Anwendung von NSFW-Filtern
- Deduplizierung von Daten
- Optimierung der Batch-Größe
- quellenseitige Optimierung auf Basis der Leistung
- Datenaugmentation mit synthetischen Daten
- Hauptaufgaben:
- Erkenntnisse aus der Ankündigung von Meta Llama-3:
- Kuratierung von Trainingsdaten:
- „Um die besten Sprachmodelle zu trainieren, ist die Kuratierung hochwertiger großskaliger Datensätze entscheidend“
- Meta entwickelte dafür die folgenden Datenfilter-Pipelines:
- heuristische Filter
- NSFW-Filter
- semantische Deduplizierung
- Textklassifikatoren zur Vorhersage der Datenqualität
- Kuratierung von Fine-Tuning-Daten:
- „Die größten Verbesserungen der Modellqualität wurden erreicht, indem Daten sorgfältig kuratiert und die Annotationen menschlicher Annotatoren durch mehrere Qualitätssicherungsstufen überprüft wurden“
- Kuratierung von Trainingsdaten:
- Effekte der Datenkuratierung:
- Laut dem Forschungsteam von Meta AI:
- kann Kuratierung die Trainingszeit um bis zu 20 % verkürzen
- verbessert sie die Downstream-Genauigkeit
- bietet sie selbst bei einer Erschöpfung von Internetdaten einen Weg zur Leistungssteigerung von Modellen
- Laut dem Forschungsteam von Meta AI:
- Künftige Richtung:
- Für Modelltraining und Fine-Tuning sind automatisierte hochwertige Datenfilter, Deduplizierung und Klassifikatoren wichtig
- Unternehmen wie Datology AI arbeiten daran, dies umzusetzen
4. Datenspeicherung für KI
- Es gibt drei große Trends bei der Speicherung von KI-Daten:
- Vektor-Datenbanken
- der Aufstieg von Data Lakes
- steigende Investitionen in Lakehouses
- Die Bedeutung von Vektor-Datenbanken:
- Vektor-Datenbanken gelten als eine der Schlüsseltechnologien des KI-Booms
- geeignet zur Speicherung von Daten-Embeddings (numerischen Repräsentationen):
- unstrukturierte Daten (Bilder, Audio, Video usw.) werden numerisch umgewandelt und gespeichert
- unterstützen semantische Suche (z. B. liefert die Suche nach „dog“ auch „wolf“ oder „puppy“)
- Formen von Vektor-Datenbanken:
- native Vektor-Datenbanken: speziell für die Vektorspeicherung konzipiert
- Erweiterungen bestehender Datenbanken: bestehende Datenbanken werden um Vektor-Support ergänzt
- Anwendungsfall: Personalisierung von LLMs
- kundenspezifische Unternehmensdaten werden als Vektor-Embeddings gespeichert und durchsuchbar gemacht
- KI-Agenten nutzen diese Struktur für maßgeschneiderte Erlebnisse
- Data Lakes und Lakehouses
- Der Aufstieg von Data Lakes:
- die meisten Unternehmen speichern große Datenmengen in Data Lakes
- für die Entwicklung kundenspezifischer KI ist die Nutzung von Data Lakes unverzichtbar
- Lakehouse-Architektur:
- bietet eine Architektur, mit der sich Data Lakes effizient verwalten und abfragen lassen
- Organisation der Daten in offenen Tabellenformaten:
- Einsatz von Iceberg, Delta Lake, Hudi usw.
- verbessert Datenorganisation und Query-Performance
- Die Rolle von Databricks:
- Databricks übernahm Tabular und vereinte so die Entwicklungsteams von Delta Lake und Iceberg
- erschwert den Einstieg für Wettbewerber und treibt die Entwicklung der Lakehouse-Technologie voran
- Der Aufstieg von Data Lakes:
5. KI-Gedächtnis
- Der Aufstieg des KI-Gedächtnisses:
- Seit der Ankündigung der Memory-Funktion von ChatGPT ist KI-Gedächtnis zu einem zentralen Diskussionsthema geworden
- Standard-KI-Systemen fehlt es an starkem episodischem Gedächtnis und Kontinuität zwischen Interaktionen:
- aktuelle Systeme befinden sich in einer Art Zustand des Kurzzeitgedächtnisverlusts
- Einschränkungen bei komplexem sequenziellem Schlussfolgern und beim Wissensaustausch in Multi-Agenten-Systemen
- Gedächtnis in Multi-Agenten-Systemen
- Mit der Entwicklung hin zu Multi-Agenten-Systemen werden Gedächtnisverwaltungssysteme zwischen Agenten erforderlich
- Funktionale Anforderungen:
- Unterstützung für agentenspezifisches Speichern von Erinnerungen und Zugriff über Sitzungen hinweg
- Einbeziehung von Zugriffs- und Datenschutzkontrollen
- Memory-Pooling zwischen Agenten:
- ein Agent kann auf Erfahrungen anderer Agenten zurückgreifen
- verbessert die Entscheidungsfähigkeit
- Bedarf an hierarchischem Gedächtnis:
- Speicherung von Erinnerungen in Ebenen nach Zugriffshäufigkeit, Wichtigkeit und Kosten
- MemGPT: führendes Framework für KI-Gedächtnisverwaltung
- Die Vision von MemGPT: LLMs sollen die Evolution des Betriebssystems (OS) der nächsten Generation vorantreiben
- Architekturüberblick:
- Gedächtnistypen:
- primäres Kontextgedächtnis: vergleichbar mit Hauptspeicher (RAM)
- externes Kontextgedächtnis: vergleichbar mit Festplattenspeicher/Disk Storage
- Gedächtnistypen:
- Die Bedeutung von KI-Gedächtnis
- unterstützt Personalisierung, Lernen und Reflexion (
reflection) und ist wesentlich für die Weiterentwicklung von KI-Anwendungen - verbessert durch Zusammenarbeit zwischen Agenten und gemeinsames Erinnern die Fähigkeit, komplexe Aufgaben zu lösen
- unterstützt Personalisierung, Lernen und Reflexion (
Chancen bei KI-Workloads
- KI-Workloads und Dateninfrastruktur:
- Der Aufstieg von GenAI hat nicht jeden Aspekt der Dateninfrastruktur verändert, doch das Auftreten der folgenden Technologien ist eine äußerst spannende Entwicklung:
- Extraktion und Pipelining unstrukturierter Daten
- Retrieval-Augmented Generation (RAG)
- Datenkuratierung
- Datenspeicherung
- KI-Gedächtnis
- Der Aufstieg von GenAI hat nicht jeden Aspekt der Dateninfrastruktur verändert, doch das Auftreten der folgenden Technologien ist eine äußerst spannende Entwicklung:
- Investitionsstrategie von Felicis
- Fokus auf die Zukunft von KI und Dateninfrastruktur:
- Investitionen in Startups rund um Daten- und Infrastrukturschichten
- wichtige Investmentbeispiele:
- Datology: Datenkuratierung
- Metaplane: Data Observability
- MotherDuck: serverloses Data Warehouse
- Weights & Biases: Tool für Experiment-Tracking
- Fokus auf die Zukunft von KI und Dateninfrastruktur:
- Wachstumspotenzial des KI-Marktes
- Skalierbarkeit:
- der KI-Markt expandiert stark, von Chatbots bis hin zu Multi-Agenten-Workflows
- wir stehen noch ganz am Anfang, und es gibt viel Raum für weitere Entwicklungen
- Bedeutung von Datenlösungen:
- Datenlösungen sind entscheidend für erfolgreiche KI-Anwendungen
- es wird erwartet, dass große Datengeschäfte aufgebaut werden, um KI-Workloads zu unterstützen
- Skalierbarkeit:
Noch keine Kommentare.