16 Punkte von xguru 2024-11-25 | Noch keine Kommentare. | Auf WhatsApp teilen

> „Wir stehen derzeit am Beginn einer neuen industriellen Revolution. Statt Strom zu erzeugen, erzeugen wir künstliche Intelligenz … [Open Source] ermöglicht es jedem Unternehmen, zu einem KI-Unternehmen zu werden.“ – Jensen Huang

  • Informationen aus Dokumenten zu extrahieren, ist kein neues Konzept. Doch generative KI (GenAI) benötigt große Mengen hochwertiger Daten
  • Daten sind sowohl für Training als auch für Inferenz wichtig, und der Umfang erweitert sich nicht nur mengenmäßig, sondern auch von Text- und Tabellendaten hin zu Video, Bild und Audio
  • Auch ein Wachstum räumlicher Daten wie Satellitenbilder und Robotersensordaten ist zu beobachten
  • Welche neuen Bereiche in der Datenschicht können durch KI am unmittelbarsten neu gestaltet werden?
    • Extraktion und Pipelines für unstrukturierte Daten, Retrieval-Augmented Generation (RAG), Datenkuratierung, Datenspeicherung, KI-Gedächtnis
  • Ziel dieses Artikels ist es, die Landschaft der AI-Dateninfrastruktur zu analysieren, aktuelle Trends zu teilen und über die vielversprechendsten Innovationsbereiche zu sprechen

Aktueller Stand der AI-Dateninfrastruktur

  • Der Datenfluss in der Wertschöpfungskette von KI-Daten wird vereinfacht visualisiert, um den Ablauf von Daten im Training und in der Inferenz zu erklären
  • Die Wertschöpfungskette der Dateninfrastruktur wird in sechs Hauptbereiche unterteilt
    • Datenquellen (Sources)
    • Datenerfassung und -transformation (Ingestion & Transformation)
    • Speicherung (Storage)
    • Training (Training)
    • Inferenz (Inference)
    • Datenservices (Data Services)

Datenquellen

  • App-Daten: Extraktion aus Salesforce, ServiceNow usw.
  • Echtzeitdaten: Sensor-, Fertigungs- und Gesundheitsdaten
  • OLTP-Datenbanken: Transaktionsdaten wie Oracle und MongoDB
  • Synthetische Daten: künstlich erzeugte Daten, die nicht in der realen Welt gesammelt wurden (e.g., Mostly AI, Datagen, Tonic)
    • kosteneffizient und vorteilhaft im Hinblick auf Daten-Compliance
    • allerdings begrenzte Optimierung der Modellleistung, da statistische Ausreißer unzureichend repräsentiert sind
  • Webdaten: Sammlung öffentlicher Daten per Web-Scraping (e.g., Browse AI, Apify)
    • unverzichtbar für das Training großskaliger Datenmodelle, jedoch könnten öffentliche Daten erschöpft sein (erwartet zwischen 2026 und 2032)

Datenerfassung und -transformation

  • Datenpipelines übertragen Daten vom Ursprungsort zum Ziel und transformieren sie in einen analysierbaren Zustand
    • ETL/ELT: traditioneller Ansatz (Batch-Verarbeitung, Stream-Verarbeitung)
    • Feature Engineering/Pipelines: im ML vor allem für die Verarbeitung tabellarischer Daten
    • Pipelines für unstrukturierte Daten: integrieren Extraktion, Transformation und Speicherung, um unstrukturierte Daten aufzubereiten und zu speichern
  • Pipeline-Typen
    • Batch-Verarbeitung: Daten werden in bestimmten Zeitintervallen extrahiert und geladen
    • Stream-Verarbeitung: Daten werden in Echtzeit geladen (Kafka, Flink usw.)
  • Tools und Frameworks
    • Streaming (Kafka, Confluent), Processing Engines (Databricks, Flink), Orchestrierungstools (Astronomer, Dagster, Airflow, Prefect usw.)
    • Labeling-Tools: LabelBox, Scale AI usw. (wichtig für das Labeling von Testdaten)
      • Batch: ETL (Airbyte, Fivetran), Transform (dbt, coalesce)
      • Verarbeitung unstrukturierter Daten: Datavolo, Unstructured, LlamaIndex usw.

Datenspeicherung

  • Traditioneller Ansatz: Speicherung im Data Warehouse
  • Für KI genutzte Daten:
    • Nutzung von Data-Lake- und Lakehouse-Strukturen
    • Speicherung von Daten-Embeddings über Vektor-Datenbanken
  • Wichtige Tools:
    • Data Lake: Databricks, Onehouse, Tabular, Amazon S3, GCS usw.
      • Vector DB: Pinecone, Chroma, Milvus, Weaviete usw.

Modelltraining

  • Trainingsmethoden:
    • überwachtes Lernen, unüberwachtes Lernen, Reinforcement Learning
  • Trainingsprozess großer Sprachmodelle (LLMs):
    • Vortraining: Erkennung von Datenmustern durch unüberwachtes Lernen
    • überwachtes Lernen: Optimierung der Leistung
    • Reinforcement Learning (RLHF): Leistungsverbesserung durch menschliches Feedback
  • Validierung und Evaluation:
    • Bewertung der Eignung des Modells anhand von Genauigkeit, Präzision, Minimierung des Loss usw.
  • Letzte Phase:
    • Sicherheitstests, Governance, Prüfung der Compliance
  • Wichtige Tools:
    • Training: TensorFlow, Modular
      • Evaluation: neptune.ai, Weights & Biases
      • MLOps: Databricks, H2O.ai, DataRobot, Dataiku, DOMINO
      • Model: OpenAI, Cohere, Mistral AI, Runway

Modellinferenz

  • Prozess:
    • Prompt-Eingabe → Tokenisierung/Vektorisierung → Datenverarbeitung → Erzeugung der Ausgabe
  • Anpassung:
    • Verknüpfung von Vektor-Datenbanken und LLMs
    • Erzeugung individueller Ergebnisse unter Berücksichtigung des Nutzerkontexts
  • Wesentliche Überlegungen:
    • Datensicherheit, Modellqualität, Compliance
  • Wichtige Tools:
    • Tooling: ANON, E2B
    • Memory: MemGPT, cognee.ai
    • RAG Framework: LangCHain, LlamaIndex, contextual.ai, databricks
    • Agent/App: ChatGPT, Claude, character.ai, Decagon, NormAi

Datenservices

  • Kategorien:
    • Datensicherheit: Zugriffskontrolle, Verhinderung von Datenabfluss (Rubrik, eureka, imperva, sentra, Dig, Cyera, Varonis, BigID)
    • Datentransparenz: Monitoring von Qualität und Leistung von Datenpipelines (Anomalo, datologyai, OBSERVE, MonteCarlo, Cleanlab, Scale AI, onum, metaplane)
    • Datenkatalog: Zentralisierung von Metadaten, Organisation von Datenbeständen (atlan, Alation, Collibra, Informatica, Acryl Data, CastorDoc, select star, data.world)
  • Fazit:
    • Je besser Daten organisiert sind, desto effizienter sind Sicherheit, Transparenz und Verwaltung

[Datenneugestaltung durch KI]

Durch KI werden in den folgenden Bereichen der Dateninfrastruktur Innovationen beobachtet:

1. Pipelines für unstrukturierte Daten für KI-Agenten und Anwendungen

  • Der Aufstieg unstrukturierter Datenpipelines:
    • steigende Nachfrage, interne unstrukturierte Daten in Conversational-AI- und Agenten-Anwendungen zu nutzen
    • unstrukturierte Datenpipelines umfassen ähnliche Prozesse wie traditionelle Datenpipelines: Datenextraktion, Transformation, Indizierung, Speicherung
  • Wichtige Datenquellen:
    • PDF-Texte, Wissensdatenbanken, Bilder usw.
    • vor allem Daten zur Unterstützung von Anwendungsfällen im Bereich Conversational AI
  • Differenzierungsmerkmale:
    • Unterschiede zu bestehenden Pipelines entstehen in der Transformationsphase:
      • Daten-Chunking (chunking): Aufteilung der Daten in kleine Einheiten
      • Metadatenextraktion: Erzeugung der für die Indizierung nötigen Daten
      • Embeddings: Umwandlung jedes Daten-Chunks in Vektorform zur Speicherung
  • Erfolgsfaktoren:
    • Die Wahl der Chunking-Strategie und des Embedding-Modells hat entscheidenden Einfluss auf die Genauigkeit der Datensuche
    • Aufkommen domänenspezifischer Embedding-Modelle: zum Beispiel Modelle, die auf Code oder juristische Inhalte spezialisiert sind
  • Nutzung vektorkompatibler Datenbanken:
    • Speicherung unstrukturierter Daten und Umwandlung in ein abfragbares Format
    • Personalisierung von LLMs durch RAG (Retrieval-Augmented Generation) und Agenten
  • Wichtige Beobachtungen
    • Teams probieren verschiedene Chunking-Strategien aus
    • Immer mehr domänenspezifische Embedding-Modelle tragen zur Verbesserung von Genauigkeit und Performance bei
    • Unternehmen suchen nach Tools, die Daten in leicht abfragbare Formate umwandeln

2. Retrieval-Augmented Generation (RAG)

  • RAG im Überblick:
    • RAG ist ein architektonischer Workflow, der benutzerdefinierte Daten nutzt, um die Effizienz von LLM-Anwendungen zu verbessern
    • Funktionsweise:
      • Daten laden und zur Verarbeitung von Abfragen „indizieren“
      • Abfragen filtern auf Basis des Index die relevantesten Daten
      • Der gefilterte Kontext und die Abfrage werden als Prompt an das LLM übergeben, das daraufhin eine Antwort erzeugt
    • Daten lassen sich als Teil des Produkterlebnisses aktivieren
  • Wichtige Vorteile von RAG:
    • Bereitstellung aktueller Informationen:
      • LLMs sind durch ihre Vortrainingsdaten begrenzt und können daher veraltete oder ungenaue Antworten liefern
      • RAG greift auf externe Informationsquellen zu und liefert aktuellere Antworten
    • Stärkung der Faktentreue:
      • RAG kompensiert das Problem, dass LLMs nicht immer präzise Informationen liefern
      • Mit kuratierten Wissensdatenbanken werden verlässlichere Informationen bereitgestellt
    • Quellenangaben:
      • Zitate und Anmerkungen können zu LLM-Antworten hinzugefügt werden
      • erhöht das Vertrauen der Nutzer

3. Datenkuratierung zur Verbesserung der Trainings- und Inferenzleistung

  • Datenkuratierung: der Prozess des Filterns und Zusammenstellens von Datensätzen für optimale Trainings- und Inferenzleistung
    • Hauptaufgaben:
      • Textklassifizierung
      • Anwendung von NSFW-Filtern
      • Deduplizierung von Daten
      • Optimierung der Batch-Größe
      • quellenseitige Optimierung auf Basis der Leistung
      • Datenaugmentation mit synthetischen Daten
  • Erkenntnisse aus der Ankündigung von Meta Llama-3:
    • Kuratierung von Trainingsdaten:
      • „Um die besten Sprachmodelle zu trainieren, ist die Kuratierung hochwertiger großskaliger Datensätze entscheidend“
      • Meta entwickelte dafür die folgenden Datenfilter-Pipelines:
        • heuristische Filter
        • NSFW-Filter
        • semantische Deduplizierung
        • Textklassifikatoren zur Vorhersage der Datenqualität
    • Kuratierung von Fine-Tuning-Daten:
      • „Die größten Verbesserungen der Modellqualität wurden erreicht, indem Daten sorgfältig kuratiert und die Annotationen menschlicher Annotatoren durch mehrere Qualitätssicherungsstufen überprüft wurden“
  • Effekte der Datenkuratierung:
    • Laut dem Forschungsteam von Meta AI:
      • kann Kuratierung die Trainingszeit um bis zu 20 % verkürzen
      • verbessert sie die Downstream-Genauigkeit
      • bietet sie selbst bei einer Erschöpfung von Internetdaten einen Weg zur Leistungssteigerung von Modellen
  • Künftige Richtung:
    • Für Modelltraining und Fine-Tuning sind automatisierte hochwertige Datenfilter, Deduplizierung und Klassifikatoren wichtig
    • Unternehmen wie Datology AI arbeiten daran, dies umzusetzen

4. Datenspeicherung für KI

  • Es gibt drei große Trends bei der Speicherung von KI-Daten:
    • Vektor-Datenbanken
    • der Aufstieg von Data Lakes
    • steigende Investitionen in Lakehouses
  • Die Bedeutung von Vektor-Datenbanken:
    • Vektor-Datenbanken gelten als eine der Schlüsseltechnologien des KI-Booms
    • geeignet zur Speicherung von Daten-Embeddings (numerischen Repräsentationen):
      • unstrukturierte Daten (Bilder, Audio, Video usw.) werden numerisch umgewandelt und gespeichert
      • unterstützen semantische Suche (z. B. liefert die Suche nach „dog“ auch „wolf“ oder „puppy“)
    • Formen von Vektor-Datenbanken:
      • native Vektor-Datenbanken: speziell für die Vektorspeicherung konzipiert
      • Erweiterungen bestehender Datenbanken: bestehende Datenbanken werden um Vektor-Support ergänzt
    • Anwendungsfall: Personalisierung von LLMs
      • kundenspezifische Unternehmensdaten werden als Vektor-Embeddings gespeichert und durchsuchbar gemacht
      • KI-Agenten nutzen diese Struktur für maßgeschneiderte Erlebnisse
  • Data Lakes und Lakehouses
    • Der Aufstieg von Data Lakes:
      • die meisten Unternehmen speichern große Datenmengen in Data Lakes
      • für die Entwicklung kundenspezifischer KI ist die Nutzung von Data Lakes unverzichtbar
    • Lakehouse-Architektur:
      • bietet eine Architektur, mit der sich Data Lakes effizient verwalten und abfragen lassen
      • Organisation der Daten in offenen Tabellenformaten:
        • Einsatz von Iceberg, Delta Lake, Hudi usw.
      • verbessert Datenorganisation und Query-Performance
    • Die Rolle von Databricks:
      • Databricks übernahm Tabular und vereinte so die Entwicklungsteams von Delta Lake und Iceberg
      • erschwert den Einstieg für Wettbewerber und treibt die Entwicklung der Lakehouse-Technologie voran

5. KI-Gedächtnis

  • Der Aufstieg des KI-Gedächtnisses:
    • Seit der Ankündigung der Memory-Funktion von ChatGPT ist KI-Gedächtnis zu einem zentralen Diskussionsthema geworden
    • Standard-KI-Systemen fehlt es an starkem episodischem Gedächtnis und Kontinuität zwischen Interaktionen:
      • aktuelle Systeme befinden sich in einer Art Zustand des Kurzzeitgedächtnisverlusts
      • Einschränkungen bei komplexem sequenziellem Schlussfolgern und beim Wissensaustausch in Multi-Agenten-Systemen
  • Gedächtnis in Multi-Agenten-Systemen
    • Mit der Entwicklung hin zu Multi-Agenten-Systemen werden Gedächtnisverwaltungssysteme zwischen Agenten erforderlich
    • Funktionale Anforderungen:
      • Unterstützung für agentenspezifisches Speichern von Erinnerungen und Zugriff über Sitzungen hinweg
      • Einbeziehung von Zugriffs- und Datenschutzkontrollen
      • Memory-Pooling zwischen Agenten:
        • ein Agent kann auf Erfahrungen anderer Agenten zurückgreifen
        • verbessert die Entscheidungsfähigkeit
    • Bedarf an hierarchischem Gedächtnis:
      • Speicherung von Erinnerungen in Ebenen nach Zugriffshäufigkeit, Wichtigkeit und Kosten
  • MemGPT: führendes Framework für KI-Gedächtnisverwaltung
    • Die Vision von MemGPT: LLMs sollen die Evolution des Betriebssystems (OS) der nächsten Generation vorantreiben
    • Architekturüberblick:
      • Gedächtnistypen:
        • primäres Kontextgedächtnis: vergleichbar mit Hauptspeicher (RAM)
        • externes Kontextgedächtnis: vergleichbar mit Festplattenspeicher/Disk Storage
  • Die Bedeutung von KI-Gedächtnis
    • unterstützt Personalisierung, Lernen und Reflexion (reflection) und ist wesentlich für die Weiterentwicklung von KI-Anwendungen
    • verbessert durch Zusammenarbeit zwischen Agenten und gemeinsames Erinnern die Fähigkeit, komplexe Aufgaben zu lösen

Chancen bei KI-Workloads

  • KI-Workloads und Dateninfrastruktur:
    • Der Aufstieg von GenAI hat nicht jeden Aspekt der Dateninfrastruktur verändert, doch das Auftreten der folgenden Technologien ist eine äußerst spannende Entwicklung:
      • Extraktion und Pipelining unstrukturierter Daten
      • Retrieval-Augmented Generation (RAG)
      • Datenkuratierung
      • Datenspeicherung
      • KI-Gedächtnis
  • Investitionsstrategie von Felicis
    • Fokus auf die Zukunft von KI und Dateninfrastruktur:
      • Investitionen in Startups rund um Daten- und Infrastrukturschichten
      • wichtige Investmentbeispiele:
        • Datology: Datenkuratierung
        • Metaplane: Data Observability
        • MotherDuck: serverloses Data Warehouse
        • Weights & Biases: Tool für Experiment-Tracking
  • Wachstumspotenzial des KI-Marktes
    • Skalierbarkeit:
      • der KI-Markt expandiert stark, von Chatbots bis hin zu Multi-Agenten-Workflows
      • wir stehen noch ganz am Anfang, und es gibt viel Raum für weitere Entwicklungen
    • Bedeutung von Datenlösungen:
      • Datenlösungen sind entscheidend für erfolgreiche KI-Anwendungen
      • es wird erwartet, dass große Datengeschäfte aufgebaut werden, um KI-Workloads zu unterstützen

Noch keine Kommentare.

Noch keine Kommentare.