Der moderne AI-Stack: Designprinzipien für die Zukunft von Enterprise-AI-Architekturen

xguru · 2024-01-29T11:05:01+09:00

Definition des modernen AI-Stacks Ebene 1: Compute und Foundation Models – Umfasst die Foundation Models selbst sowie die Infrastruktur zum Trainieren, Fine-Tunen, Optimieren und Bereitstellen der Modelle Ebene 2: Daten – Umfasst die Infrastruktur, die LLMs mit dem passenden Kontext innerhalb unternehmensweiter Datensysteme verbindet, einschließlich zentraler Komponenten wie Datenvorverarbeitung, ETL und Datenpipelines, Vektordatenbanken, Metadatenspeichern und Context Caches Ebene 3: Deployment – Umfasst Tools, die Entwicklern helfen, AI-Anwendungen zu verwalten und zu orchestrieren. Agent-Frameworks, Prompt-Management sowie Model Routing und Orchestrierung Ebene 4: Observability – Umfasst Lösungen, die das Laufzeitverhalten von LLMs überwachen und sie vor Bedrohungen schützen Die neue AI-Reifekurve Die Marktstruktur und Technologien, die den modernen AI-Stack definieren, entwickeln sich rasant weiter, und zentrale Komponenten sowie führende Anbieter sind bereits entstanden Vor LLMs verlief ML-Entwicklung linear und war „modellzentriert“, doch LLMs haben den Wechsel zu einem „produktzentrierten“ Ansatz ermöglicht, sodass auch Teams ohne ML-Fachwissen AI in Produkte integrieren können Mit der Reifung des AI-Stacks wollen Entwicklungsteams AI-Erlebnisse durch unternehmens- oder kundenspezifische Daten anpassen AI-Reifekurve Stufe 1: Closed-source models only nur proprietäre Modelle Anfang 2023 konzentrierten sich Kosten und Engineering-Aufwand vor allem auf die Foundation Models selbst, mit nur einfacher Anpassung darüber hinaus, etwa durch Prompt Engineering oder Few-shot Learning Wichtige Anbieter proprietärer Modelle wie OpenAI und Anthropic gewannen in dieser Phase früh an Zugkraft und etablierten sich klar als erste Gewinner des modernen AI-Stacks Stufe 2: Retrieval-augmented generation Retrieval-augmented Generation Der Schwerpunkt der AI-Anwendungsentwicklung verlagert sich auf die Datenebene statt auf die Modellebene Insbesondere die Verbreitung von RAG erfordert leistungsfähigere Infrastrukturen in der Datenebene, etwa die Vektordatenbank Pinecone und die Datenvorverarbeitungs-Engine Unstructured Die meisten Unternehmen und Startups befinden sich derzeit in dieser Phase Stufe 3: Hybrid model deployment hybrides Model Deployment Führende Unternehmen wie Typeface und Descript beginnen, den Einsatz proprietärer Modelle für umfangreiche domänenspezifische Aufgaben durch Open Source zu ergänzen Anbieter für Model Deployment wie Modal, Baseten und Fireworks gewinnen spürbar an Zugkraft Ab Stufe 4: Custom models maßgeschneiderte Modelle Bislang gibt es nur wenige Unternehmen, die weit genug entwickelt sind, um eigene Modelle zu bauen oder dies überhaupt benötigen, doch künftig dürften mehr Anwendungsfälle in großen Unternehmen entstehen, die den Stack tiefer nutzen wollen Unternehmen wie Predibase und Lamini, die Tools für speichereffizientes Fine-Tuning bereitstellen, darunter 4-Bit-Quantisierung, QLoRA und Memory Paging/Offloading, werden dies unterstützen Vier zentrale Designprinzipien für den neuen AI-Infrastruktur-Stack Die AI-Revolution erzeugt nicht nur Nachfrage nach einem neuen Infrastruktur-Stack, sondern verändert auch, wie Unternehmen Anwendungsentwicklung, F&E-Ausgaben und Teamstrukturen angehen Zentrale Designprinzipien: 1. Der Großteil der Ausgaben fließt in Inference und Training Zu Beginn der LLM-Revolution schien es, als könne jedes Unternehmen irgendwann sein eigenes Large Language Model trainieren Modelle wie BloombergGPT, das im März 2023 vorgestellt wurde und ein speziell auf Finanzdaten trainiertes 50b-LLM ist, galten als Vorbote einer kommenden Flut an unternehmens- und domänenspezifischen LLMs Doch diese große Welle blieb aus Laut der jüngsten Enterprise-AI-Umfrage von Menlo Ventures entfallen fast 95 % der gesamten AI-Ausgaben auf Runtime und Pre-Training Umgekehrt ist dieses Verhältnis nur bei großen Foundation-Model-Anbietern wie Anthropic. In der Application Layer verwenden selbst fortgeschrittene AI-Builder wie Writer mehr als 80 % ihrer Compute-Ressourcen für Inference statt für Training 2. Wir leben in einer Multi-Model-Welt Kein einzelnes Modell kann „alle Modelle beherrschen“ 60 % der Unternehmen nutzen mehrere Modelle und routen Prompts an das jeweils leistungsstärkste Modell Ein Multi-Model-Ansatz beseitigt die Abhängigkeit von einem einzelnen Modell, bietet mehr Kontrolle und senkt die Kosten 3. RAG ist der dominante Architekturansatz LLMs sind hervorragende Inference-Engines, verfügen jedoch nur über begrenztes domänen- und unternehmensspezifisches Wissen Um nützliche AI-Erlebnisse zu schaffen, setzen Teams wissensverstärkende Techniken schnell ein, beginnend mit Retrieval-augmented Generation (RAG) RAG verleiht Foundation Models über Vektordatenbanken wie Pinecone ein unternehmensspezifisches „Gedächtnis“ Diese Technik liegt derzeit weit vor anderen Anpassungsansätzen im produktiven Einsatz, etwa Fine-Tuning, Low-rank Adaptation oder Adaptern, die überwiegend auf der Modellebene statt auf der Datenebene arbeiten Dieser Trend dürfte sich fortsetzen, und es wird erwartet, dass neue Teile der Datenebene, darunter Datenvorverarbeitungs-Engines wie Cleanlab und ETL-Pipelines wie Unstructured, in die Runtime-Architektur integriert werden 4. Jeder Entwickler ist jetzt ein AI-Entwickler Weltweit gibt es rund 30 Millionen Entwickler, aber nur 300.000 ML-Ingenieure und 30.000 ML-Forscher An der Spitze der ML-Innovation wird geschätzt, dass es weltweit nur etwa 50 Forscher gibt, die wissen, wie man Systeme auf dem Niveau von GPT-4 oder Claude 2 baut Angesichts dieser Realität ist die gute Nachricht, dass Aufgaben, die früher jahrelange Grundlagenforschung und hochentwickelte ML-Expertise erforderten, nun von Mainstream-Entwicklern, die Datensysteme auf Basis leistungsfähiger vortrainierter LLMs entwickeln, innerhalb von Tagen oder Wochen erledigt werden können Produkte wie Salesforce Einstein GPT (AI CoPilot für Sales) und Intuit Assist (ein auf Generative AI basierender Finanzassistent) werden überwiegend von schlanken Teams gebaut, die hauptsächlich aus AI-Ingenieuren bestehen, also klassischen Full-Stack-Ingenieuren, die auf der Datenebene des modernen AI-Stacks arbeiten Nächste Schritte Der moderne AI-Stack entwickelt sich rasant weiter, und es zeichnen sich mehrere Entwicklungen ab, die sich im Laufe dieses Jahres fortsetzen dürften Die nächste Generation von AI-Anwendungen erprobt fortschrittlicheres RAG RAG ist heute der König, doch dieser Ansatz ist nicht ohne Probleme Viele Implementierungen nutzen noch immer naive Embedding- und Retrieval-Techniken, darunter dokumentenbezogene Chunks auf Basis der Token-Anzahl sowie ineffiziente Indexierungs- und Ranking-Algorithmen Dadurch entstehen Probleme wie Kontextfragmentierung, Halluzinationen, geringe Entity-Abdeckung und ineffiziente Suche Um diese Probleme zu lösen, testen Architekturen der nächsten Generation fortschrittlicheres RAG: Chain-Of-Thought-Reasoning, Tree-Of-Thought-Reasoning, Reflexion, regelbasiertes Retrieval und mehr Kleine Modelle werden im modernen AI-Stack an Bedeutung gewinnen Je stärker sich Entwickler von AI-Anwendungen auf tiefere Ebenen des modernen AI-Stacks konzentrieren, desto mehr fein abgestimmte und aufgabenbezogene Modelle dürften entstehen Für bestimmte Bereiche, in denen größere proprietäre Modelle unhandlich oder zu teuer sind, werden feinjustierte, aufgabenspezifische Modelle zunehmen Infrastruktur zum Aufbau von ML-Pipelines und für Fine-Tuning wird in dieser Phase besonders wichtig, da Unternehmen ihre eigenen aufgabenspezifischen Modelle erstellen Von Ollama und ggml bereitgestellte Quantisierungstechniken helfen Teams dabei, die maximalen Geschwindigkeitsvorteile kleiner Modelle auszuschöpfen Es entstehen neue Tools für Observability und Model Evaluation Während eines Großteils von 2023 wurde Logging und Evaluierung entweder gar nicht durchgeführt, manuell erledigt oder anhand akademischer Benchmarks bewertet, die für die meisten Enterprise-Anwendungen den Ausgangspunkt bilden Laut einer Untersuchung von Criteo prüfen etwa 70 % der Unternehmen, die AI eingeführt haben, die Ergebnisse hauptsächlich durch menschliche Begutachtung, weil die Risiken hoch sind Kunden erwarten qualitativ hochwertige Ergebnisse und haben auch Anspruch darauf, und Unternehmen wissen sehr genau, dass sie durch Halluzinationen das Vertrauen ihrer Kunden verlieren können Deshalb bieten Observability und Evaluation eine wichtige Chance für neue Tools Vielversprechende neue Ansätze wie Braintrust, Patronus, Log10 und AgentOps sind bereits entstanden Architekturen werden sich in Richtung Serverless bewegen Wie andere Enterprise-Datensysteme bewegt sich auch der moderne AI-Stack im Laufe der Zeit in Richtung Serverless Dabei wird zwischen „temporären Maschinen“-Typen von Serverless, etwa Lambda Functions, und echtem Scale-to-zero-Serverless, etwa der Neon-Architektur für Postgres, unterschieden Bei Scale-to-zero-Serverless abstrahiert die Infrastruktur die Komplexität, sodass Entwickler weniger operative Last beim Ausführen von Anwendungen haben, schneller iterieren können und Unternehmen durch die Abrechnung nach Verfügbarkeit statt nach reiner Compute-Nutzung erhebliche Ressourcenoptimierung erreichen Das Serverless-Paradigma wird auf alle Teile des modernen AI-Stacks angewendet werden Pinecone verfolgt diesen Ansatz als moderne Architektur für Vector Computing Neon macht dies für Postgres, Momento für Caching sowie Baseten und Modal für Inference

(menlovc.com)

28 Punkte von xguru 2024-01-29 | 6 Kommentare | Auf WhatsApp teilen

Definition des modernen AI-Stacks

Ebene 1: Compute und Foundation Models – Umfasst die Foundation Models selbst sowie die Infrastruktur zum Trainieren, Fine-Tunen, Optimieren und Bereitstellen der Modelle
Ebene 2: Daten – Umfasst die Infrastruktur, die LLMs mit dem passenden Kontext innerhalb unternehmensweiter Datensysteme verbindet, einschließlich zentraler Komponenten wie Datenvorverarbeitung, ETL und Datenpipelines, Vektordatenbanken, Metadatenspeichern und Context Caches
Ebene 3: Deployment – Umfasst Tools, die Entwicklern helfen, AI-Anwendungen zu verwalten und zu orchestrieren. Agent-Frameworks, Prompt-Management sowie Model Routing und Orchestrierung
Ebene 4: Observability – Umfasst Lösungen, die das Laufzeitverhalten von LLMs überwachen und sie vor Bedrohungen schützen

Die neue AI-Reifekurve

Die Marktstruktur und Technologien, die den modernen AI-Stack definieren, entwickeln sich rasant weiter, und zentrale Komponenten sowie führende Anbieter sind bereits entstanden
Vor LLMs verlief ML-Entwicklung linear und war „modellzentriert“, doch LLMs haben den Wechsel zu einem „produktzentrierten“ Ansatz ermöglicht, sodass auch Teams ohne ML-Fachwissen AI in Produkte integrieren können
Mit der Reifung des AI-Stacks wollen Entwicklungsteams AI-Erlebnisse durch unternehmens- oder kundenspezifische Daten anpassen
AI-Reifekurve
- Stufe 1: Closed-source models only nur proprietäre Modelle
  - Anfang 2023 konzentrierten sich Kosten und Engineering-Aufwand vor allem auf die Foundation Models selbst, mit nur einfacher Anpassung darüber hinaus, etwa durch Prompt Engineering oder Few-shot Learning
  - Wichtige Anbieter proprietärer Modelle wie OpenAI und Anthropic gewannen in dieser Phase früh an Zugkraft und etablierten sich klar als erste Gewinner des modernen AI-Stacks
- Stufe 2: Retrieval-augmented generation Retrieval-augmented Generation
  - Der Schwerpunkt der AI-Anwendungsentwicklung verlagert sich auf die Datenebene statt auf die Modellebene
  - Insbesondere die Verbreitung von RAG erfordert leistungsfähigere Infrastrukturen in der Datenebene, etwa die Vektordatenbank Pinecone und die Datenvorverarbeitungs-Engine Unstructured
  - Die meisten Unternehmen und Startups befinden sich derzeit in dieser Phase
- Stufe 3: Hybrid model deployment hybrides Model Deployment
  - Führende Unternehmen wie Typeface und Descript beginnen, den Einsatz proprietärer Modelle für umfangreiche domänenspezifische Aufgaben durch Open Source zu ergänzen
  - Anbieter für Model Deployment wie Modal, Baseten und Fireworks gewinnen spürbar an Zugkraft
- Ab Stufe 4: Custom models maßgeschneiderte Modelle
  - Bislang gibt es nur wenige Unternehmen, die weit genug entwickelt sind, um eigene Modelle zu bauen oder dies überhaupt benötigen, doch künftig dürften mehr Anwendungsfälle in großen Unternehmen entstehen, die den Stack tiefer nutzen wollen
  - Unternehmen wie Predibase und Lamini, die Tools für speichereffizientes Fine-Tuning bereitstellen, darunter 4-Bit-Quantisierung, QLoRA und Memory Paging/Offloading, werden dies unterstützen

Vier zentrale Designprinzipien für den neuen AI-Infrastruktur-Stack

Die AI-Revolution erzeugt nicht nur Nachfrage nach einem neuen Infrastruktur-Stack, sondern verändert auch, wie Unternehmen Anwendungsentwicklung, F&E-Ausgaben und Teamstrukturen angehen
Zentrale Designprinzipien:
- 1. Der Großteil der Ausgaben fließt in Inference und Training
  - Zu Beginn der LLM-Revolution schien es, als könne jedes Unternehmen irgendwann sein eigenes Large Language Model trainieren
  - Modelle wie BloombergGPT, das im März 2023 vorgestellt wurde und ein speziell auf Finanzdaten trainiertes 50b-LLM ist, galten als Vorbote einer kommenden Flut an unternehmens- und domänenspezifischen LLMs
  - Doch diese große Welle blieb aus
  - Laut der jüngsten Enterprise-AI-Umfrage von Menlo Ventures entfallen fast 95 % der gesamten AI-Ausgaben auf Runtime und Pre-Training
  - Umgekehrt ist dieses Verhältnis nur bei großen Foundation-Model-Anbietern wie Anthropic. In der Application Layer verwenden selbst fortgeschrittene AI-Builder wie Writer mehr als 80 % ihrer Compute-Ressourcen für Inference statt für Training
- 2. Wir leben in einer Multi-Model-Welt
  - Kein einzelnes Modell kann „alle Modelle beherrschen“
  - 60 % der Unternehmen nutzen mehrere Modelle und routen Prompts an das jeweils leistungsstärkste Modell
  - Ein Multi-Model-Ansatz beseitigt die Abhängigkeit von einem einzelnen Modell, bietet mehr Kontrolle und senkt die Kosten
- 3. RAG ist der dominante Architekturansatz
  - LLMs sind hervorragende Inference-Engines, verfügen jedoch nur über begrenztes domänen- und unternehmensspezifisches Wissen
  - Um nützliche AI-Erlebnisse zu schaffen, setzen Teams wissensverstärkende Techniken schnell ein, beginnend mit Retrieval-augmented Generation (RAG)
  - RAG verleiht Foundation Models über Vektordatenbanken wie Pinecone ein unternehmensspezifisches „Gedächtnis“
  - Diese Technik liegt derzeit weit vor anderen Anpassungsansätzen im produktiven Einsatz, etwa Fine-Tuning, Low-rank Adaptation oder Adaptern, die überwiegend auf der Modellebene statt auf der Datenebene arbeiten
  - Dieser Trend dürfte sich fortsetzen, und es wird erwartet, dass neue Teile der Datenebene, darunter Datenvorverarbeitungs-Engines wie Cleanlab und ETL-Pipelines wie Unstructured, in die Runtime-Architektur integriert werden
- 4. Jeder Entwickler ist jetzt ein AI-Entwickler
  - Weltweit gibt es rund 30 Millionen Entwickler, aber nur 300.000 ML-Ingenieure und 30.000 ML-Forscher
  - An der Spitze der ML-Innovation wird geschätzt, dass es weltweit nur etwa 50 Forscher gibt, die wissen, wie man Systeme auf dem Niveau von GPT-4 oder Claude 2 baut
  - Angesichts dieser Realität ist die gute Nachricht, dass Aufgaben, die früher jahrelange Grundlagenforschung und hochentwickelte ML-Expertise erforderten, nun von Mainstream-Entwicklern, die Datensysteme auf Basis leistungsfähiger vortrainierter LLMs entwickeln, innerhalb von Tagen oder Wochen erledigt werden können
  - Produkte wie Salesforce Einstein GPT (AI CoPilot für Sales) und Intuit Assist (ein auf Generative AI basierender Finanzassistent) werden überwiegend von schlanken Teams gebaut, die hauptsächlich aus AI-Ingenieuren bestehen, also klassischen Full-Stack-Ingenieuren, die auf der Datenebene des modernen AI-Stacks arbeiten

Nächste Schritte

Der moderne AI-Stack entwickelt sich rasant weiter, und es zeichnen sich mehrere Entwicklungen ab, die sich im Laufe dieses Jahres fortsetzen dürften
Die nächste Generation von AI-Anwendungen erprobt fortschrittlicheres RAG
- RAG ist heute der König, doch dieser Ansatz ist nicht ohne Probleme
- Viele Implementierungen nutzen noch immer naive Embedding- und Retrieval-Techniken, darunter dokumentenbezogene Chunks auf Basis der Token-Anzahl sowie ineffiziente Indexierungs- und Ranking-Algorithmen
- Dadurch entstehen Probleme wie Kontextfragmentierung, Halluzinationen, geringe Entity-Abdeckung und ineffiziente Suche
- Um diese Probleme zu lösen, testen Architekturen der nächsten Generation fortschrittlicheres RAG: Chain-Of-Thought-Reasoning, Tree-Of-Thought-Reasoning, Reflexion, regelbasiertes Retrieval und mehr
Kleine Modelle werden im modernen AI-Stack an Bedeutung gewinnen
- Je stärker sich Entwickler von AI-Anwendungen auf tiefere Ebenen des modernen AI-Stacks konzentrieren, desto mehr fein abgestimmte und aufgabenbezogene Modelle dürften entstehen
- Für bestimmte Bereiche, in denen größere proprietäre Modelle unhandlich oder zu teuer sind, werden feinjustierte, aufgabenspezifische Modelle zunehmen
- Infrastruktur zum Aufbau von ML-Pipelines und für Fine-Tuning wird in dieser Phase besonders wichtig, da Unternehmen ihre eigenen aufgabenspezifischen Modelle erstellen
- Von Ollama und ggml bereitgestellte Quantisierungstechniken helfen Teams dabei, die maximalen Geschwindigkeitsvorteile kleiner Modelle auszuschöpfen
Es entstehen neue Tools für Observability und Model Evaluation
- Während eines Großteils von 2023 wurde Logging und Evaluierung entweder gar nicht durchgeführt, manuell erledigt oder anhand akademischer Benchmarks bewertet, die für die meisten Enterprise-Anwendungen den Ausgangspunkt bilden
- Laut einer Untersuchung von Criteo prüfen etwa 70 % der Unternehmen, die AI eingeführt haben, die Ergebnisse hauptsächlich durch menschliche Begutachtung, weil die Risiken hoch sind
- Kunden erwarten qualitativ hochwertige Ergebnisse und haben auch Anspruch darauf, und Unternehmen wissen sehr genau, dass sie durch Halluzinationen das Vertrauen ihrer Kunden verlieren können
- Deshalb bieten Observability und Evaluation eine wichtige Chance für neue Tools
- Vielversprechende neue Ansätze wie Braintrust, Patronus, Log10 und AgentOps sind bereits entstanden
Architekturen werden sich in Richtung Serverless bewegen
- Wie andere Enterprise-Datensysteme bewegt sich auch der moderne AI-Stack im Laufe der Zeit in Richtung Serverless
- Dabei wird zwischen „temporären Maschinen“-Typen von Serverless, etwa Lambda Functions, und echtem Scale-to-zero-Serverless, etwa der Neon-Architektur für Postgres, unterschieden
- Bei Scale-to-zero-Serverless abstrahiert die Infrastruktur die Komplexität, sodass Entwickler weniger operative Last beim Ausführen von Anwendungen haben, schneller iterieren können und Unternehmen durch die Abrechnung nach Verfügbarkeit statt nach reiner Compute-Nutzung erhebliche Ressourcenoptimierung erreichen
- Das Serverless-Paradigma wird auf alle Teile des modernen AI-Stacks angewendet werden
- Pinecone verfolgt diesen Ansatz als moderne Architektur für Vector Computing
- Neon macht dies für Postgres, Momento für Caching sowie Baseten und Modal für Inference

6 Kommentare

hyeonseokoh94 2024-01-31

Ein guter und interessanter Artikel.

galadbran 2024-01-30

https://de.news.hada.io/topic?id=6658 Neon - serverloses Postgres als Open Source

kaistj 2024-01-30

Ich hoffe, dass in diesem sich wandelnden Umfeld viele neue Chancen entstehen~
In eine gute Richtung

dlehals2 2024-01-29

Gibt es weltweit nur etwa 30 Millionen Entwickler??

xguru 2024-01-29

Laut dem häufig zitierten Bericht der Evans Data Corporation waren es 2022 etwa 26,3 Millionen.
https://www.evansdata.com/press/viewRelease.php?pressID=339

Zwar haben inzwischen mehr als 100 Millionen Entwickler GitHub genutzt, aber es ist wohl schwer, sie alle als Entwickler zu betrachten.
https://github.blog/2023-01-25-100-million-developers-and-counting/