Jenseits von Bots: Wie AI Agents die nächste Welle der Enterprise-Automatisierung vorantreiben

xguru · 2024-10-07T11:21:01+09:00

Jede Tätigkeit lässt sich als Bündel von Aufgaben verstehen, das von Mensch und Maschine gemeinsam getragen wird Software übernimmt zwar immer mehr Aufgaben, doch die meisten Geschäftsprozesse liegen weiterhin in menschlicher Hand Von AI Agents wird erwartet, dass sie dieses Gleichgewicht der Arbeit grundlegend verändern Anders als frühere Softwaregenerationen können sie mit neuen kognitiven Architekturen End-to-End-Prozesse dynamisch automatisieren Es handelt sich nicht nur um AI, die lesen und schreiben kann, sondern um AI, die den Ablauf der Anwendungslogik bestimmt und im Namen des Nutzers handeln kann – und damit die größte Chance für LLMs im Enterprise-Bereich darstellt Ist das nicht einfach nur RPA? : Grenzen und Probleme von RPA Das klingt vielleicht vertraut, weil UiPath und Zapier in den vergangenen zehn Jahren unter dem Namen "Bot-Automatisierung" eine ähnliche Vision verkauft haben UiPath ist ein RPA-Gigant, der per Screen Scraping und GUI-Automatisierung Nutzerverhalten aufzeichnet und sequenzielle Schritte nachahmt, um Prozesse wie das Extrahieren von Informationen aus Dokumenten, das Verschieben von Ordnern, das Ausfüllen von Formularen oder das Aktualisieren von Datenbanken zu automatisieren Später führten iPaaS-Anbieter wie Zapier einen leichtgewichtigeren Ansatz der "API-Automatisierung" ein, der im Unterschied zu UiPath jedoch auf die Automatisierung von Web-Apps beschränkt ist UiPath und Zapier haben den Markt für kombinierbare, regelbasierte, horizontale Automatisierungsplattformen validiert, die den Long Tail von Enterprise-Prozessen innerhalb und zwischen abteilungs- oder branchenspezifischen Softwaresystemen adressieren Doch als Unternehmen Bot-basierte Automatisierung skalierten, wurde die Lücke zwischen den Fähigkeiten bestehender Architekturen und der versprochenen Autonomie immer deutlicher Es wird weiterhin viel Personal und manuelle Arbeit benötigt. Der Aufbau und die Wartung von Automatisierungen sind nach wie vor schmerzhaft manuell UI-Automatisierung ist fragil, API-Integrationen sind eingeschränkt. UI-Automatisierung bricht häufig bei Änderungen an der Softwareoberfläche, und APIs sind zwar stabiler, integrieren sich aber deutlich seltener mit Legacy- oder On-Premises-Software Unstrukturierte Daten lassen sich nicht verarbeiten. 80 % der Unternehmensdaten sind unstrukturierte oder semistrukturierte Daten, doch sequenzbasierte Automatisierung kann nicht intelligent mit ihnen arbeiten Selbst wenn bestehende RPA- und iPaaS-Lösungen LLMs integrieren wollen, bleiben sie an deterministische Architekturen gefesselt UiPaths Autopilot und Zapiers AI Actions setzen LLMs nur für untergeordnete Agent-Designmuster ein, etwa Text-zu-Aktion oder Nodes für semantische Suche, Synthese und One-Shot-Generierung Diese AI-Funktionen können leistungsfähig sein, lassen aber die wirklich transformierenden LLM-Anwendungsfälle in der Prozessautomatisierung weiterhin außen vor AI Agents sind als Entscheidungs-Engine grundlegend anders Im Unterschied zu heutigen RPA-Bots oder RAG-Apps stehen Agents im Zentrum des Kontrollflusses einer Anwendung als Entscheidungs-Engine Zum ersten Mal ermöglichen sie Anpassungsfähigkeit, mehrstufiges Handeln, komplexes Schlussfolgern und robuste Ausnahmebehandlung Am Beispiel des Invoice Reconciliation wird deutlich, was gemeint ist: In einem vereinfachten Prozessdiagramm zum Abgleich eines neuen Rechnungs-PDFs mit dem Hauptbuch eines Unternehmens wird die Komplexität des Workflows schnell unbeherrschbar Schon innerhalb der ersten drei Entscheidungsmengen wird es nahezu unmöglich, alle relevanten Ausnahmesituationen zu berücksichtigen Ein RPA-Bot, der diesen Workflow wie ein Roboter ausführt, scheitert häufig, eskaliert Fehler sowie teilweise Übereinstimmungen oder fehlende Positionen an Menschen weiter Wendet man jedoch einen Agent auf denselben Workflow an, liefert er deutlich bessere Ergebnisse Anpassung an neue Situationen: Auf Basis grundlegender Schlussfolgerung und relevanten Geschäftskontexts kann er neue Datenquellen, Rechnungsformate, Benennungskonventionen, Kontonummern, Richtlinienänderungen usw. intelligent erkennen und sich daran anpassen Mehrstufige Aufgaben möglich: Wenn Rechnungsbeträge nicht übereinstimmen, kann er mehrstufige Untersuchungen durchführen, etwa aktuelle E-Mails des Lieferanten prüfen, um mögliche Preisänderungen zu erkennen Komplexes Schlussfolgern: Wenn Rechnungen internationaler Lieferanten mit dem Hauptbuch abgeglichen werden müssen, sind Rechnungswährung, Hauptbuchwährung, Transaktionsdatum, Wechselkursschwankungen, grenzüberschreitende Gebühren und Bankgebühren gemeinsam zu recherchieren und zu berechnen. Ein Agent kann diese Art von Intelligenz leisten, während ein RPA-Bot an Menschen eskalieren würde Umgang mit Unsicherheit: Ausnahmen wie Rundungsfehler bei Einzelpositionen oder unleserliche Zahlen kann er robust im Kontext von Übereinstimmungen beim Gesamtbestellwert sowie dem zeitlichen Verlauf und der Häufigkeit früherer Rechnungen behandeln Marktlandschaft für AI Agents AI Agents sind keine Science-Fiction mehr. Von Startups bis zu Fortune-500-Unternehmen werden solche Systeme bereits in großem Maßstab gekauft und genutzt Der aktuelle Agent-Markt lässt sich entlang zweier Hauptdimensionen darstellen: Domainspezifität und LLM-Autonomie Domainspezifität: Das Spektrum reicht von spezialisierten Agents für vertikale Branchen oder Abteilungen wie Gesundheitswesen oder Kundensupport bis hin zu horizontalen Agent-Plattformen mit breiten, allgemeinen Funktionen LLM-Autonomie: Sie beschreibt, in welchem Maß das Sprachmodell die Anwendungslogik eigenständig planen und steuern kann Im rechten oberen Bereich der Marktkarte befinden sich die horizontalsten und am stärksten generalisierbaren Agents Enterprise agent: Skalierbare Plattformen, mit denen sich Agents über mehrere Funktionen und Workflows hinweg auf Basis natürlicher Sprach-SOPs oder Regeln, wie sie auch neuen Mitarbeitenden gegeben würden, aufbauen und verwalten lassen. Meist nutzen sie eine "agent on rails"-Architektur, bei der jeder neue Prozess auf einem vordefinierten Set aus Aufgaben, Geschäftskontext und Guardrails aufsetzen muss Browser agent: Sie folgen einem "general AI agent"-Design und nutzen Vision Transformer, die auf verschiedene Softwareoberflächen und zugrunde liegende Codebasen trainiert wurden, um Web-Browsing, visuelle UI-Aufgaben, Texteingabe und mehr zu automatisieren. Sie gewinnen an Generalisierbarkeit, opfern dafür aber tendenziell Konsistenz AI-gestützte Services: Damit ein "agent on rails"-Design in der Praxis funktioniert, braucht es umfangreiche Dateninfrastruktur und Guardrails. Deshalb bieten Unternehmen wie Distyl oder Agnetic Forward-Deployed-Engineering-Services an, um mit einem "Palantir for AI"-Modell die Lücke zum Kunden zu schließen Allerdings zielen nicht alle Agents auf horizontale und generalisierbare Einsätze. Immer mehr domänen- und workflowspezifische Agents erhöhen die Zuverlässigkeit, indem sie den Problemtyp eingrenzen Vertical agent: Die vielversprechendsten Chancen liegen in manuellen, prozeduralen Prozessen, die Menschen nach SOPs oder Regeln bearbeiten. Typische Kategorien sind Kundensupport, Recruiting, Softwareentwicklungsaufgaben wie Code-Review/Tests/Wartung, Cold Sales und Security Operations AI assistant: Eine weitere Möglichkeit, den Fokus von Agents zu verengen, ist nicht Domainspezifität, sondern Aufgabenspezifität. Im Unterschied zu den komplexen End-to-End-Prozessen von Enterprise- und Vertical-Agents erledigen sie einfachere, produktivitätsorientierte Aufgaben Zwar keine Agents im eigentlichen Sinn, doch generative-AI-Lösungen rund um RAG-Architekturen konkurrieren teils um dieselben Budgets und Workflows wie agentbasierte Lösungen Vertical AI: Die Automatisierungsplattform für das Gesundheitswesen Tennr treibt die Bearbeitung von Überweisungen voran, indem sie unstrukturierte Daten aus Faxen, PDFs, Telefonaten und anderen Quellen extrahiert und in das EHR einer Praxis eingibt, wodurch manuelle Dateneingaben durch Mitarbeitende entfallen RAG-as-a-Service: Unternehmen wie Danswer oder Gradient ermöglichen es Kunden, unstrukturierte Datenquellen wie PDFs abzufragen, Daten zu extrahieren und in stärker strukturierte Datenbanken oder Systeme einzuspeisen Enterprise search: Glean, Perplexity, Sana und andere bieten semantische Abfragen, um konzeptionell verwandte Dokumente zu indexieren und zu durchsuchen, Wissen organisationsweit besser zu verwalten und Datensilos aufzubrechen Die Zukunft der Enterprise-Automatisierung Die zweite Welle der generativen AI wird nicht nur durch Lesen und Schreiben definiert, sondern durch Agents, die im Namen des Nutzers denken und handeln können Mit zunehmender Reife dieser Architekturen werden sie zu einem starken Katalysator für die Eroberung der Service Economy durch AI

(menlovc.com)

9 Punkte von xguru 2024-10-07 | Noch keine Kommentare. | Auf WhatsApp teilen

Jede Tätigkeit lässt sich als Bündel von Aufgaben verstehen, das von Mensch und Maschine gemeinsam getragen wird
Software übernimmt zwar immer mehr Aufgaben, doch die meisten Geschäftsprozesse liegen weiterhin in menschlicher Hand
Von AI Agents wird erwartet, dass sie dieses Gleichgewicht der Arbeit grundlegend verändern
Anders als frühere Softwaregenerationen können sie mit neuen kognitiven Architekturen End-to-End-Prozesse dynamisch automatisieren
Es handelt sich nicht nur um AI, die lesen und schreiben kann, sondern um AI, die den Ablauf der Anwendungslogik bestimmt und im Namen des Nutzers handeln kann – und damit die größte Chance für LLMs im Enterprise-Bereich darstellt

Ist das nicht einfach nur RPA? : Grenzen und Probleme von RPA

Das klingt vielleicht vertraut, weil UiPath und Zapier in den vergangenen zehn Jahren unter dem Namen "Bot-Automatisierung" eine ähnliche Vision verkauft haben
UiPath ist ein RPA-Gigant, der per Screen Scraping und GUI-Automatisierung Nutzerverhalten aufzeichnet und sequenzielle Schritte nachahmt, um Prozesse wie das Extrahieren von Informationen aus Dokumenten, das Verschieben von Ordnern, das Ausfüllen von Formularen oder das Aktualisieren von Datenbanken zu automatisieren
Später führten iPaaS-Anbieter wie Zapier einen leichtgewichtigeren Ansatz der "API-Automatisierung" ein, der im Unterschied zu UiPath jedoch auf die Automatisierung von Web-Apps beschränkt ist
UiPath und Zapier haben den Markt für kombinierbare, regelbasierte, horizontale Automatisierungsplattformen validiert, die den Long Tail von Enterprise-Prozessen innerhalb und zwischen abteilungs- oder branchenspezifischen Softwaresystemen adressieren
Doch als Unternehmen Bot-basierte Automatisierung skalierten, wurde die Lücke zwischen den Fähigkeiten bestehender Architekturen und der versprochenen Autonomie immer deutlicher
- Es wird weiterhin viel Personal und manuelle Arbeit benötigt. Der Aufbau und die Wartung von Automatisierungen sind nach wie vor schmerzhaft manuell
- UI-Automatisierung ist fragil, API-Integrationen sind eingeschränkt. UI-Automatisierung bricht häufig bei Änderungen an der Softwareoberfläche, und APIs sind zwar stabiler, integrieren sich aber deutlich seltener mit Legacy- oder On-Premises-Software
- Unstrukturierte Daten lassen sich nicht verarbeiten. 80 % der Unternehmensdaten sind unstrukturierte oder semistrukturierte Daten, doch sequenzbasierte Automatisierung kann nicht intelligent mit ihnen arbeiten
Selbst wenn bestehende RPA- und iPaaS-Lösungen LLMs integrieren wollen, bleiben sie an deterministische Architekturen gefesselt
- UiPaths Autopilot und Zapiers AI Actions setzen LLMs nur für untergeordnete Agent-Designmuster ein, etwa Text-zu-Aktion oder Nodes für semantische Suche, Synthese und One-Shot-Generierung
Diese AI-Funktionen können leistungsfähig sein, lassen aber die wirklich transformierenden LLM-Anwendungsfälle in der Prozessautomatisierung weiterhin außen vor

AI Agents sind als Entscheidungs-Engine grundlegend anders

Im Unterschied zu heutigen RPA-Bots oder RAG-Apps stehen Agents im Zentrum des Kontrollflusses einer Anwendung als Entscheidungs-Engine
Zum ersten Mal ermöglichen sie Anpassungsfähigkeit, mehrstufiges Handeln, komplexes Schlussfolgern und robuste Ausnahmebehandlung
Am Beispiel des Invoice Reconciliation wird deutlich, was gemeint ist: In einem vereinfachten Prozessdiagramm zum Abgleich eines neuen Rechnungs-PDFs mit dem Hauptbuch eines Unternehmens wird die Komplexität des Workflows schnell unbeherrschbar
- Schon innerhalb der ersten drei Entscheidungsmengen wird es nahezu unmöglich, alle relevanten Ausnahmesituationen zu berücksichtigen
- Ein RPA-Bot, der diesen Workflow wie ein Roboter ausführt, scheitert häufig, eskaliert Fehler sowie teilweise Übereinstimmungen oder fehlende Positionen an Menschen weiter
Wendet man jedoch einen Agent auf denselben Workflow an, liefert er deutlich bessere Ergebnisse
- Anpassung an neue Situationen: Auf Basis grundlegender Schlussfolgerung und relevanten Geschäftskontexts kann er neue Datenquellen, Rechnungsformate, Benennungskonventionen, Kontonummern, Richtlinienänderungen usw. intelligent erkennen und sich daran anpassen
- Mehrstufige Aufgaben möglich: Wenn Rechnungsbeträge nicht übereinstimmen, kann er mehrstufige Untersuchungen durchführen, etwa aktuelle E-Mails des Lieferanten prüfen, um mögliche Preisänderungen zu erkennen
- Komplexes Schlussfolgern: Wenn Rechnungen internationaler Lieferanten mit dem Hauptbuch abgeglichen werden müssen, sind Rechnungswährung, Hauptbuchwährung, Transaktionsdatum, Wechselkursschwankungen, grenzüberschreitende Gebühren und Bankgebühren gemeinsam zu recherchieren und zu berechnen. Ein Agent kann diese Art von Intelligenz leisten, während ein RPA-Bot an Menschen eskalieren würde
- Umgang mit Unsicherheit: Ausnahmen wie Rundungsfehler bei Einzelpositionen oder unleserliche Zahlen kann er robust im Kontext von Übereinstimmungen beim Gesamtbestellwert sowie dem zeitlichen Verlauf und der Häufigkeit früherer Rechnungen behandeln

Marktlandschaft für AI Agents

AI Agents sind keine Science-Fiction mehr. Von Startups bis zu Fortune-500-Unternehmen werden solche Systeme bereits in großem Maßstab gekauft und genutzt
Der aktuelle Agent-Markt lässt sich entlang zweier Hauptdimensionen darstellen: Domainspezifität und LLM-Autonomie
- Domainspezifität: Das Spektrum reicht von spezialisierten Agents für vertikale Branchen oder Abteilungen wie Gesundheitswesen oder Kundensupport bis hin zu horizontalen Agent-Plattformen mit breiten, allgemeinen Funktionen
- LLM-Autonomie: Sie beschreibt, in welchem Maß das Sprachmodell die Anwendungslogik eigenständig planen und steuern kann
Im rechten oberen Bereich der Marktkarte befinden sich die horizontalsten und am stärksten generalisierbaren Agents
- Enterprise agent: Skalierbare Plattformen, mit denen sich Agents über mehrere Funktionen und Workflows hinweg auf Basis natürlicher Sprach-SOPs oder Regeln, wie sie auch neuen Mitarbeitenden gegeben würden, aufbauen und verwalten lassen. Meist nutzen sie eine "agent on rails"-Architektur, bei der jeder neue Prozess auf einem vordefinierten Set aus Aufgaben, Geschäftskontext und Guardrails aufsetzen muss
- Browser agent: Sie folgen einem "general AI agent"-Design und nutzen Vision Transformer, die auf verschiedene Softwareoberflächen und zugrunde liegende Codebasen trainiert wurden, um Web-Browsing, visuelle UI-Aufgaben, Texteingabe und mehr zu automatisieren. Sie gewinnen an Generalisierbarkeit, opfern dafür aber tendenziell Konsistenz
- AI-gestützte Services: Damit ein "agent on rails"-Design in der Praxis funktioniert, braucht es umfangreiche Dateninfrastruktur und Guardrails. Deshalb bieten Unternehmen wie Distyl oder Agnetic Forward-Deployed-Engineering-Services an, um mit einem "Palantir for AI"-Modell die Lücke zum Kunden zu schließen
Allerdings zielen nicht alle Agents auf horizontale und generalisierbare Einsätze. Immer mehr domänen- und workflowspezifische Agents erhöhen die Zuverlässigkeit, indem sie den Problemtyp eingrenzen
- Vertical agent: Die vielversprechendsten Chancen liegen in manuellen, prozeduralen Prozessen, die Menschen nach SOPs oder Regeln bearbeiten. Typische Kategorien sind Kundensupport, Recruiting, Softwareentwicklungsaufgaben wie Code-Review/Tests/Wartung, Cold Sales und Security Operations
- AI assistant: Eine weitere Möglichkeit, den Fokus von Agents zu verengen, ist nicht Domainspezifität, sondern Aufgabenspezifität. Im Unterschied zu den komplexen End-to-End-Prozessen von Enterprise- und Vertical-Agents erledigen sie einfachere, produktivitätsorientierte Aufgaben
Zwar keine Agents im eigentlichen Sinn, doch generative-AI-Lösungen rund um RAG-Architekturen konkurrieren teils um dieselben Budgets und Workflows wie agentbasierte Lösungen
- Vertical AI: Die Automatisierungsplattform für das Gesundheitswesen Tennr treibt die Bearbeitung von Überweisungen voran, indem sie unstrukturierte Daten aus Faxen, PDFs, Telefonaten und anderen Quellen extrahiert und in das EHR einer Praxis eingibt, wodurch manuelle Dateneingaben durch Mitarbeitende entfallen
- RAG-as-a-Service: Unternehmen wie Danswer oder Gradient ermöglichen es Kunden, unstrukturierte Datenquellen wie PDFs abzufragen, Daten zu extrahieren und in stärker strukturierte Datenbanken oder Systeme einzuspeisen
- Enterprise search: Glean, Perplexity, Sana und andere bieten semantische Abfragen, um konzeptionell verwandte Dokumente zu indexieren und zu durchsuchen, Wissen organisationsweit besser zu verwalten und Datensilos aufzubrechen

Die Zukunft der Enterprise-Automatisierung

Die zweite Welle der generativen AI wird nicht nur durch Lesen und Schreiben definiert, sondern durch Agents, die im Namen des Nutzers denken und handeln können
Mit zunehmender Reife dieser Architekturen werden sie zu einem starken Katalysator für die Eroberung der Service Economy durch AI