Alles, was a16z über AI-Voice-Agenten zusammengefasst hat

xguru · 2024-06-12T11:07:01+09:00

Dank generativer KI wird es in Zukunft nicht mehr nötig sein, dass Menschen Telefongespräche führen Menschen werden nur dann Zeit für Telefongespräche aufwenden, wenn diese einen echten Mehrwert haben Vorteile für Unternehmen Zeit- und Personalkosteneinsparungen durch weniger menschliche Anrufer Möglichkeit, Ressourcen zur Steigerung der Umsatzgenerierung umzuschichten Geringeres Risiko durch stärker standardisierte und konsistente Kundenerfahrungen Vorteile für Verbraucher Voice-Agenten können Service auf menschlichem Niveau bieten, ohne dass man echte Menschen bezahlen oder mit ihnen "gematcht" werden muss Derzeit umfasst das etwa Therapeuten, Coaches und Begleiter Künftig wird dies wahrscheinlich ein viel breiteres Spektrum an sprachzentrierten Erlebnissen umfassen Wie bei den meisten anderen Consumer-Software-Produkten wird sich kaum vorhersagen lassen, wer die "Gewinner" sein werden Telefongespräche sind die API zur Kommunikation mit der Welt, und AI hebt sie auf die nächste Stufe Wo Chancen gesehen werden In jeder Schicht gibt es enorme Chancen: bei Infrastruktur-Playern, Consumer-Interfaces und Enterprise-Agenten Für B2C- und B2B-Voice-Agenten gibt es einige Hypothesen zu den interessantesten aufkommenden Produkten: Zentrale Merkmale von B2B- und B2C-Voice-Agenten Built to scale (für Skalierung gebaut) Latenz und Gesprächserlebnis sind noch nicht vollständig gelöst Gesucht werden Gründer mit einer klaren Meinung dazu, wie Agenten gebaut werden sollten Es wird daran gearbeitet, das jeweils Wichtigste an einem Agenten zu maximieren, etwa Geschwindigkeit, Genauigkeit sowie Ton und Emotion Vertically focused (vertikal fokussiert) Das können Performer-Agenten sein, die auf eng integrierten, einzigartig angepassten Modellen für bestimmte Use Cases basieren Solche Produkte sind leichter zu bauen, auf den Markt zu bringen und erfolgreich zu skalieren Realistic in scope (realistischer Umfang) Wichtige Anrufe vollständig an AI zu delegieren, ist eine große Herausforderung Es wird erwartet, dass Voice-Agent-Unternehmen kurzfristig auch Dinge tun, die sich nicht ohne Weiteres "skalieren" lassen Dazu kann kundenspezifisches Tuning gehören oder die Übergabe von Anrufen an menschliche Agenten für die letzten Schritte Der Stack für den Aufbau von Voice-Agenten Damit Voice-Agenten funktionieren, braucht es Folgendes: menschliche Sprache erfassen (ASR) diese Eingabe mit einem LLM verarbeiten und eine Ausgabe erzeugen wieder zu Menschen sprechen (TTS) Neue multimodale Modelle wie GPT-4o könnten die Struktur des Stacks verändern, indem sie mehrere dieser Schichten gleichzeitig in einem einzigen Modell "ausführen" Das kann Latenz und Kosten senken und natürlichere dialogorientierte Interfaces ermöglichen Viele Agenten haben mit dem unten beschriebenen zusammengesetzten Stack noch keine wirklich menschenähnliche Qualität erreicht Bei manchen Unternehmen bzw. Ansätzen übernimmt ein LLM oder eine Reihe von LLMs Gesprächsfluss und Emotion. In anderen Fällen gibt es eigene Engines, die Emotionen hinzufügen, Unterbrechungen managen usw. "Full-Stack"-Voice-Anbieter liefern all das an einem Ort. Consumer-(B2C)- und Enterprise-(B2B)-Apps liegen auf diesem Stack auf. Selbst bei der Nutzung von Drittanbietern binden Apps in der Regel ein benutzerdefiniertes LLM ein, das oft auch als Gesprächs-Engine fungiert. Full Stack vs. Selbst zusammengebaut: Vergleich der wichtigsten Faktoren Gründer von Voice-Agent-Startups können wählen, ob sie ihren Agenten auf einer Full-Stack-Plattform (z. B. Retell, Vapi, Bland) betreiben oder den Stack selbst zusammensetzen. Bei dieser Entscheidung spielen einige zentrale Faktoren eine Rolle: Complexity (Komplexität) Full-Stack-Player bieten eine einfachere Möglichkeit, Voice-Agenten zu bauen, indem sie die Komplexität der Infrastruktur abstrahieren Das lässt dennoch Raum für Anpassung und Tuning, etwa durch das Einbinden von Prompts oder Wissensdokumenten (RAG) in das LLM Flexibility (Flexibilität) Gründer, die für bestimmte vertikale Märkte und Use Cases bauen, wollen wahrscheinlich maximale Flexibilität darin, wie jede Schicht des Stacks arbeitet bzw. ausgeführt wird So lässt sich auch möglichst geringe Latenz erreichen Cost (Kosten) Full-Stack-Anbieter können zusätzliche Kosten pro Anruf einführen, verhandeln bei hohem Volumen aber möglicherweise bessere Preise Bei Voice-Agenten in großem Maßstab können schon ein paar Cent Unterschied pro Anruf relevant sein Control (Kontrolle) Wenn etwas schiefläuft, müssen Gründer von Voice-Agent-Startups Probleme sofort nachverfolgen und beheben können, besonders bei sensiblen Use Cases Außerdem kann maximale Transparenz darüber nötig sein, wie jede Schicht arbeitet Mit einem selbst zusammengestellten Stack ist das oft einfacher Wichtige Player im Stack Full Stack: hume, Retell AI, VAPI, vocode, sindarin., BLAND.AI Emotion: hume Text to Speech: ElevenLabs, Azure Speech to Text: Deepgram, Whisper, AssemblyAI, Azure Streaming: LiveKit, daily Unsere Sicht auf B2B-Agenten Die Entwicklung von AI Voice Wir befinden uns im Übergang von 1.0 AI Voice (Telefonbäume) zu 2.0 AI Voice (LLM-basiert) 2.0-Unternehmen sind in etwa den vergangenen sechs Monaten erstmals aufgetaucht 1.0-Unternehmen sind aktuell vielleicht noch genauer, langfristig dürfte der 2.0-Ansatz aber deutlich besser skalieren und präziser werden Die Notwendigkeit vertikal marktspezifischer Modelle Es wird kein einziges horizontales Modell oder keine einzige Plattform geben, die für alle Arten von Enterprise-Voice-Agenten geeignet ist Zwischen vertikalen Märkten gibt es einige wesentliche Unterschiede: Anrufarten, Tonalität und Struktur Integrationen und Prozesse GTM und "Killer-Features" Das könnte zu einer explosionsartigen Zunahme stark meinungsgetriebener vertikaler Agenten im UI führen Dafür braucht es Gründerteams mit Fachwissen oder starkem Interesse an dem jeweiligen Bereich Die nächstliegenden Chancen Für arbeitsintensive Unternehmen ist der TAM groß Kurzfristig könnten die größten Chancen in Branchen liegen, die: von telefonischen Terminbuchungen leben unter starkem Arbeitskräftemangel leiden eine geringe Komplexität bei Anrufen haben Je ausgereifter Agenten werden, desto eher werden sie auch komplexere Anrufe übernehmen können Die Entwicklung von B2B-Agenten Entwicklungspfad IVR (Interactive Voice Response): traditionelles Touch-Tone-Modell, bei dem der Agent dem Verbraucher eine Reihe von Optionen anbietet (1 für Vertrieb, 2 für Kundensupport usw.) und ihn entsprechend weiterleitet AI 1.0 (Phone Trees): eine etwas flexiblere und intuitivere Version von IVR, bei der Verbraucher in natürlicher Sprache sprechen und der Agent versucht, sie durch eine Reihe von Gesprächsabläufen zu führen AI 2.0 (LLMs): frei geführte Gespräche, bei denen AI nicht versucht, das Gesagte Menschen auf bestimmte vordefinierte Optionen abzubilden Viele Voice-Agent-Unternehmen verfolgen einen vertikalspezifischen Ansatz für bestimmte Branchen (z. B. Autoservice) oder bestimmte Aufgabentypen (z. B. Terminvereinbarung). Dafür gibt es mehrere Gründe: Schwierigkeit der Ausführung Die Qualitätsanforderungen, um Anrufe an AI zu übergeben, sind hoch, und Gesprächsabläufe (sowie kundenseitige Backend-Workflows) können schnell komplex oder sehr spezifisch werden Unternehmen, die die "Ausnahmefälle" dieser vertikalen Märkte abdecken, haben höhere Erfolgschancen (z. B. einzigartiges Vokabular, das ein allgemeines Modell missverstehen könnte) Regulierung und Lizenzen Manche Voice-Agent-Unternehmen stehen vor besonderen Einschränkungen, erforderlichen Zertifizierungen usw. Ein typisches Beispiel ist das Gesundheitswesen (z. B. HIPAA-Compliance), aber auch in Kategorien wie Sales, in denen es auf Länderebene Regulierung für AI-Cold-Calling gibt Integrationen In manchen Kategorien braucht es Long-Tail- oder spezialisierte Integrationen, um die User Experience für Unternehmen und Verbraucher wirklich gut umzusetzen. Das lohnt sich meist nur, wenn man einen spezifischen Use Case adressieren will Einstieg in andere Software Voice kann auf natürliche Weise in zentrale Kundenaktionen wie Buchungen, Verlängerungen oder Angebote eindringen In manchen Fällen kann das ein Sprungbrett in breitere vertikale SaaS-Plattformen für diese Unternehmen sein, besonders wenn deren Kundschaft noch stark offline arbeitet B2B-Agenten: Wo Chancen sichtbar sind LLM-basiert – aber nicht zwingend vom ersten Tag an zu 100 % automatisiert Die "starke Form" von AI-Voice-Agenten wird vollständig LLM-gesteuert sein und nicht auf IVR- oder Telefonbaum-Ansätzen beruhen Da LLMs im gesamten Ablauf noch nicht zu 100 % verlässlich sind, wird es bei sensibleren oder größeren Transaktionen wahrscheinlich vorübergehend weiterhin "Human-in-the-Loop" geben Das macht vertikalspezifische Workflows zusätzlich besonders wichtig, weil sie helfen, Edge Cases zu minimieren, die Erfolgswahrscheinlichkeit zu maximieren und menschliche Eingriffe zu reduzieren Benutzerdefiniertes Modell-Tuning vs. Prompting mit LLM-Ansätzen B2B-Voice-Agenten müssen spezialisierte bzw. vertikalspezifische Gespräche führen, für die allgemeine LLMs wahrscheinlich nicht ausreichen Viele Unternehmen tunen Modelle pro Kunde (mit einigen Hundert bis niedrigen Tausenden Datenpunkten) und leiten daraus möglicherweise ein unternehmensweites Basismodell ab Benutzerdefiniertes Tuning für Enterprise-Kunden könnte weiterhin bestehen bleiben Hinweis: Manche Unternehmen tunen ein "allgemeines" Modell (das kundenübergreifend genutzt wird) für einen bestimmten Use Case und steuern es dann pro Kunde per Prompt Technische Teams mit Domain-Expertise Angesichts der Komplexität hilft ein bestehender AI-Hintergrund wahrscheinlich beim Aufbau und bei der Skalierung hochwertiger B2B-Voice-Agenten Genauso wichtig dürfte aber auch Domain-Expertise oder starkes Interesse sein, um zu verstehen, wie man das Produkt paketiert und einen Keil in einen vertikalen Markt treibt Man braucht keinen Doktortitel in AI, um Enterprise-Voice-Agenten zu bauen und zu launchen! Eine klare Sicht auf Integrationen und das Ökosystem Ähnlich wie oben beschrieben gibt es in jedem vertikalen Markt einige bestimmte Funktionen oder Integrationen, die Käufer vor dem Kauf in der Regel sehen wollen Genau das kann in der Praxis der Beweis sein, der ein Produkt von "nützlich" zu "magisch" aufwertet Das ist ein weiterer Grund, warum es sinnvoll ist, zunächst ziemlich stark vertikalisiert zu starten "Enterprise-Grade" oder eine starke Product-Led-Growth-(PLG)-Motion In vertikalen Märkten, in denen viel Umsatz auf Top-Unternehmen oder Top-Anbieter konzentriert ist, können Voice-Agent-Unternehmen bei Großkunden starten und sich später mit einem Self-Service-Produkt auf KMU "nach unten" ausbreiten KMU-Kunden wollen diese Lösung dringend und sind bereit, verschiedene Optionen zu testen, liefern aber womöglich nicht die Daten in Qualität und Umfang, die ein Startup braucht, um sein Modell auf Enterprise-Niveau abzustimmen Unsere Sicht auf B2C-Agenten Unterschiede zu B2B Im B2B-Bereich ersetzen Voice-Agenten vor allem bestehende Telefongespräche, um bestimmte Aufgaben zu erledigen Bei Consumer-Agenten müssen Nutzer sich aktiv dafür entscheiden, engagiert zu bleiben, was schwierig ist, weil Sprachinteraktion nicht immer bequem ist Das bedeutet, dass die Produktanforderungen "höher" sind Erste Anwendungsfelder Das erste und offensichtlichste Anwendungsfeld für Consumer-Voice-Agenten ist der Ersatz teurer oder schwer zugänglicher menschlicher Dienstleistungen durch AI Dazu gehört alles Gesprächsbasierte, das sich virtuell erledigen lässt, etwa Therapie, Coaching oder Tutoring Möglichkeiten in der Zukunft Wir glauben jedoch, dass die eigentliche Magie von B2C-Voice-Agenten noch vor uns liegt! Gesucht werden Produkte, die mithilfe der Kraft von Sprache neue Arten von "Gesprächen" ermöglichen, die es zuvor nicht gab Das kann bestehende Dienstleistungsformen neu erfinden oder ganz neue Services hervorbringen Nachahmung menschlicher Verbundenheit Bei Produkten mit gut umgesetzter UX bieten Voice-Agenten die Chance, Verbraucher so stark einzubinden wie nie zuvor Software Es geht darum, echte menschliche Verbundenheit nachzuahmen Das kann sich als Agent-Produkt selbst oder als Sprachmodus innerhalb eines breiteren Produkts zeigen Die Entwicklung von B2C-Agenten Die bislang dominierenden Consumer-AI-Voice-Agenten stammen von großen Unternehmen, etwa ChatGPT Voice und die Pi-App von Inflection. Dafür, dass Consumer-Voice nur langsam aufkam, gibt es mehrere Gründe: Vorteil großer Unternehmen Große Unternehmen verfügen bereits über Consumer-Distribution und über Spitzenmodelle in Bezug auf Genauigkeit, Latenz usw. Voice ist nicht leicht in großem Maßstab bereitzustellen, besonders angesichts der jüngsten Einführung von GPT-4o Schwierige Einführung neuer Verhaltensweisen Während B2B-Voice-Agenten AI in bestehende Prozesse "einpluggen", müssen Nutzer bei B2C-Voice-Agenten neue Verhaltensweisen annehmen Das kann langsamere Entwicklung oder deutlich magischere Produkte erfordern Negative Wahrnehmung bestehender Voice-AI Verbraucher könnten durch Produkterfahrungen mit Siri und Ähnlichem negativ gegenüber Voice-AI geprägt sein und deshalb wenig motiviert sein, neue Apps auszuprobieren Breit aufgestellte Produkte decken die Basis-Use-Cases ab Breit aufgestellte Produkte können in der Regel die grundlegenden Use Cases von Voice-AI abdecken, etwa Tutoring oder Begleitung B2C-Voice-Startups stehen an dem Punkt, Use Cases oder Erlebnisse zu schaffen, die ChatGPT, Pi usw. nicht abdecken werden B2C-Agenten: Wo Chancen sichtbar sind Eine starke Sicht darauf, warum Voice nötig ist Wir sind begeistert von Produkten und Gründern, die eine klare Meinung dazu haben, welchen einzigartigen Wert Sprache in ihr Produkt bringt Nicht einfach nur "Voice um der Voice willen" In vielen Fällen ist ein Sprachinterface dem Textinterface sogar unterlegen, weil es unpraktischer ist, Informationen zu konsumieren und daraus etwas zu extrahieren Eine starke Sicht darauf, warum Echtzeit-Voice nötig ist Sprache ist schon schwer zu konsumieren, Echtzeit-Voice ist noch schwieriger (im Vergleich zu asynchronen Sprachnachrichten) Wir sind besonders gespannt auf Gründer, die eine klare Sicht darauf haben, warum ihr Produkt rund um Echtzeitgespräche aufgebaut sein muss Vielleicht für menschlich wirkende Begleitung, Übungsumgebungen usw. Keine bloße Entsprechung zu einem "Produkt" aus der Zeit vor AI Wir vermuten, dass starke Produkte nicht einfach nur frühere Mensch-zu-Mensch-Gespräche 1:1 in einen AI-Voice-Agenten übertragen werden, der einen menschlichen Anbieter ersetzt Erstens ist es schwer, diesem Maßstab gerecht zu werden Wichtiger noch: Mit AI besteht die Chance, denselben Wert besser zu liefern – effizienter und angenehmer Vertikalisierung, bei der nicht die Modellqualität über die Gewinner entscheidet Wichtige allgemeine Consumer-AI-Produkte wie ChatGPT, Pi und Claude verfügen über hochwertige Sprachmodi Sie können sich sinnvoll an vielen Arten von Gesprächen und Interaktionen beteiligen Weil sie ihre eigenen Modelle und ihren eigenen Stack hosten, werden sie kurzfristig wahrscheinlich bei Latenz und Gesprächsfluss vorn liegen Wir erwarten, dass Startups auf folgende Weise erfolgreich sein werden: durch Anpassung oder Tuning auf bestimmte Gesprächsarten oder durch den Aufbau einer UI, die dem Voice-Agent-Erlebnis mehr Kontext und Mehrwert gibt (z. B. Fortschrittsverfolgung im Zeitverlauf, meinungsstarke Steuerung von Gespräch und Erlebnis)

(a16z.com)

12 Punkte von xguru 2024-06-12 | 1 Kommentare | Auf WhatsApp teilen

Dank generativer KI wird es in Zukunft nicht mehr nötig sein, dass Menschen Telefongespräche führen
Menschen werden nur dann Zeit für Telefongespräche aufwenden, wenn diese einen echten Mehrwert haben

Vorteile für Unternehmen

Zeit- und Personalkosteneinsparungen durch weniger menschliche Anrufer
Möglichkeit, Ressourcen zur Steigerung der Umsatzgenerierung umzuschichten
Geringeres Risiko durch stärker standardisierte und konsistente Kundenerfahrungen

Vorteile für Verbraucher

Voice-Agenten können Service auf menschlichem Niveau bieten, ohne dass man echte Menschen bezahlen oder mit ihnen "gematcht" werden muss
- Derzeit umfasst das etwa Therapeuten, Coaches und Begleiter
- Künftig wird dies wahrscheinlich ein viel breiteres Spektrum an sprachzentrierten Erlebnissen umfassen
Wie bei den meisten anderen Consumer-Software-Produkten wird sich kaum vorhersagen lassen, wer die "Gewinner" sein werden

Telefongespräche sind die API zur Kommunikation mit der Welt, und AI hebt sie auf die nächste Stufe

Wo Chancen gesehen werden

In jeder Schicht gibt es enorme Chancen: bei Infrastruktur-Playern, Consumer-Interfaces und Enterprise-Agenten
Für B2C- und B2B-Voice-Agenten gibt es einige Hypothesen zu den interessantesten aufkommenden Produkten:

Zentrale Merkmale von B2B- und B2C-Voice-Agenten

Built to scale (für Skalierung gebaut)
- Latenz und Gesprächserlebnis sind noch nicht vollständig gelöst
- Gesucht werden Gründer mit einer klaren Meinung dazu, wie Agenten gebaut werden sollten
- Es wird daran gearbeitet, das jeweils Wichtigste an einem Agenten zu maximieren, etwa Geschwindigkeit, Genauigkeit sowie Ton und Emotion
Vertically focused (vertikal fokussiert)
- Das können Performer-Agenten sein, die auf eng integrierten, einzigartig angepassten Modellen für bestimmte Use Cases basieren
- Solche Produkte sind leichter zu bauen, auf den Markt zu bringen und erfolgreich zu skalieren
Realistic in scope (realistischer Umfang)
- Wichtige Anrufe vollständig an AI zu delegieren, ist eine große Herausforderung
- Es wird erwartet, dass Voice-Agent-Unternehmen kurzfristig auch Dinge tun, die sich nicht ohne Weiteres "skalieren" lassen
- Dazu kann kundenspezifisches Tuning gehören oder die Übergabe von Anrufen an menschliche Agenten für die letzten Schritte

Der Stack für den Aufbau von Voice-Agenten

Damit Voice-Agenten funktionieren, braucht es Folgendes:
- menschliche Sprache erfassen (ASR)
- diese Eingabe mit einem LLM verarbeiten und eine Ausgabe erzeugen
- wieder zu Menschen sprechen (TTS)
Neue multimodale Modelle wie GPT-4o könnten die Struktur des Stacks verändern, indem sie mehrere dieser Schichten gleichzeitig in einem einzigen Modell "ausführen"
- Das kann Latenz und Kosten senken und natürlichere dialogorientierte Interfaces ermöglichen
- Viele Agenten haben mit dem unten beschriebenen zusammengesetzten Stack noch keine wirklich menschenähnliche Qualität erreicht
Bei manchen Unternehmen bzw. Ansätzen übernimmt ein LLM oder eine Reihe von LLMs Gesprächsfluss und Emotion. In anderen Fällen gibt es eigene Engines, die Emotionen hinzufügen, Unterbrechungen managen usw.
- "Full-Stack"-Voice-Anbieter liefern all das an einem Ort.
Consumer-(B2C)- und Enterprise-(B2B)-Apps liegen auf diesem Stack auf.
Selbst bei der Nutzung von Drittanbietern binden Apps in der Regel ein benutzerdefiniertes LLM ein, das oft auch als Gesprächs-Engine fungiert.

Full Stack vs. Selbst zusammengebaut: Vergleich der wichtigsten Faktoren

Gründer von Voice-Agent-Startups können wählen, ob sie ihren Agenten auf einer Full-Stack-Plattform (z. B. Retell, Vapi, Bland) betreiben oder den Stack selbst zusammensetzen.
Bei dieser Entscheidung spielen einige zentrale Faktoren eine Rolle:
- Complexity (Komplexität)
  - Full-Stack-Player bieten eine einfachere Möglichkeit, Voice-Agenten zu bauen, indem sie die Komplexität der Infrastruktur abstrahieren
  - Das lässt dennoch Raum für Anpassung und Tuning, etwa durch das Einbinden von Prompts oder Wissensdokumenten (RAG) in das LLM
- Flexibility (Flexibilität)
  - Gründer, die für bestimmte vertikale Märkte und Use Cases bauen, wollen wahrscheinlich maximale Flexibilität darin, wie jede Schicht des Stacks arbeitet bzw. ausgeführt wird
  - So lässt sich auch möglichst geringe Latenz erreichen
- Cost (Kosten)
  - Full-Stack-Anbieter können zusätzliche Kosten pro Anruf einführen, verhandeln bei hohem Volumen aber möglicherweise bessere Preise
  - Bei Voice-Agenten in großem Maßstab können schon ein paar Cent Unterschied pro Anruf relevant sein
- Control (Kontrolle)
  - Wenn etwas schiefläuft, müssen Gründer von Voice-Agent-Startups Probleme sofort nachverfolgen und beheben können, besonders bei sensiblen Use Cases
  - Außerdem kann maximale Transparenz darüber nötig sein, wie jede Schicht arbeitet
  - Mit einem selbst zusammengestellten Stack ist das oft einfacher
Wichtige Player im Stack
- Full Stack: hume, Retell AI, VAPI, vocode, sindarin., BLAND.AI
- Emotion: hume
- Text to Speech: ElevenLabs, Azure
- Speech to Text: Deepgram, Whisper, AssemblyAI, Azure
- Streaming: LiveKit, daily

Unsere Sicht auf B2B-Agenten

Die Entwicklung von AI Voice

Wir befinden uns im Übergang von 1.0 AI Voice (Telefonbäume) zu 2.0 AI Voice (LLM-basiert)
2.0-Unternehmen sind in etwa den vergangenen sechs Monaten erstmals aufgetaucht
1.0-Unternehmen sind aktuell vielleicht noch genauer, langfristig dürfte der 2.0-Ansatz aber deutlich besser skalieren und präziser werden

Die Notwendigkeit vertikal marktspezifischer Modelle

Es wird kein einziges horizontales Modell oder keine einzige Plattform geben, die für alle Arten von Enterprise-Voice-Agenten geeignet ist
Zwischen vertikalen Märkten gibt es einige wesentliche Unterschiede:
1. Anrufarten, Tonalität und Struktur
2. Integrationen und Prozesse
3. GTM und "Killer-Features"
Das könnte zu einer explosionsartigen Zunahme stark meinungsgetriebener vertikaler Agenten im UI führen
Dafür braucht es Gründerteams mit Fachwissen oder starkem Interesse an dem jeweiligen Bereich

Die nächstliegenden Chancen

Für arbeitsintensive Unternehmen ist der TAM groß
Kurzfristig könnten die größten Chancen in Branchen liegen, die:
- von telefonischen Terminbuchungen leben
- unter starkem Arbeitskräftemangel leiden
- eine geringe Komplexität bei Anrufen haben
Je ausgereifter Agenten werden, desto eher werden sie auch komplexere Anrufe übernehmen können

Die Entwicklung von B2B-Agenten

Entwicklungspfad
- IVR (Interactive Voice Response): traditionelles Touch-Tone-Modell, bei dem der Agent dem Verbraucher eine Reihe von Optionen anbietet (1 für Vertrieb, 2 für Kundensupport usw.) und ihn entsprechend weiterleitet
- AI 1.0 (Phone Trees): eine etwas flexiblere und intuitivere Version von IVR, bei der Verbraucher in natürlicher Sprache sprechen und der Agent versucht, sie durch eine Reihe von Gesprächsabläufen zu führen
- AI 2.0 (LLMs): frei geführte Gespräche, bei denen AI nicht versucht, das Gesagte Menschen auf bestimmte vordefinierte Optionen abzubilden
Viele Voice-Agent-Unternehmen verfolgen einen vertikalspezifischen Ansatz für bestimmte Branchen (z. B. Autoservice) oder bestimmte Aufgabentypen (z. B. Terminvereinbarung). Dafür gibt es mehrere Gründe:
- Schwierigkeit der Ausführung
  - Die Qualitätsanforderungen, um Anrufe an AI zu übergeben, sind hoch, und Gesprächsabläufe (sowie kundenseitige Backend-Workflows) können schnell komplex oder sehr spezifisch werden
  - Unternehmen, die die "Ausnahmefälle" dieser vertikalen Märkte abdecken, haben höhere Erfolgschancen (z. B. einzigartiges Vokabular, das ein allgemeines Modell missverstehen könnte)
- Regulierung und Lizenzen
  - Manche Voice-Agent-Unternehmen stehen vor besonderen Einschränkungen, erforderlichen Zertifizierungen usw.
  - Ein typisches Beispiel ist das Gesundheitswesen (z. B. HIPAA-Compliance), aber auch in Kategorien wie Sales, in denen es auf Länderebene Regulierung für AI-Cold-Calling gibt
- Integrationen
  - In manchen Kategorien braucht es Long-Tail- oder spezialisierte Integrationen, um die User Experience für Unternehmen und Verbraucher wirklich gut umzusetzen. Das lohnt sich meist nur, wenn man einen spezifischen Use Case adressieren will
- Einstieg in andere Software
  - Voice kann auf natürliche Weise in zentrale Kundenaktionen wie Buchungen, Verlängerungen oder Angebote eindringen
  - In manchen Fällen kann das ein Sprungbrett in breitere vertikale SaaS-Plattformen für diese Unternehmen sein, besonders wenn deren Kundschaft noch stark offline arbeitet

B2B-Agenten: Wo Chancen sichtbar sind

LLM-basiert – aber nicht zwingend vom ersten Tag an zu 100 % automatisiert

Die "starke Form" von AI-Voice-Agenten wird vollständig LLM-gesteuert sein und nicht auf IVR- oder Telefonbaum-Ansätzen beruhen
Da LLMs im gesamten Ablauf noch nicht zu 100 % verlässlich sind, wird es bei sensibleren oder größeren Transaktionen wahrscheinlich vorübergehend weiterhin "Human-in-the-Loop" geben
Das macht vertikalspezifische Workflows zusätzlich besonders wichtig, weil sie helfen, Edge Cases zu minimieren, die Erfolgswahrscheinlichkeit zu maximieren und menschliche Eingriffe zu reduzieren

Benutzerdefiniertes Modell-Tuning vs. Prompting mit LLM-Ansätzen

B2B-Voice-Agenten müssen spezialisierte bzw. vertikalspezifische Gespräche führen, für die allgemeine LLMs wahrscheinlich nicht ausreichen
Viele Unternehmen tunen Modelle pro Kunde (mit einigen Hundert bis niedrigen Tausenden Datenpunkten) und leiten daraus möglicherweise ein unternehmensweites Basismodell ab
Benutzerdefiniertes Tuning für Enterprise-Kunden könnte weiterhin bestehen bleiben
- Hinweis: Manche Unternehmen tunen ein "allgemeines" Modell (das kundenübergreifend genutzt wird) für einen bestimmten Use Case und steuern es dann pro Kunde per Prompt

Technische Teams mit Domain-Expertise

Angesichts der Komplexität hilft ein bestehender AI-Hintergrund wahrscheinlich beim Aufbau und bei der Skalierung hochwertiger B2B-Voice-Agenten
Genauso wichtig dürfte aber auch Domain-Expertise oder starkes Interesse sein, um zu verstehen, wie man das Produkt paketiert und einen Keil in einen vertikalen Markt treibt
Man braucht keinen Doktortitel in AI, um Enterprise-Voice-Agenten zu bauen und zu launchen!

Eine klare Sicht auf Integrationen und das Ökosystem

Ähnlich wie oben beschrieben gibt es in jedem vertikalen Markt einige bestimmte Funktionen oder Integrationen, die Käufer vor dem Kauf in der Regel sehen wollen
Genau das kann in der Praxis der Beweis sein, der ein Produkt von "nützlich" zu "magisch" aufwertet
Das ist ein weiterer Grund, warum es sinnvoll ist, zunächst ziemlich stark vertikalisiert zu starten

"Enterprise-Grade" oder eine starke Product-Led-Growth-(PLG)-Motion

In vertikalen Märkten, in denen viel Umsatz auf Top-Unternehmen oder Top-Anbieter konzentriert ist, können Voice-Agent-Unternehmen bei Großkunden starten und sich später mit einem Self-Service-Produkt auf KMU "nach unten" ausbreiten
KMU-Kunden wollen diese Lösung dringend und sind bereit, verschiedene Optionen zu testen, liefern aber womöglich nicht die Daten in Qualität und Umfang, die ein Startup braucht, um sein Modell auf Enterprise-Niveau abzustimmen

Unsere Sicht auf B2C-Agenten

Unterschiede zu B2B

Im B2B-Bereich ersetzen Voice-Agenten vor allem bestehende Telefongespräche, um bestimmte Aufgaben zu erledigen
Bei Consumer-Agenten müssen Nutzer sich aktiv dafür entscheiden, engagiert zu bleiben, was schwierig ist, weil Sprachinteraktion nicht immer bequem ist
Das bedeutet, dass die Produktanforderungen "höher" sind

Erste Anwendungsfelder

Das erste und offensichtlichste Anwendungsfeld für Consumer-Voice-Agenten ist der Ersatz teurer oder schwer zugänglicher menschlicher Dienstleistungen durch AI
Dazu gehört alles Gesprächsbasierte, das sich virtuell erledigen lässt, etwa Therapie, Coaching oder Tutoring

Möglichkeiten in der Zukunft

Wir glauben jedoch, dass die eigentliche Magie von B2C-Voice-Agenten noch vor uns liegt!
Gesucht werden Produkte, die mithilfe der Kraft von Sprache neue Arten von "Gesprächen" ermöglichen, die es zuvor nicht gab
Das kann bestehende Dienstleistungsformen neu erfinden oder ganz neue Services hervorbringen

Nachahmung menschlicher Verbundenheit

Bei Produkten mit gut umgesetzter UX bieten Voice-Agenten die Chance, Verbraucher so stark einzubinden wie nie zuvor Software
Es geht darum, echte menschliche Verbundenheit nachzuahmen
Das kann sich als Agent-Produkt selbst oder als Sprachmodus innerhalb eines breiteren Produkts zeigen

Die Entwicklung von B2C-Agenten

Die bislang dominierenden Consumer-AI-Voice-Agenten stammen von großen Unternehmen, etwa ChatGPT Voice und die Pi-App von Inflection.
Dafür, dass Consumer-Voice nur langsam aufkam, gibt es mehrere Gründe:

Vorteil großer Unternehmen

Große Unternehmen verfügen bereits über Consumer-Distribution und über Spitzenmodelle in Bezug auf Genauigkeit, Latenz usw.
Voice ist nicht leicht in großem Maßstab bereitzustellen, besonders angesichts der jüngsten Einführung von GPT-4o

Schwierige Einführung neuer Verhaltensweisen

Während B2B-Voice-Agenten AI in bestehende Prozesse "einpluggen", müssen Nutzer bei B2C-Voice-Agenten neue Verhaltensweisen annehmen
Das kann langsamere Entwicklung oder deutlich magischere Produkte erfordern

Negative Wahrnehmung bestehender Voice-AI

Verbraucher könnten durch Produkterfahrungen mit Siri und Ähnlichem negativ gegenüber Voice-AI geprägt sein und deshalb wenig motiviert sein, neue Apps auszuprobieren

Breit aufgestellte Produkte decken die Basis-Use-Cases ab

Breit aufgestellte Produkte können in der Regel die grundlegenden Use Cases von Voice-AI abdecken, etwa Tutoring oder Begleitung
B2C-Voice-Startups stehen an dem Punkt, Use Cases oder Erlebnisse zu schaffen, die ChatGPT, Pi usw. nicht abdecken werden

B2C-Agenten: Wo Chancen sichtbar sind

Eine starke Sicht darauf, warum Voice nötig ist

Wir sind begeistert von Produkten und Gründern, die eine klare Meinung dazu haben, welchen einzigartigen Wert Sprache in ihr Produkt bringt
Nicht einfach nur "Voice um der Voice willen"
In vielen Fällen ist ein Sprachinterface dem Textinterface sogar unterlegen, weil es unpraktischer ist, Informationen zu konsumieren und daraus etwas zu extrahieren

Eine starke Sicht darauf, warum Echtzeit-Voice nötig ist

Sprache ist schon schwer zu konsumieren, Echtzeit-Voice ist noch schwieriger (im Vergleich zu asynchronen Sprachnachrichten)
Wir sind besonders gespannt auf Gründer, die eine klare Sicht darauf haben, warum ihr Produkt rund um Echtzeitgespräche aufgebaut sein muss
Vielleicht für menschlich wirkende Begleitung, Übungsumgebungen usw.

Keine bloße Entsprechung zu einem "Produkt" aus der Zeit vor AI

Wir vermuten, dass starke Produkte nicht einfach nur frühere Mensch-zu-Mensch-Gespräche 1:1 in einen AI-Voice-Agenten übertragen werden, der einen menschlichen Anbieter ersetzt
Erstens ist es schwer, diesem Maßstab gerecht zu werden
Wichtiger noch: Mit AI besteht die Chance, denselben Wert besser zu liefern – effizienter und angenehmer

Vertikalisierung, bei der nicht die Modellqualität über die Gewinner entscheidet

Wichtige allgemeine Consumer-AI-Produkte wie ChatGPT, Pi und Claude verfügen über hochwertige Sprachmodi
Sie können sich sinnvoll an vielen Arten von Gesprächen und Interaktionen beteiligen
Weil sie ihre eigenen Modelle und ihren eigenen Stack hosten, werden sie kurzfristig wahrscheinlich bei Latenz und Gesprächsfluss vorn liegen

Wir erwarten, dass Startups auf folgende Weise erfolgreich sein werden:

durch Anpassung oder Tuning auf bestimmte Gesprächsarten oder
durch den Aufbau einer UI, die dem Voice-Agent-Erlebnis mehr Kontext und Mehrwert gibt
- (z. B. Fortschrittsverfolgung im Zeitverlauf, meinungsstarke Steuerung von Gespräch und Erlebnis)

1 Kommentare

bus710 2024-06-13

Ich hatte die Gelegenheit, das Integrationsteam eines Enterprise-Unternehmens aus nächster Nähe zu sehen, und konnte in Echtzeit beobachten, wie ein Projekt lief, das dem im Haupttext sehr ähnlich ist.

Anfangs war das Ziel, den Kundenservice über AWS Connect zu automatisieren, dann kamen verteilte Traffic-Verarbeitung und sogar die Mitwirkung an der Planung besonderer Services für VVIP-Kunden dazu ... Es ist auch spannend zu sehen, wie der Umfang nach und nach wächst.

Dadurch ist die Service-Strategie ehrlich gesagt so, dass sich ein automatischer Antwort-Bot möglichst stark um Kunden kümmert, die wenig Geld einbringen, während menschliche Agenten Kunden mit hohen Einlagen möglichst schnell direkt kontaktieren. Das ist wohl unvermeidlich, haha