- Dank generativer KI wird es in Zukunft nicht mehr nötig sein, dass Menschen Telefongespräche führen
- Menschen werden nur dann Zeit für Telefongespräche aufwenden, wenn diese einen echten Mehrwert haben
Vorteile für Unternehmen
- Zeit- und Personalkosteneinsparungen durch weniger menschliche Anrufer
- Möglichkeit, Ressourcen zur Steigerung der Umsatzgenerierung umzuschichten
- Geringeres Risiko durch stärker standardisierte und konsistente Kundenerfahrungen
Vorteile für Verbraucher
- Voice-Agenten können Service auf menschlichem Niveau bieten, ohne dass man echte Menschen bezahlen oder mit ihnen "gematcht" werden muss
- Derzeit umfasst das etwa Therapeuten, Coaches und Begleiter
- Künftig wird dies wahrscheinlich ein viel breiteres Spektrum an sprachzentrierten Erlebnissen umfassen
- Wie bei den meisten anderen Consumer-Software-Produkten wird sich kaum vorhersagen lassen, wer die "Gewinner" sein werden
Telefongespräche sind die API zur Kommunikation mit der Welt, und AI hebt sie auf die nächste Stufe
Wo Chancen gesehen werden
- In jeder Schicht gibt es enorme Chancen: bei Infrastruktur-Playern, Consumer-Interfaces und Enterprise-Agenten
- Für B2C- und B2B-Voice-Agenten gibt es einige Hypothesen zu den interessantesten aufkommenden Produkten:
Zentrale Merkmale von B2B- und B2C-Voice-Agenten
- Built to scale (für Skalierung gebaut)
- Latenz und Gesprächserlebnis sind noch nicht vollständig gelöst
- Gesucht werden Gründer mit einer klaren Meinung dazu, wie Agenten gebaut werden sollten
- Es wird daran gearbeitet, das jeweils Wichtigste an einem Agenten zu maximieren, etwa Geschwindigkeit, Genauigkeit sowie Ton und Emotion
- Vertically focused (vertikal fokussiert)
- Das können Performer-Agenten sein, die auf eng integrierten, einzigartig angepassten Modellen für bestimmte Use Cases basieren
- Solche Produkte sind leichter zu bauen, auf den Markt zu bringen und erfolgreich zu skalieren
- Realistic in scope (realistischer Umfang)
- Wichtige Anrufe vollständig an AI zu delegieren, ist eine große Herausforderung
- Es wird erwartet, dass Voice-Agent-Unternehmen kurzfristig auch Dinge tun, die sich nicht ohne Weiteres "skalieren" lassen
- Dazu kann kundenspezifisches Tuning gehören oder die Übergabe von Anrufen an menschliche Agenten für die letzten Schritte
Der Stack für den Aufbau von Voice-Agenten
- Damit Voice-Agenten funktionieren, braucht es Folgendes:
- menschliche Sprache erfassen (ASR)
- diese Eingabe mit einem LLM verarbeiten und eine Ausgabe erzeugen
- wieder zu Menschen sprechen (TTS)
- Neue multimodale Modelle wie GPT-4o könnten die Struktur des Stacks verändern, indem sie mehrere dieser Schichten gleichzeitig in einem einzigen Modell "ausführen"
- Das kann Latenz und Kosten senken und natürlichere dialogorientierte Interfaces ermöglichen
- Viele Agenten haben mit dem unten beschriebenen zusammengesetzten Stack noch keine wirklich menschenähnliche Qualität erreicht
- Bei manchen Unternehmen bzw. Ansätzen übernimmt ein LLM oder eine Reihe von LLMs Gesprächsfluss und Emotion. In anderen Fällen gibt es eigene Engines, die Emotionen hinzufügen, Unterbrechungen managen usw.
- "Full-Stack"-Voice-Anbieter liefern all das an einem Ort.
- Consumer-(B2C)- und Enterprise-(B2B)-Apps liegen auf diesem Stack auf.
- Selbst bei der Nutzung von Drittanbietern binden Apps in der Regel ein benutzerdefiniertes LLM ein, das oft auch als Gesprächs-Engine fungiert.
Full Stack vs. Selbst zusammengebaut: Vergleich der wichtigsten Faktoren
- Gründer von Voice-Agent-Startups können wählen, ob sie ihren Agenten auf einer Full-Stack-Plattform (z. B. Retell, Vapi, Bland) betreiben oder den Stack selbst zusammensetzen.
- Bei dieser Entscheidung spielen einige zentrale Faktoren eine Rolle:
- Complexity (Komplexität)
- Full-Stack-Player bieten eine einfachere Möglichkeit, Voice-Agenten zu bauen, indem sie die Komplexität der Infrastruktur abstrahieren
- Das lässt dennoch Raum für Anpassung und Tuning, etwa durch das Einbinden von Prompts oder Wissensdokumenten (RAG) in das LLM
- Flexibility (Flexibilität)
- Gründer, die für bestimmte vertikale Märkte und Use Cases bauen, wollen wahrscheinlich maximale Flexibilität darin, wie jede Schicht des Stacks arbeitet bzw. ausgeführt wird
- So lässt sich auch möglichst geringe Latenz erreichen
- Cost (Kosten)
- Full-Stack-Anbieter können zusätzliche Kosten pro Anruf einführen, verhandeln bei hohem Volumen aber möglicherweise bessere Preise
- Bei Voice-Agenten in großem Maßstab können schon ein paar Cent Unterschied pro Anruf relevant sein
- Control (Kontrolle)
- Wenn etwas schiefläuft, müssen Gründer von Voice-Agent-Startups Probleme sofort nachverfolgen und beheben können, besonders bei sensiblen Use Cases
- Außerdem kann maximale Transparenz darüber nötig sein, wie jede Schicht arbeitet
- Mit einem selbst zusammengestellten Stack ist das oft einfacher
- Complexity (Komplexität)
- Wichtige Player im Stack
- Full Stack: hume, Retell AI, VAPI, vocode, sindarin., BLAND.AI
- Emotion: hume
- Text to Speech: ElevenLabs, Azure
- Speech to Text: Deepgram, Whisper, AssemblyAI, Azure
- Streaming: LiveKit, daily
Unsere Sicht auf B2B-Agenten
Die Entwicklung von AI Voice
- Wir befinden uns im Übergang von 1.0 AI Voice (Telefonbäume) zu 2.0 AI Voice (LLM-basiert)
- 2.0-Unternehmen sind in etwa den vergangenen sechs Monaten erstmals aufgetaucht
- 1.0-Unternehmen sind aktuell vielleicht noch genauer, langfristig dürfte der 2.0-Ansatz aber deutlich besser skalieren und präziser werden
Die Notwendigkeit vertikal marktspezifischer Modelle
- Es wird kein einziges horizontales Modell oder keine einzige Plattform geben, die für alle Arten von Enterprise-Voice-Agenten geeignet ist
- Zwischen vertikalen Märkten gibt es einige wesentliche Unterschiede:
- Anrufarten, Tonalität und Struktur
- Integrationen und Prozesse
- GTM und "Killer-Features"
- Das könnte zu einer explosionsartigen Zunahme stark meinungsgetriebener vertikaler Agenten im UI führen
- Dafür braucht es Gründerteams mit Fachwissen oder starkem Interesse an dem jeweiligen Bereich
Die nächstliegenden Chancen
- Für arbeitsintensive Unternehmen ist der TAM groß
- Kurzfristig könnten die größten Chancen in Branchen liegen, die:
- von telefonischen Terminbuchungen leben
- unter starkem Arbeitskräftemangel leiden
- eine geringe Komplexität bei Anrufen haben
- Je ausgereifter Agenten werden, desto eher werden sie auch komplexere Anrufe übernehmen können
Die Entwicklung von B2B-Agenten
- Entwicklungspfad
- IVR (Interactive Voice Response): traditionelles Touch-Tone-Modell, bei dem der Agent dem Verbraucher eine Reihe von Optionen anbietet (1 für Vertrieb, 2 für Kundensupport usw.) und ihn entsprechend weiterleitet
- AI 1.0 (Phone Trees): eine etwas flexiblere und intuitivere Version von IVR, bei der Verbraucher in natürlicher Sprache sprechen und der Agent versucht, sie durch eine Reihe von Gesprächsabläufen zu führen
- AI 2.0 (LLMs): frei geführte Gespräche, bei denen AI nicht versucht, das Gesagte Menschen auf bestimmte vordefinierte Optionen abzubilden
- Viele Voice-Agent-Unternehmen verfolgen einen vertikalspezifischen Ansatz für bestimmte Branchen (z. B. Autoservice) oder bestimmte Aufgabentypen (z. B. Terminvereinbarung). Dafür gibt es mehrere Gründe:
- Schwierigkeit der Ausführung
- Die Qualitätsanforderungen, um Anrufe an AI zu übergeben, sind hoch, und Gesprächsabläufe (sowie kundenseitige Backend-Workflows) können schnell komplex oder sehr spezifisch werden
- Unternehmen, die die "Ausnahmefälle" dieser vertikalen Märkte abdecken, haben höhere Erfolgschancen (z. B. einzigartiges Vokabular, das ein allgemeines Modell missverstehen könnte)
- Regulierung und Lizenzen
- Manche Voice-Agent-Unternehmen stehen vor besonderen Einschränkungen, erforderlichen Zertifizierungen usw.
- Ein typisches Beispiel ist das Gesundheitswesen (z. B. HIPAA-Compliance), aber auch in Kategorien wie Sales, in denen es auf Länderebene Regulierung für AI-Cold-Calling gibt
- Integrationen
- In manchen Kategorien braucht es Long-Tail- oder spezialisierte Integrationen, um die User Experience für Unternehmen und Verbraucher wirklich gut umzusetzen. Das lohnt sich meist nur, wenn man einen spezifischen Use Case adressieren will
- Einstieg in andere Software
- Voice kann auf natürliche Weise in zentrale Kundenaktionen wie Buchungen, Verlängerungen oder Angebote eindringen
- In manchen Fällen kann das ein Sprungbrett in breitere vertikale SaaS-Plattformen für diese Unternehmen sein, besonders wenn deren Kundschaft noch stark offline arbeitet
- Schwierigkeit der Ausführung
B2B-Agenten: Wo Chancen sichtbar sind
LLM-basiert – aber nicht zwingend vom ersten Tag an zu 100 % automatisiert
- Die "starke Form" von AI-Voice-Agenten wird vollständig LLM-gesteuert sein und nicht auf IVR- oder Telefonbaum-Ansätzen beruhen
- Da LLMs im gesamten Ablauf noch nicht zu 100 % verlässlich sind, wird es bei sensibleren oder größeren Transaktionen wahrscheinlich vorübergehend weiterhin "Human-in-the-Loop" geben
- Das macht vertikalspezifische Workflows zusätzlich besonders wichtig, weil sie helfen, Edge Cases zu minimieren, die Erfolgswahrscheinlichkeit zu maximieren und menschliche Eingriffe zu reduzieren
Benutzerdefiniertes Modell-Tuning vs. Prompting mit LLM-Ansätzen
- B2B-Voice-Agenten müssen spezialisierte bzw. vertikalspezifische Gespräche führen, für die allgemeine LLMs wahrscheinlich nicht ausreichen
- Viele Unternehmen tunen Modelle pro Kunde (mit einigen Hundert bis niedrigen Tausenden Datenpunkten) und leiten daraus möglicherweise ein unternehmensweites Basismodell ab
- Benutzerdefiniertes Tuning für Enterprise-Kunden könnte weiterhin bestehen bleiben
- Hinweis: Manche Unternehmen tunen ein "allgemeines" Modell (das kundenübergreifend genutzt wird) für einen bestimmten Use Case und steuern es dann pro Kunde per Prompt
Technische Teams mit Domain-Expertise
- Angesichts der Komplexität hilft ein bestehender AI-Hintergrund wahrscheinlich beim Aufbau und bei der Skalierung hochwertiger B2B-Voice-Agenten
- Genauso wichtig dürfte aber auch Domain-Expertise oder starkes Interesse sein, um zu verstehen, wie man das Produkt paketiert und einen Keil in einen vertikalen Markt treibt
- Man braucht keinen Doktortitel in AI, um Enterprise-Voice-Agenten zu bauen und zu launchen!
Eine klare Sicht auf Integrationen und das Ökosystem
- Ähnlich wie oben beschrieben gibt es in jedem vertikalen Markt einige bestimmte Funktionen oder Integrationen, die Käufer vor dem Kauf in der Regel sehen wollen
- Genau das kann in der Praxis der Beweis sein, der ein Produkt von "nützlich" zu "magisch" aufwertet
- Das ist ein weiterer Grund, warum es sinnvoll ist, zunächst ziemlich stark vertikalisiert zu starten
"Enterprise-Grade" oder eine starke Product-Led-Growth-(PLG)-Motion
- In vertikalen Märkten, in denen viel Umsatz auf Top-Unternehmen oder Top-Anbieter konzentriert ist, können Voice-Agent-Unternehmen bei Großkunden starten und sich später mit einem Self-Service-Produkt auf KMU "nach unten" ausbreiten
- KMU-Kunden wollen diese Lösung dringend und sind bereit, verschiedene Optionen zu testen, liefern aber womöglich nicht die Daten in Qualität und Umfang, die ein Startup braucht, um sein Modell auf Enterprise-Niveau abzustimmen
Unsere Sicht auf B2C-Agenten
Unterschiede zu B2B
- Im B2B-Bereich ersetzen Voice-Agenten vor allem bestehende Telefongespräche, um bestimmte Aufgaben zu erledigen
- Bei Consumer-Agenten müssen Nutzer sich aktiv dafür entscheiden, engagiert zu bleiben, was schwierig ist, weil Sprachinteraktion nicht immer bequem ist
- Das bedeutet, dass die Produktanforderungen "höher" sind
Erste Anwendungsfelder
- Das erste und offensichtlichste Anwendungsfeld für Consumer-Voice-Agenten ist der Ersatz teurer oder schwer zugänglicher menschlicher Dienstleistungen durch AI
- Dazu gehört alles Gesprächsbasierte, das sich virtuell erledigen lässt, etwa Therapie, Coaching oder Tutoring
Möglichkeiten in der Zukunft
- Wir glauben jedoch, dass die eigentliche Magie von B2C-Voice-Agenten noch vor uns liegt!
- Gesucht werden Produkte, die mithilfe der Kraft von Sprache neue Arten von "Gesprächen" ermöglichen, die es zuvor nicht gab
- Das kann bestehende Dienstleistungsformen neu erfinden oder ganz neue Services hervorbringen
Nachahmung menschlicher Verbundenheit
- Bei Produkten mit gut umgesetzter UX bieten Voice-Agenten die Chance, Verbraucher so stark einzubinden wie nie zuvor Software
- Es geht darum, echte menschliche Verbundenheit nachzuahmen
- Das kann sich als Agent-Produkt selbst oder als Sprachmodus innerhalb eines breiteren Produkts zeigen
Die Entwicklung von B2C-Agenten
- Die bislang dominierenden Consumer-AI-Voice-Agenten stammen von großen Unternehmen, etwa ChatGPT Voice und die Pi-App von Inflection.
- Dafür, dass Consumer-Voice nur langsam aufkam, gibt es mehrere Gründe:
Vorteil großer Unternehmen
- Große Unternehmen verfügen bereits über Consumer-Distribution und über Spitzenmodelle in Bezug auf Genauigkeit, Latenz usw.
- Voice ist nicht leicht in großem Maßstab bereitzustellen, besonders angesichts der jüngsten Einführung von GPT-4o
Schwierige Einführung neuer Verhaltensweisen
- Während B2B-Voice-Agenten AI in bestehende Prozesse "einpluggen", müssen Nutzer bei B2C-Voice-Agenten neue Verhaltensweisen annehmen
- Das kann langsamere Entwicklung oder deutlich magischere Produkte erfordern
Negative Wahrnehmung bestehender Voice-AI
- Verbraucher könnten durch Produkterfahrungen mit Siri und Ähnlichem negativ gegenüber Voice-AI geprägt sein und deshalb wenig motiviert sein, neue Apps auszuprobieren
Breit aufgestellte Produkte decken die Basis-Use-Cases ab
- Breit aufgestellte Produkte können in der Regel die grundlegenden Use Cases von Voice-AI abdecken, etwa Tutoring oder Begleitung
- B2C-Voice-Startups stehen an dem Punkt, Use Cases oder Erlebnisse zu schaffen, die ChatGPT, Pi usw. nicht abdecken werden
B2C-Agenten: Wo Chancen sichtbar sind
Eine starke Sicht darauf, warum Voice nötig ist
- Wir sind begeistert von Produkten und Gründern, die eine klare Meinung dazu haben, welchen einzigartigen Wert Sprache in ihr Produkt bringt
- Nicht einfach nur "Voice um der Voice willen"
- In vielen Fällen ist ein Sprachinterface dem Textinterface sogar unterlegen, weil es unpraktischer ist, Informationen zu konsumieren und daraus etwas zu extrahieren
Eine starke Sicht darauf, warum Echtzeit-Voice nötig ist
- Sprache ist schon schwer zu konsumieren, Echtzeit-Voice ist noch schwieriger (im Vergleich zu asynchronen Sprachnachrichten)
- Wir sind besonders gespannt auf Gründer, die eine klare Sicht darauf haben, warum ihr Produkt rund um Echtzeitgespräche aufgebaut sein muss
- Vielleicht für menschlich wirkende Begleitung, Übungsumgebungen usw.
Keine bloße Entsprechung zu einem "Produkt" aus der Zeit vor AI
- Wir vermuten, dass starke Produkte nicht einfach nur frühere Mensch-zu-Mensch-Gespräche 1:1 in einen AI-Voice-Agenten übertragen werden, der einen menschlichen Anbieter ersetzt
- Erstens ist es schwer, diesem Maßstab gerecht zu werden
- Wichtiger noch: Mit AI besteht die Chance, denselben Wert besser zu liefern – effizienter und angenehmer
Vertikalisierung, bei der nicht die Modellqualität über die Gewinner entscheidet
- Wichtige allgemeine Consumer-AI-Produkte wie ChatGPT, Pi und Claude verfügen über hochwertige Sprachmodi
- Sie können sich sinnvoll an vielen Arten von Gesprächen und Interaktionen beteiligen
- Weil sie ihre eigenen Modelle und ihren eigenen Stack hosten, werden sie kurzfristig wahrscheinlich bei Latenz und Gesprächsfluss vorn liegen
Wir erwarten, dass Startups auf folgende Weise erfolgreich sein werden:
- durch Anpassung oder Tuning auf bestimmte Gesprächsarten oder
- durch den Aufbau einer UI, die dem Voice-Agent-Erlebnis mehr Kontext und Mehrwert gibt
- (z. B. Fortschrittsverfolgung im Zeitverlauf, meinungsstarke Steuerung von Gespräch und Erlebnis)
1 Kommentare
Ich hatte die Gelegenheit, das Integrationsteam eines Enterprise-Unternehmens aus nächster Nähe zu sehen, und konnte in Echtzeit beobachten, wie ein Projekt lief, das dem im Haupttext sehr ähnlich ist.
Anfangs war das Ziel, den Kundenservice über AWS Connect zu automatisieren, dann kamen verteilte Traffic-Verarbeitung und sogar die Mitwirkung an der Planung besonderer Services für VVIP-Kunden dazu ... Es ist auch spannend zu sehen, wie der Umfang nach und nach wächst.
Dadurch ist die Service-Strategie ehrlich gesagt so, dass sich ein automatischer Antwort-Bot möglichst stark um Kunden kümmert, die wenig Geld einbringen, während menschliche Agenten Kunden mit hohen Einlagen möglichst schnell direkt kontaktieren. Das ist wohl unvermeidlich, haha