- Voice AI ist nicht nur ein einfaches UI-Upgrade, sondern revolutioniert die Art und Weise, wie Unternehmen und Kunden miteinander verbunden sind
- Wie im Kundenservice von Fluggesellschaften: lange Wartezeiten, wiederholte Menüauswahlen, mangelndes Verständnis für die Situation des Kunden. Probleme werden nicht gelöst, stattdessen entstehen unnötiger Stress und Zeitverschwendung
- Mit Voice AI ist es im Gegensatz zu bestehenden starren IVR-Systemen (automatische Sprachdialogsysteme) möglich, menschenähnliche Gespräche zu führen und das Kundenerlebnis zu personalisieren; außerdem ist der Service rund um die Uhr verfügbar
- Die Kundensituation sofort verstehen und die beste Alternative vorschlagen
- Beispiel: automatisch einen ausgefallenen Flug umbuchen, Alternativen auf Basis der Kundenpräferenzen empfehlen
- In manchen Situationen bevorzugen Kunden möglicherweise einen KI-Agenten gegenüber einem Menschen
- Voice AI erfüllt hohe Nachfrage und Kundenerwartungen und steigert zugleich die operative Effizienz
- Voice AI ist die Verschmelzung sprach-nativer KI-Modelle und multimodaler Technologien
Der riesige Markt für Sprachkommunikation
- Menschen sprechen lieber:
- Täglich werden Milliarden von Anrufen geführt
- Obwohl Text, E-Mail und soziale Medien allgegenwärtig sind, bleibt das Telefon in vielen Unternehmen weiterhin ein zentrales Kommunikationsmittel
- In Branchen wie Gesundheitswesen, Rechtsdienstleistungen, Home Services, Versicherungen und Logistik ist es unverzichtbar, um komplexe Informationen zu vermitteln, personalisierte Services anzubieten und dringende Situationen zu lösen
- Probleme der bestehenden telefonischen Kommunikation
- Fehlende Erreichbarkeit:
- 62 % der SMBs (kleine und mittlere Unternehmen) verpassen Anrufe, können dadurch Kundenanforderungen nicht erfüllen und verlieren Geschäftschancen
- Typische Probleme:
- Außerhalb der Geschäftszeiten wird auf Voicemail umgestellt
- Es kann immer nur ein Anruf gleichzeitig bearbeitet werden
- Die Support-Qualität ist uneinheitlich
- Technische Einschränkungen:
- IVR-Systeme (seit den 1970er Jahren im Einsatz):
- Können nur vordefinierte Befehle verarbeiten, mit geringer Flexibilität: "Drücken Sie 1, um einen Termin zu buchen" "Sagen Sie in wenigen Worten, wobei Sie Hilfe benötigen"
- Verstehen weder die Absicht noch die Dringlichkeit des Kunden
- Verschlechtertes Kundenerlebnis:
- Lange Wartezeiten
- Ineffiziente Menünavigation
- Fehlende Problemlösung
- Trotz hoher Nachfrage:
- Bestehende Technologien stoßen an Grenzen, wenn es darum geht, Kundenprobleme effizient und angenehm zu lösen
- Es werden fortschrittlichere Technologien zur Sprachautomatisierung benötigt
[Warum jetzt der richtige Zeitpunkt für die Entwicklung von Voice-Technologie ist]
Die Entwicklung der Sprachtechnologie
- Frühe IVR-Systeme:
- Die in den 1970er Jahren eingeführte IVR-Technologie (Interactive Voice Response):
- Konnte nur vordefinierte Befehle verarbeiten
- Verstand weder Absicht noch Dringlichkeit des Nutzers
- Trotz ihrer Unbeliebtheit ist sie noch immer ein 5-Milliarden-Dollar-Markt
- Das Aufkommen von ASR/STT-Technologien:
- Automatic Speech Recognition (ASR) und Speech-to-Text (STT)-Modelle:
- Technologien, die Sprache in Echtzeit in Text umwandeln
- Das Auftreten von Startups wie Gong, Rev, DeepL
- Veröffentlichung von OpenAIs Whisper-Modell (2022) und Revs Reverb (2024):
- Unterstützen natürliche Dialogsysteme, die Akzente, Hintergrundgeräusche und Emotionen verarbeiten
- Jüngste Innovationen: Fortschritte bei Voice AI:
- Entwicklung von Text-to-Speech(TTS)-Modellen, die emotional ausdrucksstarke Stimmen erzeugen:
- Multimodale Fähigkeiten:
- Google Gemini 1.5: Integration von Sprache, Text und visuellen Eingaben
- OpenAIs Voice Engine: Sprachgenerierung, die menschliche Gespräche nachahmt
- Veröffentlichung von GPT-4o:
- Native Echtzeit-Integration von Audio, Vision und Text
- Kann komplexe Gespräche verarbeiten und intelligent antworten
Zwei wichtige Fortschritte durch die jüngsten Innovationen
- Verbreitung hochwertiger Modelle und Anwendungsentwicklung:
- Grenzen der bisherigen "Cascading"-Architektur:
- Im Prozess STT → LLM → TTS entstehen Latenz und Verluste nicht-textueller Informationen
- Hohe Antwortlatenz führt zu einem negativen Nutzererlebnis
- Neue Modelle:
- GPT-4 Turbo: geringere Latenz
- Modellwahl je nach Anwendungsfall möglich
- Der Aufstieg von Speech-to-Speech(STS)-Modellen:
- Verarbeiten Sprache direkt, ohne sie in Text umzuwandeln:
- Ultraniedrige Latenz: natürliche Gespräche mit etwa 300 ms Reaktionszeit
- Kontextverständnis: behalten frühere Gesprächsinformationen, erkennen Absicht und Emotion
- Verbesserte Emotions- und Tonerkennung: Antworten, die Emotionen widerspiegeln
- Echtzeit-Erkennung von Sprachaktivität: Nutzer können sprechen, ohne unterbrochen zu werden
Sprach-native Modelle: die Zukunft der konversationellen Sprache
- Überwinden die Grenzen der Cascading-Architektur:
- Reine Sprach-STS-Modelle:
- Kyutai Moshi: Open-Source-Modell
- Alibaba SenseVoice & CosyVoice: auf Sprache spezialisierte Modelle
- Hume Empathetic Voice Interface: Verarbeitung emotionaler Reaktionen
- OpenAIs Realtime API:
- Unterstützt Speech-to-Speech-Interaktionen auf Basis von GPT-4o
Zentrale Herausforderungen bei der Einführung in der Industrie
Drei Hauptfaktoren, die den Einsatz von Sprachagenten bremsen
- Qualität (Quality):
- Viele Voice-AI-Agenten sind in zahlreichen Anwendungsfällen noch nicht stabil genug, um verlässlich zu sein.
- Unternehmen pilotieren Sprachagenten in der Regel zunächst in risikoarmen Umgebungen:
- Beispiel: Ein kleines Dachdeckerunternehmen nutzt einen Agenten zur Bearbeitung von Anrufen außerhalb der Geschäftszeiten
- Beim Ausbau auf hochwertige Anwendungsfälle werden die Qualitätsanforderungen strenger
- Beispiel: Wenn ein einzelner Kundenanruf zu einem Projekt im Wert von 30.000 US-Dollar führen kann, ist die Toleranz für fehlgeschlagene Gespräche gering
- Vertrauen (Trust):
- Kunden haben durch bestehende IVR-Technologien bereits viele negative Erfahrungen gemacht:
- Langsame Antworten, ineffiziente Menüstrukturen, Mangel an natürlichen Gesprächen
- Unternehmen müssen Vertrauen darin gewinnen, dass KI Kundenanliegen korrekt und schnell bearbeiten kann
- Zuverlässigkeit (Reliability):
- Häufige Beschwerden:
- Abgebrochene Anrufe: Unterbrechungen frustrieren Kunden
- Halluzinationen: KI gibt ungenaue oder unsinnige Antworten
- Antwortlatenz: Lange Verarbeitungszeiten führen zum Absprung von Kunden
Entwicklungsrichtungen zur Problemlösung
- Optimierung von Latenz und Zuverlässigkeit:
- Mehr Entwicklerplattformen bieten zuverlässigere Infrastruktur mit Fokus auf geringere Latenz und die Vermeidung von Gesprächsabbrüchen
- Resilienz (Fail Gracefully):
- Bei Gesprächsfehlern den Gesprächsfluss natürlich wiederherstellen, um Unterbrechungen im Kundenerlebnis zu minimieren
- Dialog-Orchestrierung:
- KI-Agenten so gestalten, dass sie vorhersehbaren Abläufen folgen: Halluzinationen minimieren und Guardrails für bereitgestellte Informationen und den Gesprächsumfang setzen
Marktkarte für Voice AI
- Im Voice-AI-Markt wird auf vielen Ebenen innoviert, von Foundation Models über Sprachinfrastruktur und Entwicklerplattformen bis hin zu Anwendungen
- Besonders in den drei folgenden Kernbereichen zeigen sich bemerkenswerte Chancen
1. Modelle (Models)
- Funktion: Aufbau von Technologien für sprachbasierte Anwendungsfälle, spezialisiert auf bestimmte Techniken wie SST(Speech-to-Speech), LLS(Large Language Models) und TTS(Text-to-Speech)
- Zukünftige Richtung:
- Multimodale und sprach-native Modelle werden die Entwicklung anführen
- Technologien, die Audio direkt verarbeiten können, ohne zwischen Text und Audio zu wechseln, werden wichtig
- Modelle der nächsten Generation:
- Unternehmen wie Cartesia erschließen neue Architekturen auf Basis von State Space Models (SSMs)
- Einfache Gesprächsverarbeitung mit kleinen Modellen, komplexe Aufgaben mit leistungsstarken Modellen: Das verspricht geringere Latenz und niedrigere Kosten
2. Entwicklerplattformen (Developer Platforms)
- Der Aufbau von Voice-AI-Agenten und das Management von Echtzeit-Sprachinfrastruktur sind für Entwickler weiterhin eine große technische Herausforderung. Neue Plattformen lösen diese Komplexität und bieten Entwicklern vielfältige Unterstützung
- Optimierung von Latenz und Zuverlässigkeit:
- Verwaltung leistungsstarker Echtzeit-Sprachagenten in skalierbarer Form.
- Verwaltung von Gesprächssignalen und nichtverbalem Kontext:
- Endpunkt-Erkennung zur Bestimmung, ob ein Nutzer seine Äußerung beendet hat.
- Verbesserung von Hintergrundgeräuschfilterung sowie Emotions- und Stimmungserkennung.
- Effiziente Fehlerbehandlung:
- Erkennung fehlgeschlagener API-Aufrufe und sofortige Wiederholung.
- Einfügen von Fallback-Antworten, um Gesprächsunterbrechungen zu verhindern.
- Integration mit Drittsystemen und Unterstützung für RAG:
- Erforderlich sind latenzarme Integrationen mit Wissensbasen und Drittsystemen.
- Steuerung des Gesprächsflusses:
- Unterstützung bei sensiblen oder regulierten Gesprächen durch planbare Dialog-Flows.
- Observability, Analyse und Tests:
- Behebung des Mangels an Tools, mit denen sich Dialogqualität und Performance in großem Maßstab verfolgen lassen.
- Plattformbeispiel Vapi: Hilft dabei, die Komplexität von Sprachinfrastruktur zu reduzieren und hochwertige Sprachagenten schnell zu entwickeln
3. Anwendungen (Applications)
- Produkte zur sprachbasierten Automatisierung werden in vielen Bereichen entwickelt.
- Merkmale der besonders beachteten Anwendungen:
- Übernehmen die Aufgaben der Kunden vollständig und liefern wertvolle Ergebnisse.
- Skalierbar genug, um bei Nachfragespitzen Tausende Anrufe gleichzeitig zu verarbeiten.
- Bieten maßgeschneiderte Lösungen, die auf bestimmte Branchen spezialisiert sind.
- Wichtige Chancen nach Funktion
- Transkription (Transcription): Gesprächsnotizen erstellen, Folgemaßnahmen empfehlen
- Inbound Calling: Terminverwaltung, Konvertierung von Leads, Customer-Success-Management
- Outbound Calling: Bewerbervorauswahl, Terminbestätigungen
- Training: Vertriebs- oder Interviewtraining.
- Verhandlung (Negotiation): Einkaufsverhandlungen, Versicherungsstreitigkeiten, Vertragsanpassungen
- Investitionsbeispiele
- Abridge: Dokumentation medizinischer Gespräche
- Rilla: Coaching für den Außendienstvertrieb
- Rev: KI- und menschlich unterstützte Transkription für viele Branchen
Konkrete Anwendungsfälle
- Branchenspezifische Lösung Sameday AI: KI-Vertriebsagent für die Home-Services-Branche. Automatisiert den gesamten Ablauf von der Annahme des Kundenanrufs über die Angebotserstellung je nach Problem bis hin zu Terminabstimmung und Zahlungsabschluss.
- Outbound Calling Wayfaster: Automatisierung des Recruiting-Prozesses. Führt Bewerber-Screening-Anrufe automatisch durch, damit sich Teams auf die besten Kandidaten konzentrieren können.
- Gesundheitswesen Versicherungsverhandlungen: Analyse Tausender Versicherungsdokumente und Patientenakten mit LLMs, um Verhandlungen in Echtzeit zu unterstützen.
Investitionsprinzipien für Voice-AI-Technologie
- Das größte Gründungspotenzial im Voice-AI-Ökosystem liegt bei Entwicklerplattformen und der Anwendungsschicht
- Durch die schnelle Verbesserung der Modelle können Unternehmer mit geringem Anfangsinvestment wirksame MVPs (Minimum Viable Products) schnell entwickeln und testen
- 1. Lösungen, die tief in branchenspezifische Workflows und Multimodalität integriert sind
- Die wirkungsvollsten Voice-AI-Anwendungen sind tief auf die Workflows einer bestimmten Branche abgestimmt
- Anpassung an branchenspezifische Sprache und Gesprächsweisen
- Beispiel:
- Ein Sprachagent für Autohäuser ist in das CRM integriert, nutzt Daten aus früheren Kundeninteraktionen, verbessert die Servicequalität und beschleunigt die Einführung
- Die Kombination aus Sprache, Text, Bildern und weiteren Modalitäten löst komplexere, mehrstufige menschliche Prozesse
- 2. Hochwertige Produkte durch robuste Engineering-Arbeit
- Ein Demo für ein Hackathon zu bauen ist vergleichsweise einfach, aber ein echtes Produkt braucht hohe Zuverlässigkeit, Skalierbarkeit und die Fähigkeit, reale Anwendungsfälle zu bewältigen
- Unternehmensanforderungen: konsistente Leistung. garantierte niedrige Latenz. nahtlose Integration in bestehende Systeme
- Wichtige Designaspekte: Umgang mit unvorhersehbaren Spracheingaben. stärkere Sicherheit. hohe Verfügbarkeit (Uptime)
- 3. Gleichgewicht zwischen Wachstum, Bindung und Produktqualitäts-KPIs
- Sprachagenten haben starkes Wachstumspotenzial in umsatztreibenden Funktionen wie Vertrieb.
- Wenn Kunden zentrale Workflows von Menschen auf Agenten umstellen, kann Qualitätsverlust zu hoher Kündigungsrate (Churn) führen.
Wichtige KPIs und Qualitätsmetriken
- Churn (Kundenabwanderung):
- In frühen Phasen kämpfen viele Sprachanwendungen mit hoher Abwanderung.
- Das passiert, wenn Kunden wegen unzuverlässiger Services zur Konkurrenz wechseln.
- Self-Serve Resolution:
- Zeigt, wie effektiv ein Sprachagent das Problem eines Nutzers ohne menschliches Eingreifen lösen kann.
- Customer Satisfaction Score:
- Misst die allgemeine Zufriedenheit von Kunden nach der Interaktion mit dem Sprachagenten und liefert Einblicke in die Qualität.
- Call Termination Rates:
- Hohe Abbruchraten weisen auf Probleme im Nutzererlebnis und ungelöste Anliegen hin.
- Cohort Call Volume Expansion:
- Misst, ob Kunden ihre Nutzung von Sprachagenten im Laufe der Zeit ausweiten; ein Indikator für Produktwert und Nutzerengagement.
Die Zukunft von Voice AI
- Die technologischen Fortschritte der letzten Jahre eröffnen die Möglichkeit, innovative Produkte zu entwickeln, die komplexe Probleme lösen
- Künftig werden multimodale und Echtzeit-Dialogsysteme voraussichtlich in vielen Branchen noch mehr Probleme lösen
1 Kommentare
Ich habe früher im Bereich IVR gearbeitet, deshalb interessiert mich das hier wohl besonders.
Den Beitrag Alles über AI-Voice-Agenten, zusammengestellt von a16z solltet ihr euch auch ansehen.