13 Punkte von xguru 2024-11-28 | 1 Kommentare | Auf WhatsApp teilen
  • Voice AI ist nicht nur ein einfaches UI-Upgrade, sondern revolutioniert die Art und Weise, wie Unternehmen und Kunden miteinander verbunden sind
    • Wie im Kundenservice von Fluggesellschaften: lange Wartezeiten, wiederholte Menüauswahlen, mangelndes Verständnis für die Situation des Kunden. Probleme werden nicht gelöst, stattdessen entstehen unnötiger Stress und Zeitverschwendung
    • Mit Voice AI ist es im Gegensatz zu bestehenden starren IVR-Systemen (automatische Sprachdialogsysteme) möglich, menschenähnliche Gespräche zu führen und das Kundenerlebnis zu personalisieren; außerdem ist der Service rund um die Uhr verfügbar
      • Die Kundensituation sofort verstehen und die beste Alternative vorschlagen
      • Beispiel: automatisch einen ausgefallenen Flug umbuchen, Alternativen auf Basis der Kundenpräferenzen empfehlen
      • In manchen Situationen bevorzugen Kunden möglicherweise einen KI-Agenten gegenüber einem Menschen
    • Voice AI erfüllt hohe Nachfrage und Kundenerwartungen und steigert zugleich die operative Effizienz
  • Voice AI ist die Verschmelzung sprach-nativer KI-Modelle und multimodaler Technologien

Der riesige Markt für Sprachkommunikation

  • Menschen sprechen lieber:
    • Täglich werden Milliarden von Anrufen geführt
    • Obwohl Text, E-Mail und soziale Medien allgegenwärtig sind, bleibt das Telefon in vielen Unternehmen weiterhin ein zentrales Kommunikationsmittel
    • In Branchen wie Gesundheitswesen, Rechtsdienstleistungen, Home Services, Versicherungen und Logistik ist es unverzichtbar, um komplexe Informationen zu vermitteln, personalisierte Services anzubieten und dringende Situationen zu lösen
  • Probleme der bestehenden telefonischen Kommunikation
    • Fehlende Erreichbarkeit:
      • 62 % der SMBs (kleine und mittlere Unternehmen) verpassen Anrufe, können dadurch Kundenanforderungen nicht erfüllen und verlieren Geschäftschancen
      • Typische Probleme:
        • Außerhalb der Geschäftszeiten wird auf Voicemail umgestellt
        • Es kann immer nur ein Anruf gleichzeitig bearbeitet werden
        • Die Support-Qualität ist uneinheitlich
    • Technische Einschränkungen:
      • IVR-Systeme (seit den 1970er Jahren im Einsatz):
        • Können nur vordefinierte Befehle verarbeiten, mit geringer Flexibilität: "Drücken Sie 1, um einen Termin zu buchen" "Sagen Sie in wenigen Worten, wobei Sie Hilfe benötigen"
        • Verstehen weder die Absicht noch die Dringlichkeit des Kunden
      • Verschlechtertes Kundenerlebnis:
        • Lange Wartezeiten
        • Ineffiziente Menünavigation
        • Fehlende Problemlösung
  • Trotz hoher Nachfrage:
    • Bestehende Technologien stoßen an Grenzen, wenn es darum geht, Kundenprobleme effizient und angenehm zu lösen
    • Es werden fortschrittlichere Technologien zur Sprachautomatisierung benötigt

[Warum jetzt der richtige Zeitpunkt für die Entwicklung von Voice-Technologie ist]

Die Entwicklung der Sprachtechnologie

  1. Frühe IVR-Systeme:
  • Die in den 1970er Jahren eingeführte IVR-Technologie (Interactive Voice Response):
    • Konnte nur vordefinierte Befehle verarbeiten
    • Verstand weder Absicht noch Dringlichkeit des Nutzers
  • Trotz ihrer Unbeliebtheit ist sie noch immer ein 5-Milliarden-Dollar-Markt
  1. Das Aufkommen von ASR/STT-Technologien:
  • Automatic Speech Recognition (ASR) und Speech-to-Text (STT)-Modelle:
    • Technologien, die Sprache in Echtzeit in Text umwandeln
    • Das Auftreten von Startups wie Gong, Rev, DeepL
    • Veröffentlichung von OpenAIs Whisper-Modell (2022) und Revs Reverb (2024):
      • Unterstützen natürliche Dialogsysteme, die Akzente, Hintergrundgeräusche und Emotionen verarbeiten
  1. Jüngste Innovationen: Fortschritte bei Voice AI:
  • Entwicklung von Text-to-Speech(TTS)-Modellen, die emotional ausdrucksstarke Stimmen erzeugen:
  • Multimodale Fähigkeiten:
    • Google Gemini 1.5: Integration von Sprache, Text und visuellen Eingaben
    • OpenAIs Voice Engine: Sprachgenerierung, die menschliche Gespräche nachahmt
  • Veröffentlichung von GPT-4o:
    • Native Echtzeit-Integration von Audio, Vision und Text
    • Kann komplexe Gespräche verarbeiten und intelligent antworten

Zwei wichtige Fortschritte durch die jüngsten Innovationen

  • Verbreitung hochwertiger Modelle und Anwendungsentwicklung:
    • Grenzen der bisherigen "Cascading"-Architektur:
      • Im Prozess STT → LLM → TTS entstehen Latenz und Verluste nicht-textueller Informationen
      • Hohe Antwortlatenz führt zu einem negativen Nutzererlebnis
    • Neue Modelle:
      • GPT-4 Turbo: geringere Latenz
      • Modellwahl je nach Anwendungsfall möglich
  • Der Aufstieg von Speech-to-Speech(STS)-Modellen:
    • Verarbeiten Sprache direkt, ohne sie in Text umzuwandeln:
      • Ultraniedrige Latenz: natürliche Gespräche mit etwa 300 ms Reaktionszeit
      • Kontextverständnis: behalten frühere Gesprächsinformationen, erkennen Absicht und Emotion
      • Verbesserte Emotions- und Tonerkennung: Antworten, die Emotionen widerspiegeln
      • Echtzeit-Erkennung von Sprachaktivität: Nutzer können sprechen, ohne unterbrochen zu werden

Sprach-native Modelle: die Zukunft der konversationellen Sprache

  • Überwinden die Grenzen der Cascading-Architektur:
    • Reine Sprach-STS-Modelle:
      • Kyutai Moshi: Open-Source-Modell
      • Alibaba SenseVoice & CosyVoice: auf Sprache spezialisierte Modelle
      • Hume Empathetic Voice Interface: Verarbeitung emotionaler Reaktionen
  • OpenAIs Realtime API:
    • Unterstützt Speech-to-Speech-Interaktionen auf Basis von GPT-4o

Zentrale Herausforderungen bei der Einführung in der Industrie

Drei Hauptfaktoren, die den Einsatz von Sprachagenten bremsen

  • Qualität (Quality):
    • Viele Voice-AI-Agenten sind in zahlreichen Anwendungsfällen noch nicht stabil genug, um verlässlich zu sein.
    • Unternehmen pilotieren Sprachagenten in der Regel zunächst in risikoarmen Umgebungen:
      • Beispiel: Ein kleines Dachdeckerunternehmen nutzt einen Agenten zur Bearbeitung von Anrufen außerhalb der Geschäftszeiten
      • Beim Ausbau auf hochwertige Anwendungsfälle werden die Qualitätsanforderungen strenger
      • Beispiel: Wenn ein einzelner Kundenanruf zu einem Projekt im Wert von 30.000 US-Dollar führen kann, ist die Toleranz für fehlgeschlagene Gespräche gering
  • Vertrauen (Trust):
    • Kunden haben durch bestehende IVR-Technologien bereits viele negative Erfahrungen gemacht:
      • Langsame Antworten, ineffiziente Menüstrukturen, Mangel an natürlichen Gesprächen
    • Unternehmen müssen Vertrauen darin gewinnen, dass KI Kundenanliegen korrekt und schnell bearbeiten kann
  • Zuverlässigkeit (Reliability):
    • Häufige Beschwerden:
      • Abgebrochene Anrufe: Unterbrechungen frustrieren Kunden
      • Halluzinationen: KI gibt ungenaue oder unsinnige Antworten
      • Antwortlatenz: Lange Verarbeitungszeiten führen zum Absprung von Kunden

Entwicklungsrichtungen zur Problemlösung

  • Optimierung von Latenz und Zuverlässigkeit:
    • Mehr Entwicklerplattformen bieten zuverlässigere Infrastruktur mit Fokus auf geringere Latenz und die Vermeidung von Gesprächsabbrüchen
  • Resilienz (Fail Gracefully):
    • Bei Gesprächsfehlern den Gesprächsfluss natürlich wiederherstellen, um Unterbrechungen im Kundenerlebnis zu minimieren
  • Dialog-Orchestrierung:
    • KI-Agenten so gestalten, dass sie vorhersehbaren Abläufen folgen: Halluzinationen minimieren und Guardrails für bereitgestellte Informationen und den Gesprächsumfang setzen

Marktkarte für Voice AI

  • Im Voice-AI-Markt wird auf vielen Ebenen innoviert, von Foundation Models über Sprachinfrastruktur und Entwicklerplattformen bis hin zu Anwendungen
  • Besonders in den drei folgenden Kernbereichen zeigen sich bemerkenswerte Chancen

1. Modelle (Models)

  • Funktion: Aufbau von Technologien für sprachbasierte Anwendungsfälle, spezialisiert auf bestimmte Techniken wie SST(Speech-to-Speech), LLS(Large Language Models) und TTS(Text-to-Speech)
  • Zukünftige Richtung:
    • Multimodale und sprach-native Modelle werden die Entwicklung anführen
    • Technologien, die Audio direkt verarbeiten können, ohne zwischen Text und Audio zu wechseln, werden wichtig
  • Modelle der nächsten Generation:
    • Unternehmen wie Cartesia erschließen neue Architekturen auf Basis von State Space Models (SSMs)
    • Einfache Gesprächsverarbeitung mit kleinen Modellen, komplexe Aufgaben mit leistungsstarken Modellen: Das verspricht geringere Latenz und niedrigere Kosten

2. Entwicklerplattformen (Developer Platforms)

  • Der Aufbau von Voice-AI-Agenten und das Management von Echtzeit-Sprachinfrastruktur sind für Entwickler weiterhin eine große technische Herausforderung. Neue Plattformen lösen diese Komplexität und bieten Entwicklern vielfältige Unterstützung
  • Optimierung von Latenz und Zuverlässigkeit:
    • Verwaltung leistungsstarker Echtzeit-Sprachagenten in skalierbarer Form.
  • Verwaltung von Gesprächssignalen und nichtverbalem Kontext:
    • Endpunkt-Erkennung zur Bestimmung, ob ein Nutzer seine Äußerung beendet hat.
    • Verbesserung von Hintergrundgeräuschfilterung sowie Emotions- und Stimmungserkennung.
  • Effiziente Fehlerbehandlung:
    • Erkennung fehlgeschlagener API-Aufrufe und sofortige Wiederholung.
    • Einfügen von Fallback-Antworten, um Gesprächsunterbrechungen zu verhindern.
  • Integration mit Drittsystemen und Unterstützung für RAG:
    • Erforderlich sind latenzarme Integrationen mit Wissensbasen und Drittsystemen.
  • Steuerung des Gesprächsflusses:
    • Unterstützung bei sensiblen oder regulierten Gesprächen durch planbare Dialog-Flows.
  • Observability, Analyse und Tests:
    • Behebung des Mangels an Tools, mit denen sich Dialogqualität und Performance in großem Maßstab verfolgen lassen.
  • Plattformbeispiel Vapi: Hilft dabei, die Komplexität von Sprachinfrastruktur zu reduzieren und hochwertige Sprachagenten schnell zu entwickeln

3. Anwendungen (Applications)

  • Produkte zur sprachbasierten Automatisierung werden in vielen Bereichen entwickelt.
  • Merkmale der besonders beachteten Anwendungen:
    • Übernehmen die Aufgaben der Kunden vollständig und liefern wertvolle Ergebnisse.
    • Skalierbar genug, um bei Nachfragespitzen Tausende Anrufe gleichzeitig zu verarbeiten.
    • Bieten maßgeschneiderte Lösungen, die auf bestimmte Branchen spezialisiert sind.
  • Wichtige Chancen nach Funktion
    • Transkription (Transcription): Gesprächsnotizen erstellen, Folgemaßnahmen empfehlen
    • Inbound Calling: Terminverwaltung, Konvertierung von Leads, Customer-Success-Management
    • Outbound Calling: Bewerbervorauswahl, Terminbestätigungen
    • Training: Vertriebs- oder Interviewtraining.
    • Verhandlung (Negotiation): Einkaufsverhandlungen, Versicherungsstreitigkeiten, Vertragsanpassungen
  • Investitionsbeispiele
    • Abridge: Dokumentation medizinischer Gespräche
    • Rilla: Coaching für den Außendienstvertrieb
    • Rev: KI- und menschlich unterstützte Transkription für viele Branchen

Konkrete Anwendungsfälle

  • Branchenspezifische Lösung Sameday AI: KI-Vertriebsagent für die Home-Services-Branche. Automatisiert den gesamten Ablauf von der Annahme des Kundenanrufs über die Angebotserstellung je nach Problem bis hin zu Terminabstimmung und Zahlungsabschluss.
  • Outbound Calling Wayfaster: Automatisierung des Recruiting-Prozesses. Führt Bewerber-Screening-Anrufe automatisch durch, damit sich Teams auf die besten Kandidaten konzentrieren können.
  • Gesundheitswesen Versicherungsverhandlungen: Analyse Tausender Versicherungsdokumente und Patientenakten mit LLMs, um Verhandlungen in Echtzeit zu unterstützen.

Investitionsprinzipien für Voice-AI-Technologie

  • Das größte Gründungspotenzial im Voice-AI-Ökosystem liegt bei Entwicklerplattformen und der Anwendungsschicht
  • Durch die schnelle Verbesserung der Modelle können Unternehmer mit geringem Anfangsinvestment wirksame MVPs (Minimum Viable Products) schnell entwickeln und testen
  • 1. Lösungen, die tief in branchenspezifische Workflows und Multimodalität integriert sind
    • Die wirkungsvollsten Voice-AI-Anwendungen sind tief auf die Workflows einer bestimmten Branche abgestimmt
    • Anpassung an branchenspezifische Sprache und Gesprächsweisen
    • Beispiel:
      • Ein Sprachagent für Autohäuser ist in das CRM integriert, nutzt Daten aus früheren Kundeninteraktionen, verbessert die Servicequalität und beschleunigt die Einführung
      • Die Kombination aus Sprache, Text, Bildern und weiteren Modalitäten löst komplexere, mehrstufige menschliche Prozesse
  • 2. Hochwertige Produkte durch robuste Engineering-Arbeit
    • Ein Demo für ein Hackathon zu bauen ist vergleichsweise einfach, aber ein echtes Produkt braucht hohe Zuverlässigkeit, Skalierbarkeit und die Fähigkeit, reale Anwendungsfälle zu bewältigen
    • Unternehmensanforderungen: konsistente Leistung. garantierte niedrige Latenz. nahtlose Integration in bestehende Systeme
    • Wichtige Designaspekte: Umgang mit unvorhersehbaren Spracheingaben. stärkere Sicherheit. hohe Verfügbarkeit (Uptime)
  • 3. Gleichgewicht zwischen Wachstum, Bindung und Produktqualitäts-KPIs
    • Sprachagenten haben starkes Wachstumspotenzial in umsatztreibenden Funktionen wie Vertrieb.
    • Wenn Kunden zentrale Workflows von Menschen auf Agenten umstellen, kann Qualitätsverlust zu hoher Kündigungsrate (Churn) führen.

Wichtige KPIs und Qualitätsmetriken

  • Churn (Kundenabwanderung):
    • In frühen Phasen kämpfen viele Sprachanwendungen mit hoher Abwanderung.
    • Das passiert, wenn Kunden wegen unzuverlässiger Services zur Konkurrenz wechseln.
  • Self-Serve Resolution:
    • Zeigt, wie effektiv ein Sprachagent das Problem eines Nutzers ohne menschliches Eingreifen lösen kann.
  • Customer Satisfaction Score:
    • Misst die allgemeine Zufriedenheit von Kunden nach der Interaktion mit dem Sprachagenten und liefert Einblicke in die Qualität.
  • Call Termination Rates:
    • Hohe Abbruchraten weisen auf Probleme im Nutzererlebnis und ungelöste Anliegen hin.
  • Cohort Call Volume Expansion:
    • Misst, ob Kunden ihre Nutzung von Sprachagenten im Laufe der Zeit ausweiten; ein Indikator für Produktwert und Nutzerengagement.

Die Zukunft von Voice AI

  • Die technologischen Fortschritte der letzten Jahre eröffnen die Möglichkeit, innovative Produkte zu entwickeln, die komplexe Probleme lösen
  • Künftig werden multimodale und Echtzeit-Dialogsysteme voraussichtlich in vielen Branchen noch mehr Probleme lösen

1 Kommentare

 
xguru 2024-11-28

Ich habe früher im Bereich IVR gearbeitet, deshalb interessiert mich das hier wohl besonders.

Den Beitrag Alles über AI-Voice-Agenten, zusammengestellt von a16z solltet ihr euch auch ansehen.