15 Punkte von xguru 2025-02-06 | 1 Kommentare | Auf WhatsApp teilen

Unsere These – „Warum Sprache?“

  • Sprache dient als starker Durchbruch für die praktische Nutzbarkeit von AI
  • Aus Unternehmenssicht ermöglicht AI, Arbeitskräfte zu ersetzen und Kunden rund um die Uhr zu betreuen
  • Auch aus Sicht der Verbraucher gibt es die Erwartung, dass Sprache zu einer zentralen AI-Schnittstelle wird
  • Derzeit ist die AI-Sprachinfrastruktur in gewissem Maß etabliert, und Sprache wird in unterschiedlichen Anwendungen nun ernsthaft eingesetzt
  • Mit der Verbesserung der Modellleistung gibt es die Einschätzung, dass Sprache selbst nicht das Produkt sein wird, sondern als „Wedge“ für den Markteintritt fungiert

Was in der Zwischenzeit neu angekündigt wurde

  • Mai 2024: OpenAI veröffentlichte GPT-4o voice und zeigte Echtzeit-Sprachinteraktion; Cartesia kündigte Sonic an
  • Juni 2024: Character führte Sprachgespräche als Beta ein; Apple kündigte die Integration von ChatGPT in Siri an
  • Juli 2024: OpenAI begann den Rollout von Advanced Voice; Speechmatics stellte das Modell Flow vor
  • August 2024: Amazon integrierte Claude in Alexa; Meta bot AI-Begleiter mit Stimmen von Prominenten an
  • September 2024: NotebookLM sorgte mit Audio Overview für Aufmerksamkeit; PlayHT stellte sein 2.0-Modell vor
  • Oktober 2024: OpenAI veröffentlichte die Realtime API; Kyutai stellte das Modell Moshi vor
  • November 2024: ElevenLabs veröffentlichte Conversational AI; NVIDIA stellte das Modell Fugatto vor; Gemini Live veröffentlichte eine Echtzeit-App
  • Dezember 2024: ChatGPT Advanced Voice Mode erhielt Internetsuche; der Start von 1-800-CHATGPT sorgte für Aufsehen

Was hat sich verändert?

  • Die Modellinfrastruktur wurde vereinfacht, und Sprachagenten mit geringer Latenz und hoher Leistung sind entstanden
  • Die neuen dialogorientierten Modelle der letzten sechs Monate sind ein wesentlicher Treiber dieser Leistungssteigerung
  • Auch die Kosten sinken; im Dezember 2024 senkte OpenAI die Preise der GPT-4o Realtime API deutlich
  • GPT-4o mini ist ebenfalls als Echtzeitversion verfügbar

Aktuelle Lage

  • Modellqualität

    • Die Gesprächsqualität (Latenz, Unterbrechbarkeit, emotionaler Ausdruck usw.) gilt weitgehend als gelöst
    • Durch die Fortschritte bei OpenAIs Echtzeit-Sprachmodell und anderen Modellen gibt es Fälle, in denen die Leistung über Callcentern/BPO liegt
  • GTM(go-to-market)

    • Agentenprodukte können sich schnell verbreiten, da sie Arbeitskräfte direkt ersetzen
    • Allerdings sind die Eintrittsbarrieren auch niedrig, während konservative Großunternehmen hohe Einführungshürden haben
    • Entscheidend für den Erfolg sind GTM-Umsetzungskraft und eine zusätzliche Produktphase (Act 2)
  • Monetarisierung

    • Anfangs dominierten Minutenpreise, doch mit dem starken Rückgang der Modellkosten nimmt der Preisdruck zu
    • Künftig wird ein kombiniertes Abrechnungsmodell aus Plattformgebühr plus nutzungsbasierter Abrechnung erwartet
  • Wettbewerbsdynamik

    • Sprachagenten für Unternehmen konkurrieren mit entwicklerzentrierten Plattformen, allgemeinen No-Code-Plattformen und branchenspezifischen Lösungen
    • Es wird erwartet, dass sich der Wettbewerb weiter verschärft

Marktentwicklung

  • Im zweiten Halbjahr 2024 ist der Markt für Sprachagenten rasant gewachsen
  • Viele verschiedene Produkte ergänzen derzeit Sprachfunktionen
  • In mehreren Layern des dialogorientierten Sprach-Stacks sind neue Finanzierungen und echte Kundengewinne sehr aktiv
  • Besonders bei Großunternehmen besteht die Tendenz, menschliche Call-Aufgaben nicht sofort vollständig durch AI zu ersetzen, sondern zunächst mit bestimmten Anruftypen zu beginnen und dann schrittweise auszuweiten
    • Anrufe nachts und bei Überlastung: Anrufe, die normalerweise auf die Mailbox gegangen wären, können von AI bearbeitet werden, um ein gewisses Maß an Informationsaufnahme und Transaktionsabwicklung zu leisten
    • Neue Outbound-Anrufe: Anrufe, die sich wirtschaftlich bisher nicht gelohnt haben, werden möglich und können zusätzlichen Umsatz oder Kostensenkungen bringen
      • „Backoffice“-Anrufe: Die Automatisierung von Aufgaben, bei denen andere Unternehmen oder Institutionen angerufen werden müssen, kann die Effizienz steigern

Marktentwicklung – Beispiele für Finanzierungsrunden

  • Modellunternehmen

    • Bei ElevenLabs, Hume, PlayAI, Cartesia, WaveForms AI und anderen gab es fortlaufend Meldungen über große Finanzierungen von Seed bis Series B
  • Allgemeine Plattformen

    • Kore, Rasa, Parloa, PolyAI, Synthflow, Thoughtly, Bland und andere erhielten Finanzierungen von Series A bis C
    • Auch 11x, Decagon, Sierra, Artisan und andere, die sich auf bestimmte Branchen wie Sales oder Customer Support konzentrieren, erhalten viel Aufmerksamkeit
    • Entwicklerplattformen wie Vapi und Retell AI sind ebenfalls entstanden
  • Vertikale Plattformen

    • Zahlreiche Startups wie Hippocratic AI, Assort Health, Voicepanel, Letter und Solidroad erhielten Finanzierungen in spezialisierten Bereichen wie Gesundheitswesen, HR und Notfallreaktion
    • Auch Wayfaster und HappyRobot konnten erfolgreich Finanzierungen in Bereichen wie Logistik und Interviews einwerben

Wichtige vertikale Märkte

  • Sprachagenten werden voraussichtlich zuerst in Branchen eingeführt, die hohe Ausgaben für Callcenter/BPO haben
  • In wichtigen Branchen wie Finanzdienstleistungen, Versicherungen, B2C, B2B, Regierung und Gesundheitswesen ist es wahrscheinlich, dass jeweils eigene Sprachlösungen entstehen
  • In den folgenden Bereichen werden Gründer voraussichtlich aktiv experimentieren
    • Financial services (z. B. Inkasso)
    • Insurance (Kundenkontakt und Backoffice)
    • Government
    • Support services (komplexe Kundeninteraktionen wie IT-Support mit Fachwissen)
  • Auch außerhalb klassischer Callcenter zeigt sich Zahlungsbereitschaft für AI-Sprachagenten für Coaching/Training in Berufen mit hohen Gehältern
    • Realistische Sprachagenten können als „Simulator“ dienen und berufliche Fähigkeiten deutlich verbessern
    • Dadurch lassen sich Personalkosten etwa für Sales-Coaches oder bestehende ineffiziente Software ersetzen

Beobachtenswerte Verticals – Trends bei YC-Unternehmen

  • Die Zahl der Sprachagenten-Unternehmen bei YC steigt schnell
  • B2B (~69 %) und Gesundheitswesen (~18 %) dominieren; innerhalb von B2B gibt es viele Startups in Fintech und Customer Support
  • Im Gesundheitswesen teilt sich der Bereich in Frontoffice (für Patienten) und Backoffice (für Apotheken, Versicherer usw.)
  • Insgesamt versuchen Startups, mit Sprachagenten Probleme in unterschiedlichsten Branchen zu lösen

Was wir suchen

  • Branchen, in denen das Telefon ein zentraler Kanal ist oder aus regulatorischen bzw. Effizienzgründen besonders geeignet ist
    • wenn das Telefon das wichtigste Mittel für Kundendemos ist (z. B. Logistik)
    • wenn Gespräche regulatorisch wirksamer sind (z. B. Inkasso)
    • oder in Bereichen, in denen die Erfolgsquote höher ist als bei anderen Ansätzen (z. B. Gesundheitswesen)
  • Die Struktur der Gespräche sollte klar und messbar sein
    • Es ist eindeutig, welche Datenpunkte erfasst oder welche Informationen vermittelt werden müssen
    • Die Ergebnisse sind leicht messbar, sodass Unternehmen den Einsatz von AI-Sprachagenten ohne große Hürden prüfen können
  • Es muss eine Senkung der Personalkosten um mehr als 50 % bei menschenähnlicher Leistung erreicht werden
    • Die Einführung ist leichter, wenn klar ist, welche Arbeitskräfte ersetzt oder umverteilt werden können
    • Da intern Skepsis gegenüber AI bestehen kann, muss der ROI sehr groß sein
  • Die Gespräche sind für Kunden ein „existentielles Problem“, während die anrufende oder angerufene Seite ein Scheitern verkraften kann
    • Häufig beginnt der Einsatz bei Nacht-, Überlastungs- oder „Subprime“-Anrufen
    • AI kann besonders leicht in Bereiche mit niedrigen Leistungsanforderungen eindringen
  • Große Wirkung zeigt die Effizienzsteigerung von Gesprächen bei direkter Umsatzgenerierung (z. B. neue Reservierungen, Zahlungen) oder in Bereichen mit hohen Kosten (z. B. Drive-through)
  • Für den Einstieg in SMB/Midmarket sollten einfache VoIP-Integrationen oder Self-Setup möglich sein
  • Im Enterprise-Bereich schaffen komplexe Erstintegrationen zwar Eintrittsbarrieren, können aber bei guter Umsetzung einen Wettbewerbsvorteil bilden
    • Alternativ kann mit geringer Integrationskomplexität einfach gestartet und dann schrittweise skaliert werden
  • Insgesamt ist das Marktinteresse an Lösungen hoch, die gleichzeitig hohe Erfolgsquoten und starke Kostensenkungen erzielen

Fallstudie – AI-Sprachinterviews

  • Anfangs wirkt es überraschend, AI-Stimme bei anspruchsvollen und sensiblen Bewerbungsgesprächen einzusetzen
  • In der Staffing-Branche zeigt sich jedoch ein großer Effekt bei der Bearbeitung großvolumiger und wiederholter Interviews
  • Interviews können schneller und konsistenter geführt werden, ohne die Candidate Experience zu verschlechtern
  • AI kann Interviews bei Bedarf sofort durchführen oder Kandidaten ohne Sprach- oder Akzentbarrieren bewerten
  • Besonders bei technischen Rollen gibt es Feedback, dass AI präzisere Bewertungen liefern kann als allgemeine HR-Mitarbeiter
  • Unternehmen erleben Vorteile wie höhere Interview-Bestehensquoten und schnellere Matching-Prozesse für Kandidaten