6 Punkte von GN⁺ 2025-08-29 | 1 Kommentare | Auf WhatsApp teilen
  • Die Art, wie wir Computer nutzen, blieb lange bei mechanischer Interaktion mit Klicks und Eingaben, hat sich mit dem Aufkommen von Mobilgeräten und Sprachassistenten jedoch zu natürlicheren Interaktionen erweitert
  • Nun entstehen KI-Avatare/-Repliken, die Multimodalität, emotionale Intelligenz und Personalisierung vereinen und nicht mehr nur Werkzeuge sein wollen, sondern eher die Rolle von Kolleg:innen oder Kooperationspartnern anstreben
  • Fortschritte bei Echtzeit-Video-Infrastruktur, 3D-Gesichtsrekonstruktion, kognitiven Systemen, Sprachtechnologie und LLMs machen die Umsetzung lebensechter und intelligenter Avatare möglich
  • Durch persistentes Gedächtnis, emotionale Empathie, intellektuelles Verständnis und tiefe Personalisierung stärken sie die Beziehungsdimension zu Menschen und kommen bereits in verschiedenen Branchen zum Einsatz
  • Künftige Interfaces werden sich über einfache Bildschirme hinaus zu Systemen mit Kontextverständnis, Verhaltensanpassung und emotionaler Intelligenz entwickeln – mit dem Potenzial, die Natur der Mensch-Computer-Beziehung grundlegend zu verändern

Warum gerade jetzt: ein neues Zeitalter der Mensch-Maschine-Interaktion

  • Die Mensch-Maschine-Interaktion entwickelt sich weg von klassischen Klick-, Tipp- und Bildschirmnavigationsmustern hin zu Multimodalität und emotionaler Intelligenz
    • Mit der Verbreitung mobiler Geräte wurden sprachbasierte Interaktionen eingeführt, und Assistenten wie Siri zeigten das Potenzial natürlicher Gespräche
    • Heute entwickeln sich KI-Avatare und KI-Repliken über reine Werkzeuge hinaus zu Avataren, die als Kolleg:innen, Kooperationspartner und Begleiter fungieren
  • KI-Avatare halten in Echtzeit Blickkontakt, lächeln, merken sich Vorlieben der Nutzer:innen und reagieren auf Emotionen
    • Sie entwickeln sich von statischen Avataren zu dynamischen, ausdrucksstarken und lebendigen Wesen
    • Einsatz in verschiedensten Branchen wie Coaching, Gesundheitswesen, Altenpflege und Kundensupport

Das perfekte Zusammenspiel von Technologie- und Verhaltenswandel

  • Die Weiterentwicklung von textbasierten Chatbots und Sprachassistenten ermöglicht personalisierte Unterstützung in Echtzeit und freihändige Interaktion
    • KI-Avatare gehen über reine Unterstützung hinaus und agieren als kooperative Partner mit Empathie, Kontextverständnis und Persönlichkeit
  • Da Menschen von Natur aus nach Verbindung und Beziehung streben, wächst die Erwartung, dass sich digitale Werkzeuge von transaktionalen zu beziehungsorientierten Interaktionen weiterentwickeln
    • Das Zusammenwirken technologischer und verhaltensbezogener Veränderungen macht KI-Avatare und Repliken sowohl möglich als auch wünschenswert
  • Technologische Innovation und gesellschaftliche Akzeptanz greifen gleichzeitig ineinander, wodurch die Nachfrage nach KI-Avataren explosionsartig steigt

Innovationen im Tech-Stack

  • Echtzeit-Video-Infrastruktur: Technologien wie WebRTC unterstützen Videokonferenzen mit niedriger Latenz und ermöglichen reibungslose visuelle Interaktionen in verteilten Umgebungen
  • 3D-Gesichtsrekonstruktion: Tavus, HeyGen u. a. erzeugen aus kurzen Videos hochwertige Gesichtsklone und präzises Lippensynchronisieren
  • Kognitive Systeme: Verfolgen Gesten, Mikromimik, Blickkontakt und Bewegungen in Echtzeit und reagieren auf visuelle Hinweise. Sie verstehen die Umgebung und können kontextgerechte Reaktionen liefern
  • Sprachtechnologie: TTS/STT von Deepgram, ElevenLabs u. a. unterstützt natürliche und unmittelbare Gespräche
    • Verzögerungsfreie Echtzeit-Sprachtechnologie ermöglicht flexible und ausdrucksstarke Dialoge
  • Sprachmodelle: LLMs bieten reiches Kontextverständnis und intelligente Antworten sowie Gespräche, die auf bestimmte Fachgebiete spezialisiert sind
    • Statt programmatisch begrenztem Wissen werden durchdachte Reaktionen möglich

Persistentes Gedächtnis

  • Fähigkeit, lange Gespräche innerhalb einer Sitzung zu verfolgen und den Kontext aufrechtzuerhalten
  • Auch sitzungsübergreifend können frühere Ziele und Vorlieben erinnert werden, um maßgeschneiderte Gespräche zu ermöglichen
  • Entwicklung von punktuellen Reaktionen hin zu langfristig begleitender KI

Persönlichkeit und emotionale Intelligenz

  • Drückt positive Emotionen wie Wärme, Empathie und Ermutigung aus, um beziehungsorientierte Erfahrungen zu schaffen
  • Zeigt subtile emotionale Zustände über Tonfall, Timing und Mimik und baut dadurch menschliches Vertrauen auf

Intellektuelles Verständnis

  • Erfasst Kontext wie ein Mensch und führt unmittelbare Schlussfolgerungen aus
  • Reagiert auf aktuelle Informationen und berücksichtigt Fachwissen in Bereichen wie Gesundheitswesen, Finanzen und Bildung

Tiefe Personalisierung

  • Geht über einfache UI-Anpassung hinaus und optimiert Stimme, Erscheinungsbild und Reaktionsweise individuell
  • Liefert intelligente und personalisierte Interaktionen auf Basis früherer Gespräche sowie durch Anbindung an externe Tools und Wissenssysteme
  • Bei Character.AI und Delphi erleben dies bereits zig Millionen Nutzer:innen

Infrastrukturebene: der neue Presence-Stack

  • Tavus:
    • Entwicklerorientiert, API-basiert und für Echtzeit-Kommunikation mit personalisierten Videos ausgelegt
    • Integriert interaktive Videos in Workflows wie Onboarding, Telemedizin und asynchronen Vertrieb
  • Synthesia:
    • Wandelt Text in Studio-Qualitätsvideos in mehr als 140 Sprachen um und erstellt KI-Avatar-Videos
    • Wird von Großunternehmen wie Zoom, Reuters und Heineken für Vertrieb, Marketing, Lokalisierung sowie Learning & Development genutzt
  • Weitere: Sieve, Descript, TwelveLabs, OpenAIs Sora und viele weitere Video-KI-Infrastrukturtools entstehen
  • In den vergangenen zwei Jahren gab es explosives Wachstum, wodurch sich ein Ökosystem für Kreative, Entwickler:innen und Unternehmen herausgebildet hat

Ausblick: eine menschlichere digitale Welt

  • Interfaces lösen sich von pixelbasierten Bildschirmen und entwickeln sich hin zu adaptiven Systemen auf Basis von Kontextverständnis, emotionaler Intelligenz und Gedächtnis
  • Gute KI liefert nicht nur Antworten, sondern auch intuitive Reaktionen und situationsangemessenes Verhalten
  • Über Wearables wie Meta Glasses werden auch in der realen Welt ständige und personalisierte Interaktionen möglich
  • Die nächste Generation von HCI wird voraussichtlich die Mensch-Maschine-Beziehung selbst neu definieren – mit Fokus auf immersive, verkörperte und persönliche Erfahrungen

1 Kommentare

 
bus710 2025-08-30

Bis zu einem gewissen Grad ist es bereits so geworden.
Je weiter sich solche Technologien entwickeln, desto größer wird wohl die Distanz zwischen den Menschen.