- Mit dem Agent-Framework lassen sich KI-basierte Serverprogramme erstellen, die in Echtzeit sehen, hören und sprechen können
- Sie werden über die Geräte der Nutzer und LiveKit-Sitzungen verbunden, verarbeiten Text-, Audio-, Bild- und Videostreams und streamen die von KI-Modellen erzeugten Ergebnisse an die Nutzer
- In Zusammenarbeit mit OpenAI wird die MultimodalAgent API bereitgestellt
- Sie kapselt OpenAIs Realtime API vollständig, abstrahiert das Raw-Wire-Protokoll und bietet WebRTC-Übertragung mit extrem niedriger Latenz zwischen GPT-4o und Geräten
- Dies ist der Technologie-Stack, der in der Advanced-Voice-Funktion der ChatGPT-App verwendet wird
- Gebotene Funktionen
- Plugins für bekannte LLMs, Transkriptions- und Text-to-Speech-Dienste sowie RAG-Datenbanken
- Bietet High-Level-Abstraktionen zum Erstellen von Sprachagenten oder Assistenten mit automatischer Turn-Erkennung, Interrupt-Behandlung, Function Calling und Transkriptionsfunktionen
- Kompatibel mit dem Telefonie-Stack von LiveKit, sodass Agenten Anrufe tätigen oder entgegennehmen können
- Integriertes Load-Balancing-System zur Verwaltung von Agent-Pools mit Edge-basierter Dispatching-Logik, Monitoring und transparentem Failover
- Die Ausführung von Agenten ist auf Localhost, in Self-Hosting-Umgebungen und in LiveKit Cloud identisch
1 Kommentare
LiveKit - Open-Source-Plattform für Echtzeitkommunikation
LiveKit habe ich 2021 schon einmal geteilt; offenbar wird es nach der Erweiterung um die Agents-Funktion auch in ChatGPT verwendet.
Ursprünglich ist es ein Produkt für Echtzeit-Audio-/Videokonferenzen mit 10 bis 1000 Teilnehmern.
Damals bekam es ziemlich viel Aufmerksamkeit, weil es eine Open-Source-Alternative zu Agora sein konnte, das von Clubhouse genutzt wurde.
Und wie ich gesehen habe, bietet auch Agora unter dem Namen Conversational AI SDK genau dieselbe Funktion an.
https://www.agora.io/en/products/agora-openai-conversational-ai-sdk/