Sprachgesteuerte React-Komponente auf Basis der OpenAI Realtime API
(github.com/openai)- Sprachgesteuerte Komponente für React/den Browser, aufgebaut auf der Realtime API
- Ermöglicht die Umsetzung von Widgets, die per Spracheingabe von Formulareingaben bis zu verschiedenen Aktionen gesteuert werden und darauf reagieren
- Bietet das tool-constrained UI-Muster, das den Assistenten darauf beschränkt, nur von der App erlaubte Aktionen auszuführen
- Ein einziger Controller verwaltet Sitzungsverbindung, Audioverarbeitung, Tool-Ausführung und den Zusammenbau von Transkripten zentral, sodass Entwickler WebRTC oder das Realtime-Protokoll nicht direkt handhaben müssen
- Bei der Einbindung in bestehende Apps bleibt die App die einzige Quelle des Zustands (source of truth), während die Sprachschicht nur begrenzte App-Handler aufruft
- Kein universelles Orchestrierungs-Framework, sondern ein opinionated Paket, spezialisiert auf Browser-UI-Flows; für Nicht-React-Runtimes oder Agent-Orchestrierung werden Raw Realtime oder
openai-agents-jsempfohlen - Für die Integration in bestehende Apps wird ein 9-Schritte-Leitfaden bereitgestellt:
/session-Endpunkt proxyen → Voice-Adapter-Wrapper erstellen → Tools registrieren → Controller hoisten → Widgets mounten - Der Controller verwendet standardmäßig
server_vad; in Tool-only-Sitzungen wird mitinterruptResponse: falsesichergestellt, dass laufende Tool-Aufrufe nicht durch neue Spracheingaben abgebrochen werden - In der Demo-App lassen sich verschiedene Integrationsszenarien prüfen, darunter Theme-Wechsel, mehrstufige Formulare, gemeinsam genutzte Schach-Flows mit geteiltem Zustand und Wake-Word-Experimente
- Apache-2.0-Lizenz
Noch keine Kommentare.