Sprachgesteuerte React-Komponente auf Basis der OpenAI Realtime API

(github.com/openai)

5 Punkte von xguru 1 일 전 | Noch keine Kommentare. | Auf WhatsApp teilen

Sprachgesteuerte Komponente für React/den Browser, aufgebaut auf der Realtime API
Ermöglicht die Umsetzung von Widgets, die per Spracheingabe von Formulareingaben bis zu verschiedenen Aktionen gesteuert werden und darauf reagieren
Bietet das tool-constrained UI-Muster, das den Assistenten darauf beschränkt, nur von der App erlaubte Aktionen auszuführen
Ein einziger Controller verwaltet Sitzungsverbindung, Audioverarbeitung, Tool-Ausführung und den Zusammenbau von Transkripten zentral, sodass Entwickler WebRTC oder das Realtime-Protokoll nicht direkt handhaben müssen
Bei der Einbindung in bestehende Apps bleibt die App die einzige Quelle des Zustands (source of truth), während die Sprachschicht nur begrenzte App-Handler aufruft
Kein universelles Orchestrierungs-Framework, sondern ein opinionated Paket, spezialisiert auf Browser-UI-Flows; für Nicht-React-Runtimes oder Agent-Orchestrierung werden Raw Realtime oder openai-agents-js empfohlen
Für die Integration in bestehende Apps wird ein 9-Schritte-Leitfaden bereitgestellt: /session-Endpunkt proxyen → Voice-Adapter-Wrapper erstellen → Tools registrieren → Controller hoisten → Widgets mounten
Der Controller verwendet standardmäßig server_vad; in Tool-only-Sitzungen wird mit interruptResponse: false sichergestellt, dass laufende Tool-Aufrufe nicht durch neue Spracheingaben abgebrochen werden
In der Demo-App lassen sich verschiedene Integrationsszenarien prüfen, darunter Theme-Wechsel, mehrstufige Formulare, gemeinsam genutzte Schach-Flows mit geteiltem Zustand und Wake-Word-Experimente
Apache-2.0-Lizenz

Sprachgesteuerte React-Komponente auf Basis der OpenAI Realtime API

Verwandte Beiträge

Noch keine Kommentare.