5 Punkte von xguru 1 일 전 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Sprachgesteuerte Komponente für React/den Browser, aufgebaut auf der Realtime API
  • Ermöglicht die Umsetzung von Widgets, die per Spracheingabe von Formulareingaben bis zu verschiedenen Aktionen gesteuert werden und darauf reagieren
  • Bietet das tool-constrained UI-Muster, das den Assistenten darauf beschränkt, nur von der App erlaubte Aktionen auszuführen
  • Ein einziger Controller verwaltet Sitzungsverbindung, Audioverarbeitung, Tool-Ausführung und den Zusammenbau von Transkripten zentral, sodass Entwickler WebRTC oder das Realtime-Protokoll nicht direkt handhaben müssen
  • Bei der Einbindung in bestehende Apps bleibt die App die einzige Quelle des Zustands (source of truth), während die Sprachschicht nur begrenzte App-Handler aufruft
  • Kein universelles Orchestrierungs-Framework, sondern ein opinionated Paket, spezialisiert auf Browser-UI-Flows; für Nicht-React-Runtimes oder Agent-Orchestrierung werden Raw Realtime oder openai-agents-js empfohlen
  • Für die Integration in bestehende Apps wird ein 9-Schritte-Leitfaden bereitgestellt: /session-Endpunkt proxyen → Voice-Adapter-Wrapper erstellen → Tools registrieren → Controller hoisten → Widgets mounten
  • Der Controller verwendet standardmäßig server_vad; in Tool-only-Sitzungen wird mit interruptResponse: false sichergestellt, dass laufende Tool-Aufrufe nicht durch neue Spracheingaben abgebrochen werden
  • In der Demo-App lassen sich verschiedene Integrationsszenarien prüfen, darunter Theme-Wechsel, mehrstufige Formulare, gemeinsam genutzte Schach-Flows mit geteiltem Zustand und Wake-Word-Experimente
  • Apache-2.0-Lizenz

Noch keine Kommentare.

Noch keine Kommentare.