Ein Echtzeit-mehrsprachiger AI Voice Agent, der die Funktionen von macOS zu 100 % nutzt — TalkMode
(talkmode.baryon.ai)Titel:
Ein in Echtzeit auf dem Mac laufender AI Voice Agent — TalkMode
Untertitel:
Eine Agent-OS-artige Sprachschnittstelle auf Basis von Gaze-Tracking, Echtzeit-STT/TTS und der Anbindung an Claude/OpenAI
TalkMode ist eher ein Projekt, das einem
„Echtzeit-AI-Voice-Agent für produktive Aufgaben“ ähnelt,
als einem einfachen Sprach-Chatbot.
Technisch interessante Punkte:
- macOS-native Sprachinteraktion mit geringer Latenz
- Echtzeit-STT ↔ LLM ↔ TTS-Pipeline
- Optimiert für mehrsprachige Sprachdialoge, einschließlich Koreanisch
- Experimente mit gaze-basierter Interaktion
- Verarbeitung von Turn-Taking (Steuerung des Sprechzeitpunkts)
- Struktur zur Anbindung von OpenAI / Claude / CLI Agent
- Ausrichtung auf Agent-OS-artige Workflows
- Ausrichtung auf eine Local-First-Architektur
Besonders auffällig ist, dass es sich nicht einfach um einen „Frage-und-Antwort-Voice-Chat“ handelt, sondern eher um den Versuch,
- Meetings
- Brainstorming
- Entwicklungsunterstützung
- Recherche
- IDE/CLI-Anbindung
als einen zusammenhängenden, fortlaufenden Arbeitsfluss per Sprache zu verbinden.
Es wirkt, als würde tatsächlich ein Ablauf wie der folgende angestrebt:
Mic Input
↓
Streaming STT
↓
Context / Memory
↓
LLM Agent
↓
Tool Calls / CLI
↓
Realtime TTS
Ein weiterer interessanter Punkt ist, dass sich bisherige Voice Assistants eher wie „mobile Assistenten“ anfühlten,
während TalkMode durch die Verbindung zu Claude Code / Codex / der Terminal-Kultur
mehr wie ein „Voice Agent für Entwickler“ wirkt.
Offizielle Website:
https://talkmode.baryon.ai/
GitHub:
https://github.com/baryonlabs
Noch keine Kommentare.