Pipecat – Sprachassistent auf Basis eines Open-Source-Frameworks

(github.com/pipecat-ai)

2 Punkte von GN⁺ 2024-05-14 | 1 Kommentare | Auf WhatsApp teilen

Pipecat ist ein Open-Source-Python-Framework zum Erstellen von Echtzeit-Sprach- und multimodalen dialogorientierten Agenten und unterstützt alles von einzelnen Sprachagenten bis hin zu Systemen, in denen mehrere spezialisierte Agenten per Handoff, paralleler Ausführung und gemeinsamem Bus koordiniert werden
Das Kerndesign bündelt Spracherkennung, Text-to-Speech, Dialogverarbeitung, AI-Services und die Transportschicht in kombinierbaren Pipelines, damit sich Entwickler auf die spezifische Logik ihrer Agenten konzentrieren können
Zu den möglichen Anwendungen zählen Voice Assistants, Multi-Agenten-Systeme, AI-Companions, multimodale Schnittstellen auf Basis von Sprache, Video und Bildern, interaktives Storytelling, Bots für Kundenannahme und Support sowie strukturierte Dialogsysteme
Die offiziellen Client-SDKs unterstützen JavaScript, React, React Native, Swift, Kotlin, C++, ESP32; serverseitige Services lassen sich auf STT, LLM, TTS, Speech-to-Speech, WebRTC/WebSocket-Transport, Video, Memory, Vision/Bilder, Audioverarbeitung und Analyse-Tools erweitern
Der Schnellstart ist mit pipecat init quickstart oder pipecat init möglich, die Basisinstallation bleibt schlank und die Unterstützung für AI-Services von Drittanbietern wird durch das Hinzufügen benötigter Extras bereitgestellt

Die Rolle von Pipecat

Pipecat ist ein Open-Source-Python-Framework zum Aufbau von Echtzeit-Sprach- und multimodalen dialogorientierten Agenten
Es können nicht nur einzelne Sprachagenten, sondern auch Multi-Agenten-Systeme erstellt werden, in denen spezialisierte Agenten gegenseitige Handoffs, paralleles Fan-out, Sidecar-Ausführung und Koordination über einen gemeinsamen Bus durchführen
Es ist darauf ausgelegt, Audio, Video, AI-Services, Transportschichten und Dialog-Pipelines gemeinsam zu orchestrieren, damit man sich auf die Implementierung des spezifischen Verhaltens eines Agenten konzentrieren kann
Für einen schnellen Einstieg kann man pipecat init quickstart ausführen oder dem Quickstart Guide folgen

Was man damit bauen kann

Voice Assistants: Sprachassistenten für natürlich gestreamte Gespräche mit AI
Multi-Agent Systems: Architekturen, in denen spezialisierte Agenten Handoffs ausführen, parallel per Fan-out arbeiten oder als Sidecars auf einem gemeinsamen Bus laufen
AI Companions: Coaches, Meeting-Assistenten, Charaktere
Multimodal Interfaces: Schnittstellen, die Sprache, Video, Bilder und mehr verarbeiten
Interactive Storytelling: Kreativwerkzeuge auf Basis generativer Medien
Business Agents: Kundenannahme, Support-Bots, geführte Abläufe
Complex Dialog Systems: Systeme, die Logik über strukturierte Dialoge entwerfen

Designmerkmale

Eine Voice-first-Architektur integriert Spracherkennung, Text-to-Speech und Dialogverarbeitung
Eine plug-in-artige Struktur ermöglicht die Anbindung verschiedener AI-Services und Tools
Kombinierbare Pipelines unterstützen den Aufbau komplexer Abläufe aus modularen Komponenten
Jede Pipeline kann als Agent behandelt und per Handoff, parallelem Fan-out, Sidecar-Workern und verteilter Bereitstellung kombiniert werden
Über Transportschichten wie WebSockets oder WebRTC zielt das Framework auf ultraniedrige Latenz für Echtzeit-Interaktionen ab

Ökosystem und Tools

Offizielle Client-SDKs werden bereitgestellt, um Pipecat auf mehreren Plattformen anzubinden
- JavaScript, React, React Native
- Swift, Kotlin, C++, ESP32
Pipecat Flows ermöglicht das Konfigurieren vordefinierter oder dynamischer Dialogpfade inklusive Zustandsverwaltung innerhalb von Pipecat
- Beispiele dafür finden sich unter flows examples
Voice UI Kit ist eine Sammlung aus Komponenten, Hooks und Templates, um Sprach-AI-Anwendungen schnell zu erstellen
Pipecat CLI wird mit pipecat-ai ausgeliefert und per uv tool install "pipecat-ai[cli]" installiert
- pipecat init startet ein neues Projekt und richtet es so ein, dass AI-Coding-Assistenten wie Claude Code oder Codex das Projekt erstellen können
- Ein lauffähiger Bot lässt sich in weniger als einer Minute scaffolden; anschließend kann man Agenten per CLI überwachen und in Produktion deployen
Whisker ist ein Echtzeit-Debugger für Pipecat-Pipelines und -Prozessoren
Tail ist ein Terminal-Dashboard für Pipecat
Pipecat Skills unterstützt zusammen mit Claude Code Projekt-Scaffolding, Pipecat-Cloud-Deployments und mehr
- Installationsbefehl: claude plugin marketplace add pipecat-ai/skills

Unterstützte Services

Speech-to-Text unterstützt zahlreiche Services wie AssemblyAI, AWS, Azure, Deepgram, Google, Groq Whisper, Mistral, NVIDIA, OpenAI Whisper, Whisper, xAI und weitere
LLM umfasst unter anderem Anthropic, AWS, Azure, Cerebras, DeepSeek, Gemini, Grok, Groq, Mistral, NVIDIA NIM, Ollama, OpenAI, OpenAI Responses, OpenRouter, Perplexity, Qwen und Together AI
Text-to-Speech ist mit AWS, Azure, Cartesia, Deepgram, ElevenLabs, Google, Groq, Hume, Kokoro, Mistral, NVIDIA, OpenAI, Piper, Resemble, Rime, Together, XTTS und weiteren verbunden
Speech-to-Speech unterstützt AWS Nova Sonic, Gemini Multimodal Live, Grok Voice Agent, OpenAI Realtime und Ultravox
Die Transportschicht umfasst Daily WebRTC, FastAPI Websocket, LiveKit WebRTC, SmallWebRTCTransport, Vonage WebRTC, WebSocket Server, WhatsApp und Local
Darüber hinaus werden Serializer wie Twilio, Telnyx und Vonage, Video wie HeyGen, Tavus und Simli, mem0-Memory, Vision/Bilder auf Basis von fal, Google Imagen und Moondream, Audioverarbeitung wie Silero VAD, Krisp Viva und RNNoise sowie Analyse-Tools wie OpenTelemetry und Sentry unterstützt
Die vollständige Liste findet sich in der Dokumentation aller unterstützten Services

Installation und Einstieg

Pipecat kann zunächst lokal ausgeführt werden; sobald alles bereit ist, lassen sich die Agentenprozesse in die Cloud verlagern
Vor dem Start muss uv installiert werden

curl -LsSf https://astral.sh/uv/install.sh | sh

Für den CLI-basierten Schnellstart wird zuerst die Pipecat CLI installiert, danach kann interaktiv ein neuer Phone- oder Web-/Mobile-Bot gescaffoldet werden

uv tool install "pipecat-ai[cli]"
pipecat init

Bei der manuellen Installation verwendet man in einem neuen Projekt uv init und uv add pipecat-ai oder ergänzt in einem bestehenden Projekt uv add pipecat-ai

uv init my-pipecat-app
cd my-pipecat-app
uv add pipecat-ai

uv add pipecat-ai

Die Umgebungsdatei wird mit cp env.example .env eingerichtet
Das Basispaket enthält nur das Core Framework; wenn AI-Services von Drittanbietern benötigt werden, fügt man Extras hinzu

uv add "pipecat-ai[option,...]"

Wer pip verwendet, kann mit pip install pipecat-ai und pip install "pipecat-ai[option,...]" installieren

Beispiele und Entwicklung

Focused examples sind kleine Agentenbeispiele, die ein oder zwei bestimmte Services oder Konzepte zeigen
Example apps sind vollständige Anwendungen, die als Ausgangspunkt für die Entwicklung dienen können
Für die Entwicklung mit Pipecat ist mindestens Python 3.11 erforderlich, empfohlen wird Python 3.12 oder neuer
Die Entwicklungsumgebung des Repositories wird mit uv sync --group dev --all-extras --no-extra gstreamer --no-extra local eingerichtet
- Einige Extras wie local oder gstreamer können Systemabhängigkeiten erfordern
Tests werden im Repository-Root mit uv run pytest ausgeführt; ein bestimmter Test kann mit uv run pytest tests/test_name.py gestartet werden

Beiträge und Hilfe

Bugs werden als GitHub-Issue gemeldet, Funktionsideen beginnen in einer Discord-Diskussion
Für Code-Beiträge gilt der Leitfaden in CONTRIBUTING.md; Verbesserungen an der Dokumentation können als PR an Docs eingereicht werden
Hilfe gibt es über Discord, die docs und X

1 Kommentare

GN⁺ 2024-05-14

Meinungen auf Hacker News

Schön, dass es eine Open-Source-Implementierung gibt; ich habe gesehen, dass viele Startups wie https://www.retellai.com/ und https://fixie.ai/ in diesen Bereich einsteigen.
Am Ende braucht man immer ein Speech-to-Speech-Modell; der aktuelle Ansatz wirkt meist wie Sprache→Text→Text→Sprache, wobei mehrere Agents jeweils einmal Zuhören + einmal Sprechen übernehmen.
Ich bin gespannt, wie sich das mit dem kürzlich angekündigten gpt-4o verzahnen wird.
- https://vapi.ai wäre ebenfalls eine Ergänzung für die Liste. Die Tools sind ziemlich gut.
  Ich versuche, die verschiedenen Ebenen und Player in diesem Bereich weiter im Blick zu behalten.
- Bei fixie.ai arbeiten wir an einem SLM, also einem Sprach-Sprachmodell, und werden bald etwas veröffentlichen, das man ausprobieren kann.
- Ich frage mich, wie ein Speech-to-Speech-Modell funktioniert. Nutzt es deutlich mehr Tokens, um Nuancen der Sprache zu erfassen?
Großartig, aber auch im Open-Source-Bereich brauchen wir wirklich ein Audio-to-Audio-Modell wie das, was man in der Demo gesehen hat. Weiß jemand von etwas Ähnlichem?
Edit: Jemand hat eines gefunden: https://news.ycombinator.com/item?id=40346992
- Die meisten Pipecat-Beispiele, an denen wir gerade arbeiten, konzentrieren sich auf Speech-to-Speech. Die Beispiele zeigen, wie man das umsetzt, und ein gehostetes Storytelling-Beispiel kann man direkt ausprobieren: https://storytelling-chatbot.fly.dev/
  Es wäre gut, die Beispiele im README so zu aktualisieren, dass das besser sichtbar wird.
- Audio-to-Audio-Modelle sind definitiv ein Schritt nach vorn, und insgesamt scheint es in diese Richtung zu gehen.
  Im Kontext von Echtzeit-Sprach-KI fühlt sich die Reaktion für die meisten Menschen und Anwendungsfälle natürlich an, wenn die Latenz auf etwa unter 800 ms sinkt.
  Die Ankündigungsseite von GPT-4o nennt im Schnitt etwa 320 ms vom Audio-Prompt bis zum ersten Token; das ist definitiv die nächste Stufe und deshalb sehr spannend. Mit keiner Pipeline, die derzeit GPT-4 Turbo enthält, kommt man auf 800 ms, daher ist das bedeutsam.
  Wenn man die aktuell schnellsten Modelle für Transkription, Inferenz und Sprachsynthese zu einer Pipeline verbindet, sind etwa 500 ms bis zum ersten Token möglich. Zum Beispiel mit Deepgram-Transkription, Groq Llama-3 und Deepgram Aura Voice.
Siri erschien im Oktober 2011, Amazon Alexa im November 2014, und der Google-Assistant-Sprachlautsprecher im Mai 2016.
Soweit ich sehe, ist Siri immer noch ein Chaos, das niemand benutzen will; zu Alexa kann ich schwer etwas sagen, weil ich es nie selbst genutzt habe, aber bei Google-Home-Lautsprechern und Android-Smartphones habe ich seit Jahren keine großen Verbesserungen gesehen. Eher wurde es schlechter: Man kann Einträge nicht mehr wie früher direkt zu AnyList[0] hinzufügen, sondern nur noch zu Google Keep.
Selbst sehr einfache Beispiele, von denen ich schon lange dachte, dass sie funktionieren würden, werden noch nicht interpretiert, etwa zweistufige Anfragen wie „Wiederhole das, was du gerade gesagt hast, lauter“ oder „Schalte die Lichter in Küche und Esszimmer aus“.
Sprachassistenten sind beim Autofahren, im Bett, beim Kochen oder wenn man anderweitig beschäftigt ist, ziemlich nützlich, trotzdem wirken sie seit der frühen Einführungsphase fast stehen geblieben. Wahrscheinlich hat niemand einen Weg gefunden, sie zu monetarisieren.
Was wäre nötig, um bessere Sprachassistenten für Verbraucher zu bekommen? Willow[1] scheint auch nicht wirklich groß geworden zu sein.
[0] https://help.anylist.com/articles/google-assistant-overview/
[1] https://heywillow.io/
Nebenbei: Ich habe wohl den Thread gekapert, um etwas loszuwerden, das mir in letzter Zeit im Kopf herumging. Pipecat sieht wirklich cool aus, und ich hoffe, es läuft gut; hoffentlich finde ich am Wochenende Zeit, damit zu experimentieren.
- Ich nutze hauptsächlich Google Home, habe aber auch Echo Frames und verwende Alexa daher ebenfalls recht regelmäßig. Mein Hauptanwendungsfall ist Home Automation, und in diesem Szenario reagiert Alexa deutlich besser als Google Home.
  Ich stimme zu, dass Google Home in vielerlei Hinsicht schlechter geworden zu sein scheint. Als jemand, der AnyList viel nutzt, war diese Änderung besonders frustrierend.
- Für manche Aufgaben ist Siri auch okay. Zum Beispiel „Schreib x eine Nachricht“ oder „Erinnere mich daran, x zu tun, wenn ich zu Hause ankomme“.
  Das klappt auch ohne Internetverbindung ziemlich gut. Diktat ist allerdings eine Ausnahme; mit Internet ist es deutlich besser.
- Es gibt einen qualitativen Sprung, den Sprachassistenten schaffen müssen, und ich habe das Gefühl, dass das bis vor den letzten 18 Monaten nicht möglich gewesen wäre. Insofern stimmt es, dass die Produkte selbst stagniert haben.
  Aus Amazons Sicht ist allerdings unklar, an welchem Punkt des technischen Stands im vergangenen Jahr sie eine Linie gezogen und auf dieser Basis mit Produktiterationen begonnen hätten.
- Ich nutze sowohl Siri als auch Alexa, aber gemessen an den begrenzten Funktionen, die ich verwende, nutze ich Alexa öfter und halte Alexa trotzdem für schlechter als Siri.
  Immerhin kann Alexa zwei Dinge gleichzeitig verarbeiten, etwa „Schalte X ein und Y aus“ oder „Schalte X für Y Sekunden ein“.
  Ich habe das Gefühl, dass es mit der Zeit schlechter geworden ist, und nachdem ich gelesen hatte, dass sich Staub auf dem Mikrofon ansammeln und die Spracherfassung verschlechtern kann, habe ich einen Staubentferner ausprobiert, aber das hat es nicht gelöst.
  Als ich mir in der App anhörte, was Alexa tatsächlich aufgenommen hatte, war die Mikrofonqualität sowohl beim Echo als auch beim Echo Dot der 4. Generation wirklich schlecht. Im letzten Monat habe ich Whisper viel mit Audioquellen niedriger Qualität getestet, und ich glaube, ein solches Modell würde meine Stimme viel besser verstehen als das, was Amazon verwendet.
- Ich nutze Alexa, also einen Amazon Echo Show, für News-Briefings, Wetterabfragen, Musikwiedergabe und Timer.
  Alexa ist ein Chaos und wird immer dümmer. Es ignoriert Einstellungen komplett und schaltet sogar deaktivierte Einstellungen wieder ein.
  Es beantwortet Fragen häufig nicht, sondern fragt, ob man irgendeine neue Funktion ausprobieren möchte, und fügt Nachrichtenkanäle, die ich explizit aus der Flash-Briefing-Liste entfernt habe, eigenmächtig wieder hinzu.
  Ich verstehe weiterhin nicht, wie es so schlecht sein kann.
https://feycher.com habe ich gerade ebenfalls gebaut; es ist ähnlich, unterstützt aber auch Echtzeit-Lippensynchronisation. Wenn Interesse besteht, können wir gern darüber sprechen.
Es gibt auch bolna, eine Open-Source-Voice-Orchestrierung: https://github.com/bolna-ai/bolna
Auch die LiveKit Agents, die OpenAI im Sprachmodus nutzt, sind Open Source:
https://github.com/livekit/agents
Voice Activity Detection (VAD) insgesamt ist sehr interessant, und ich würde besonders gern mehr darüber lernen, wie sie funktioniert, wenn mehrere Sprecher beteiligt sind
Wie könnte man anfangen, wenn man das für Echtzeitübersetzung von Telefonaten verwenden möchte?
- Daily unterstützt jetzt ausgehende und eingehende Anrufe: https://docs.daily.co/guides/products/dial-in-dial-out#main
  Das heißt, man kann einen Bot in ein Gespräch einbinden und ihn dann eine Telefonnummer anrufen lassen; genau so funktioniert es tatsächlich
- Ich frage mich, warum man Telefonate in Echtzeit übersetzen möchte. Und es gibt Whisper
Ich bin gespannt, welche Auswirkungen die gerade vorgestellte Echtzeit-Sprachausgabe von GPT-4o auf solche Projekte haben wird
Die Demo für mehrsprachige Übersetzungsgespräche in Echtzeit war wirklich beeindruckend
- In Pipecat gibt es eine Übersetzungsdemo mit GPT-4 Turbo, das inzwischen zu einem uralten, arthritischen Modell geworden ist :-) https://github.com/pipecat-ai/pipecat/tree/main/examples/tra...
  Sobald GPT-4o-Audioeingabe per API verfügbar ist, wird Pipecat um 4o-Unterstützung ergänzt. Für bidirektionales Echtzeit-Audio wird vermutlich ein neuer WebSocket- oder WebRTC-Endpunkt nötig sein
- Ich frage mich dasselbe
  Eine Pipeline zu bauen, die Large Language Models mit Text-to-Speech- und Speech-to-Text-Modellen bei niedriger Latenz verbindet, ist zwar in Ordnung, wirkt im Vergleich zu einem nativen multimodalen Modell wie GPT-4o aber klar unterlegen
  Die Zukunft gehört voice-nativen Modellen, die Nuancen von Stimme und Sprechweise verstehen können, und diese Zukunft ist gar nicht mehr so weit entfernt

Pipecat – Sprachassistent auf Basis eines Open-Source-Frameworks

Die Rolle von Pipecat

Was man damit bauen kann

Designmerkmale

Ökosystem und Tools

Unterstützte Services

Installation und Einstieg

Beispiele und Entwicklung

Beiträge und Hilfe

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News