Show HN: Echtzeit-KI-Video-Agent mit unter 1 Sekunde Latenz

(news.ycombinator.com)

2 Punkte von GN⁺ 2024-10-02 | 1 Kommentare | Auf WhatsApp teilen

Tavus konzentriert sich darauf, die Antwortlatenz auf unter eine Sekunde zu senken, um ein KI-Video-Interface zu schaffen, das sich natürlich mit Menschen unterhält
In schnellen Gesprächen liegen zwischen Redebeiträgen nur etwa 250 ms; deshalb brauchen Video-Agenten sowohl geringe Latenz als auch Bewusstsein für den Gesprächskontext
Das frühe Phoenix-1 benötigte pro Gespräch eine H100, was Kosten und Skalierbarkeit einschränkte; Phoenix-2 setzt durch den Wechsel zu Gaussian Splatting das Ziel, auf schwächerer Hardware mehr als 70 fps zu erzeugen
In der gesamten Pipeline wurden Vision, ASR, LLM, TTS und Videoerzeugung beschleunigt; beim LLM war nicht die Tokenrate pro Sekunde, sondern die Zeit bis zum ersten Token der spürbare Engpass
Wenn man das Ende eines Redebeitrags nur anhand von Stille erkennt, entstehen Unterbrechungen und Antwortverzögerungen; durch End-of-Turn-Erkennung und Eingabevorhersage wurde die Latenz von 3–5 Sekunden auf unter 1 Sekunde, im besten Fall auf 600 ms, gesenkt

Tavus’ Ziel: eine Antwortgeschwindigkeit, die sich menschlich anfühlt

Tavus ist ein KI-Forschungsunternehmen und eine Entwicklerplattform für Video-APIs, die seit 2020 KI-Videomodelle für digitale Zwillinge oder Avatare entwickelt
Als Demos werden hassaanraza.com, wo man mit Hassaans digitalem Zwilling sprechen kann, sowie tavus.io mit dem „demo twin“ Carter angeboten
Interaktives Video kann eine natürlichere Art werden, mit Computern zu interagieren; dafür braucht es jedoch geringe Latenz und ein Bewusstsein, das den Gesprächskontext berücksichtigt
Die Ziel-Latenz liegt unter einer Sekunde
- Schnelle Gespräche unter Freunden haben zwischen Redebeiträgen nur etwa 250 ms Abstand
- Bei komplexeren Themen oder Gesprächen mit Fremden kommt zusätzliche „Denkzeit“ hinzu
- Unter 1000 ms fühlt sich ein Gespräch nach Einschätzung von Tavus recht realistisch an

Umsetzung mit Latenz, Skalierbarkeit und Kosten im Blick

Die Architektur musste Latenz, Skalierbarkeit und Kosten zugleich erfüllen; dafür wurde sie von Grund auf als Low-Latency-System neu gedacht
Videomodell und Hardwarekosten
- In der frühen Entwicklungsphase mussten alle Komponenten und Modellgewichte im GPU-Speicher liegen, um das Phoenix-1-Modell schneller als 30 fps auszuführen; pro Gespräch war eine eigene H100 erforderlich
- Dieser Ansatz war schwer skalierbar und teuer
- Phoenix-2 ist ein neues Modell mit mehreren Verbesserungen, darunter eine höhere Inferenzgeschwindigkeit
  - Wechsel von einem NeRF-basierten Backbone zu Gaussian Splatting
  - Als Anforderung wurde festgelegt, auf schwächerer Hardware mit mehr als 70 fps schneller als in Echtzeit Frames zu erzeugen
  - Der Fokus lag darauf, GPU-Speicher und Core-Nutzung zu optimieren, damit es auch auf Hardware mit niedrigeren Spezifikationen läuft
  - Für Streaming-Nutzung wurden außerdem Parallelisierung statt Batch-Verarbeitung genutzt, um Zeit und Kosten zu senken
LLM und End-of-Turn-Erkennung
- Um die Latenz zwischen Redebeiträgen auf unter eine Sekunde zu reduzieren, wurden Vision, ASR, LLM, TTS und Videoerzeugung jeweils stark optimiert
- Der größte Engpass war das LLM
  - Wichtiger für die tatsächlich wahrgenommene Verzögerung als schnelle Tokens pro Sekunde war die Zeit bis zum ersten Token (time-to-first token)
  - Dienste wie Groq haben zwar eine hohe Tokenrate pro Sekunde, aber eine zu langsame Zeit bis zum ersten Token und passten daher nicht zu den Anforderungen; die meisten Anbieter waren zu langsam
- Der nächste Engpass war die Erkennung, ob der Nutzer aufgehört hat zu sprechen
  - Wenn das Ende anhand der Zeit nach einer Stille bestimmt wird, entsteht zusätzliche Verzögerung
  - Ist der Schwellenwert zu kurz, fällt der KI-Agent dem Nutzer ins Wort; ist er zu lang, kommt die Antwort zu spät
  - Benötigt wurde ein dediziertes Modell, das anhand von Gesprächssignalen das Ende eines Redebeitrags (end-of-turn) präzise erkennt und durch Vorhersage der Eingabe frühzeitig vorbereitet
- Durch diese Optimierungen wurde die zuvor 3–5 Sekunden lange Latenz auf unter 1 Sekunde, im besten Fall auf 600 ms, gesenkt und die Ausführung auch auf Hardware mit niedrigeren Spezifikationen ermöglicht

Demo und Anwendungsfälle

Tavus hat Kunden wie Delphi; Delphi ist eine Plattform zur Replikation professioneller Coaches und Experten, auf der Nutzer Gespräche mit digitalen Zwillingen führen, die von einigen Minuten bis zu einer Stunde oder sogar vier Stunden dauern
Wer nach der Demo die API ausprobieren möchte, kann sich unter tavus.io kostenlos registrieren

1 Kommentare

GN⁺ 2024-10-02

Hacker-News-Kommentare

Die Website und das Einwahlgeräusch gefallen mir, der Cowboyhut auch
Das Chat-Erlebnis mit den beiden Avataren ist nicht gut, es hakt oft und ist verwirrend
Die Bilderkennung ist gut, der Avatar konnte Gegenstände erkennen, wenn er langsam reagierte
Danke, dass ihr die konkreten Schwierigkeiten teilt, es wird in Zukunft besser werden
Die Hassan-Version war besser, sie erkannte den Hintergrund und sprach über das Modell an der Wand
- Gespräch über ein LEGO-Set
Im Badezimmer zeigte die Kamera auf ein Handtuch und es hieß: "Ein gemütliches Badezimmer"
Es fühlte sich an, als würde man mit einer echten Person sprechen, man konnte es nicht wie Code behandeln
- Das bringt einen dazu, über die bewusste Anstrengung beim Gespräch mit Menschen nachzudenken
- Bei Google-Suchen verwendet man nur die minimal nötigen Keywords
- Ich sorge mich, dass diese Technologie Menschen zu ähnlichem Verhalten trainieren könnte
Falls ihr an latenzarmer, multimodaler KI interessiert seid: Tavus sponsert am 19.–20. Oktober einen Hackathon in SF
- Es gibt auch einen Remote-Track
Demo-Fähigkeiten: 9,5/10
- Gruselfaktor: 10/10
Ich kenne mich mit GPU-Deployments nicht aus, aber es ist teuer und schwer, Kontingente zu bekommen
- Ich frage mich, wie man Cloud-GPU-Ressourcen in großem Maßstab handhabt
- Ob pro WebSocket-Verbindung eine GPU zugewiesen wird? Wenn ja, wäre das sehr teuer
Technisch sehr beeindruckend, der Carter-Avatar wirkt angespannt
- Mit Mund/Zähnen stimmt etwas nicht, aber die Reaktion ist schnell
- Ich habe in Zoom schon mehr Verzögerung gesehen
- Ich denke, das ist die Zukunft von Callcentern; wenn der Avatar ausdrucksstärker wird, wird auch der CSAT höher sein
Technisch erstaunliche Arbeit, eine Reaktionszeit von unter 1 Sekunde ist sehr beeindruckend
- Es ist beängstigend, dass man auf FaceTime mit einer falschen Person sprechen könnte
- Ich frage mich, wie ihr über die gesellschaftlichen Auswirkungen denkt
- Heute gibt es wegen des Mangels an menschlicher Verbindung eine Einsamkeitskrise
ChatGPT hat Probleme damit, Gesprächsunterbrechungen zu erkennen
- Es fällt einem ständig ins Wort

Show HN: Echtzeit-KI-Video-Agent mit unter 1 Sekunde Latenz

Tavus’ Ziel: eine Antwortgeschwindigkeit, die sich menschlich anfühlt

Umsetzung mit Latenz, Skalierbarkeit und Kosten im Blick

Videomodell und Hardwarekosten

LLM und End-of-Turn-Erkennung

Demo und Anwendungsfälle

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare