- Hassaan und Quinn, Mitgründer von Tavus, stellen ihr AI-Forschungsunternehmen und ihre Video-API-Entwicklungsplattform vor
- Seit 2020 entwickeln sie AI-Videomodelle für „digitale Zwillinge“ oder „Avatare“
- Sie teilen die Herausforderungen beim Aufbau einer AI-Video-Schnittstelle für realistische Gespräche mit Menschen
Herausforderungen
- Damit interaktive Videos effektiv sind, brauchen sie sehr niedrige Latenz und Gesprächsverständnis
- Schnelle Gespräche unter Freunden haben etwa 250 ms zwischen den Sprecherwechseln, aber bei komplexen Themen oder Gesprächen mit neuen Personen ist zusätzliche „Denkzeit“ nötig
- Eine Latenz von unter 1000 ms lässt Gespräche realistisch wirken
Architekturentscheidungen
- Eine der größten Herausforderungen war es, Latenz, Skalierbarkeit und Kosten auszubalancieren
- Um die Latenz zu senken, musste alles von Grund auf neu aufgebaut werden
- Gleichzeitig mussten Tausende Gespräche parallel unterstützt und die Rechenkosten gesenkt werden
Frühe Entwicklung
- In der frühen Entwicklungsphase musste jedes Gespräch auf einer eigenen H100 laufen
- Das war nicht skalierbar und sehr teuer
Entwicklung des Phoenix-2-Modells
- Es wurde ein neues Modell namens Phoenix-2 mit mehreren Verbesserungen entwickelt
- Der Wechsel von einem NeRF-basierten Backbone zu Gaussian Splatting ermöglichte die Generierung von Frames schneller als in Echtzeit
- Speicher- und GPU-Core-Nutzung wurden optimiert, sodass das Modell auch auf schwächerer Hardware laufen kann
- Es kamen weitere Methoden zum Einsatz, um Zeit und Kosten zu sparen, etwa Streaming vs. Batching und Prozessparallelisierung
Optimierung
- Jede Komponente (Vision, ASR, LLM, TTS, Videogenerierung) musste auf Höchstgeschwindigkeit optimiert werden
- Das größte Problem war das LLM
- Selbst wenn die Tokens pro Sekunde (
t/s) hoch waren, blieb eine langsame Time to First Token (ttft) problematisch
- Die meisten Anbieter waren zu langsam
Erkennung des Sprecherendes
- Die Erkennung des Sprecherendes war schwierig
- Standardlösungen verwenden die Zeit nach einer Stille, um das Ende eines Beitrags zu „entscheiden“, was jedoch zusätzliche Latenz verursacht
- Wichtig war, das richtige Timing zu finden, damit der AI-Agent Nutzern nicht ins Wort fällt
Ergebnis
- Durch diese Optimierungen konnte die Latenz von 3–5 Sekunden auf unter 1 Sekunde (maximal 600 ms) gesenkt werden
- Auch auf schwächerer Hardware wurde eine Latenz von unter 1 Sekunde erreicht
- Zu den Kunden gehören mehrere Unternehmen wie Delphi; Gespräche mit digitalen Zwillingen dauern von einigen Minuten bis zu 4 Stunden
Zusammenfassung von GN⁺
- Das AI-Videomodell von Tavus zielt auf natürliche Gespräche mit Menschen ab
- Zur Verringerung der Latenz wurden Architektur und Optimierung komplett neu gedacht
- Das Phoenix-2-Modell kann auch auf schwächerer Hardware Frames schneller als in Echtzeit erzeugen
- Diese Technologie könnte ein wichtiger Bestandteil von Mensch-Computer-Schnittstellen werden
- Ein ähnliches Projekt mit vergleichbarer Funktionalität ist Google Duplex
1 Kommentare
Hacker-News-Kommentare