2 Punkte von GN⁺ 2024-10-02 | 1 Kommentare | Auf WhatsApp teilen
  • Hassaan und Quinn, Mitgründer von Tavus, stellen ihr AI-Forschungsunternehmen und ihre Video-API-Entwicklungsplattform vor
  • Seit 2020 entwickeln sie AI-Videomodelle für „digitale Zwillinge“ oder „Avatare“
  • Sie teilen die Herausforderungen beim Aufbau einer AI-Video-Schnittstelle für realistische Gespräche mit Menschen

Herausforderungen

  • Damit interaktive Videos effektiv sind, brauchen sie sehr niedrige Latenz und Gesprächsverständnis
  • Schnelle Gespräche unter Freunden haben etwa 250 ms zwischen den Sprecherwechseln, aber bei komplexen Themen oder Gesprächen mit neuen Personen ist zusätzliche „Denkzeit“ nötig
  • Eine Latenz von unter 1000 ms lässt Gespräche realistisch wirken

Architekturentscheidungen

  • Eine der größten Herausforderungen war es, Latenz, Skalierbarkeit und Kosten auszubalancieren
  • Um die Latenz zu senken, musste alles von Grund auf neu aufgebaut werden
  • Gleichzeitig mussten Tausende Gespräche parallel unterstützt und die Rechenkosten gesenkt werden

Frühe Entwicklung

  • In der frühen Entwicklungsphase musste jedes Gespräch auf einer eigenen H100 laufen
  • Das war nicht skalierbar und sehr teuer

Entwicklung des Phoenix-2-Modells

  • Es wurde ein neues Modell namens Phoenix-2 mit mehreren Verbesserungen entwickelt
  • Der Wechsel von einem NeRF-basierten Backbone zu Gaussian Splatting ermöglichte die Generierung von Frames schneller als in Echtzeit
  • Speicher- und GPU-Core-Nutzung wurden optimiert, sodass das Modell auch auf schwächerer Hardware laufen kann
  • Es kamen weitere Methoden zum Einsatz, um Zeit und Kosten zu sparen, etwa Streaming vs. Batching und Prozessparallelisierung

Optimierung

  • Jede Komponente (Vision, ASR, LLM, TTS, Videogenerierung) musste auf Höchstgeschwindigkeit optimiert werden
  • Das größte Problem war das LLM
  • Selbst wenn die Tokens pro Sekunde (t/s) hoch waren, blieb eine langsame Time to First Token (ttft) problematisch
  • Die meisten Anbieter waren zu langsam

Erkennung des Sprecherendes

  • Die Erkennung des Sprecherendes war schwierig
  • Standardlösungen verwenden die Zeit nach einer Stille, um das Ende eines Beitrags zu „entscheiden“, was jedoch zusätzliche Latenz verursacht
  • Wichtig war, das richtige Timing zu finden, damit der AI-Agent Nutzern nicht ins Wort fällt

Ergebnis

  • Durch diese Optimierungen konnte die Latenz von 3–5 Sekunden auf unter 1 Sekunde (maximal 600 ms) gesenkt werden
  • Auch auf schwächerer Hardware wurde eine Latenz von unter 1 Sekunde erreicht
  • Zu den Kunden gehören mehrere Unternehmen wie Delphi; Gespräche mit digitalen Zwillingen dauern von einigen Minuten bis zu 4 Stunden

Zusammenfassung von GN⁺

  • Das AI-Videomodell von Tavus zielt auf natürliche Gespräche mit Menschen ab
  • Zur Verringerung der Latenz wurden Architektur und Optimierung komplett neu gedacht
  • Das Phoenix-2-Modell kann auch auf schwächerer Hardware Frames schneller als in Echtzeit erzeugen
  • Diese Technologie könnte ein wichtiger Bestandteil von Mensch-Computer-Schnittstellen werden
  • Ein ähnliches Projekt mit vergleichbarer Funktionalität ist Google Duplex

1 Kommentare

 
GN⁺ 2024-10-02
Hacker-News-Kommentare
  • Die Website und das Einwahlgeräusch gefallen mir, der Cowboyhut auch
  • Das Chat-Erlebnis mit den beiden Avataren ist nicht gut, es hakt oft und ist verwirrend
  • Die Bilderkennung ist gut, der Avatar konnte Gegenstände erkennen, wenn er langsam reagierte
  • Danke, dass ihr die konkreten Schwierigkeiten teilt, es wird in Zukunft besser werden
  • Die Hassan-Version war besser, sie erkannte den Hintergrund und sprach über das Modell an der Wand
    • Gespräch über ein LEGO-Set
  • Im Badezimmer zeigte die Kamera auf ein Handtuch und es hieß: "Ein gemütliches Badezimmer"
  • Es fühlte sich an, als würde man mit einer echten Person sprechen, man konnte es nicht wie Code behandeln
    • Das bringt einen dazu, über die bewusste Anstrengung beim Gespräch mit Menschen nachzudenken
    • Bei Google-Suchen verwendet man nur die minimal nötigen Keywords
    • Ich sorge mich, dass diese Technologie Menschen zu ähnlichem Verhalten trainieren könnte
  • Falls ihr an latenzarmer, multimodaler KI interessiert seid: Tavus sponsert am 19.–20. Oktober einen Hackathon in SF
    • Es gibt auch einen Remote-Track
  • Demo-Fähigkeiten: 9,5/10
    • Gruselfaktor: 10/10
  • Ich kenne mich mit GPU-Deployments nicht aus, aber es ist teuer und schwer, Kontingente zu bekommen
    • Ich frage mich, wie man Cloud-GPU-Ressourcen in großem Maßstab handhabt
    • Ob pro WebSocket-Verbindung eine GPU zugewiesen wird? Wenn ja, wäre das sehr teuer
  • Technisch sehr beeindruckend, der Carter-Avatar wirkt angespannt
    • Mit Mund/Zähnen stimmt etwas nicht, aber die Reaktion ist schnell
    • Ich habe in Zoom schon mehr Verzögerung gesehen
    • Ich denke, das ist die Zukunft von Callcentern; wenn der Avatar ausdrucksstärker wird, wird auch der CSAT höher sein
  • Technisch erstaunliche Arbeit, eine Reaktionszeit von unter 1 Sekunde ist sehr beeindruckend
    • Es ist beängstigend, dass man auf FaceTime mit einer falschen Person sprechen könnte
    • Ich frage mich, wie ihr über die gesellschaftlichen Auswirkungen denkt
    • Heute gibt es wegen des Mangels an menschlicher Verbindung eine Einsamkeitskrise
  • ChatGPT hat Probleme damit, Gesprächsunterbrechungen zu erkennen
    • Es fällt einem ständig ins Wort