11 Punkte von xguru 2024-01-31 | 3 Kommentare | Auf WhatsApp teilen
  • Bietet auf Basis der Funktionen von WhisperLive und WhisperSpeech in Verbindung mit dem Mistral-LLM eine reibungslose Unterhaltung mit AI
    • WhisperLive: Implementiert OpenAIs Whisper so, dass es nahezu in Echtzeit arbeitet, um Sprache in Text umzuwandeln
    • WhisperSpeech: Ein TTS-System, das durch Umkehrung von Whisper aufgebaut wurde
  • Sowohl LLM als auch Whisper sind für eine effiziente Ausführung als TensorRT-Engines optimiert, um Leistung und Echtzeitverarbeitung zu maximieren, und WhisperSpeech ist mit torch.compile optimiert

3 Kommentare

 
kleinstein 2024-02-02

Echtzeitübersetzung wäre schnell und großartig.

 
xguru 2024-01-31

Hacker-News-Kommentare

  • Zwei Funktionen sind nötig, damit ein dialogorientiertes Szenario gut funktioniert:
    • Unterbrechungsfunktion: Wenn der Nutzer „Moment mal“ sagt, muss das LLM pausieren können.
    • Auf bestimmte Signale reagieren: Es sollte auf bestimmte Signale wie „Was denkst du?“ warten und dann reagieren.
    • Zusätzlich zu diesen beiden Funktionen ist eine niedrige Latenz wichtig, sodass es sich anfühlt, als würde man mit einer anderen Person sprechen.
  • Es wird Interesse an Projekten wie WhisperFusion, WhisperLive und WhisperSpeech geäußert, und nach den Latenzzeiten der einzelnen Systeme sowie den WER-Werten (Word Error Rate) von WhisperLive gefragt. Es wird angemerkt, dass zu diesen Modellen wichtige Informationen zu fehlen scheinen.
  • Das Projekt wird als großartig bezeichnet, zugleich aber darauf hingewiesen, dass es hauptsächlich ein Packaging-Problem sei:
    • Es wird kritisiert, dass viele Python-Anwendungen die Hälfte von setuptools auf langsame und fehleranfällige Weise nachbauen.
    • Es wird infrage gestellt, warum TensorRT Kernfunktionen im Verzeichnis „examples“ ausliefert.
    • Zu huggingface_cli wird angemerkt, dass es bereits Wege gibt, anhand eines Namens etwas herunterzuladen, etwa über den PyPI-Index, und dass es besser sein könnte, dies auch auf Modelle anzuwenden.
  • Es wird an eine Diskussion über das Vocode-Projekt erinnert: Vor 10 Monaten habe es dazu bereits eine Debatte gegeben, und nach dem Ausprobieren der Demo sei man beeindruckt gewesen. Es wird gefragt, ob es inzwischen jemand in Entwicklung oder Produktion einsetzt.
  • Ein Nutzer stellt sich vor, diese Technologie in eine dedizierte App zu übertragen, die Inhalte und Text auf dem Bildschirm erkennt und nahezu in Echtzeit Unterstützung geben kann.
  • Es wird gefragt, wie sich Whisper gut für Streaming-Transkription einsetzen lässt, und ein Projekt mit ähnlichen Zielen wird vorgestellt.
  • Es wird um eine Zusammenfassung gebeten, worin sich der LLM-Teil von einem TGWUI+llama.cpp-Setup unterscheidet oder ihm ähnelt. Insbesondere wird hinterfragt, warum „ultraniedrige Latenz“ auf der Hardware des Nutzers nicht erreichbar sei.
  • Ein Nutzer fragt, ob das Projekt vollständig lokal läuft oder ob API-Zugriff auf die Remote-Systeme von OpenAI erforderlich ist. Der Nutzer baut TTS und STT zwar mit OpenAI auf, möchte aber nicht ständig Audio-Streams an OpenAI senden, nur um auf einen einzelnen Befehl zu warten.
  • Es wird die Ansicht geäußert, das sei das, was Siri und Alexa hätten sein sollen, und dass in den kommenden Jahren mehr solcher Technologien auftauchen werden. Wenn sie lokal laufen und keine dauerhaften Aufzeichnungen hinterlassen, würde das auch das Problem des Mithörens im Hintergrund lösen.
  • Es wird erwähnt, dass TensorRT verwendet wird, und gefragt, welche GPUs unterstützt werden und ob es auf Jetson laufen kann.