23 Punkte von GN⁺ 2024-11-03 | 4 Kommentare | Auf WhatsApp teilen
  • Das bislang leistungsfähigste und dialogfähigste Sprachmodell, das mit branchenführender Geschwindigkeit und Genauigkeit in über 30 Sprachen mit jeder Stimme und jedem Akzent sprechen kann
    • Außerdem wurden über 50 neue dialogfähige KI-Stimmen für mehrere Sprachen veröffentlicht
  • Beim Aufbau von Echtzeit-Anwendungen mit TTS sind Latenz, Zuverlässigkeit, Audioqualität und die Natürlichkeit der Stimme entscheidend

Play 3.0 mini ist bislang das schnellste dialogfähige Sprachmodell

  • 3.0 mini erreicht eine durchschnittliche Latenz von 189 Millisekunden bei der TTFB und ist damit das schnellste KI-Text-to-Speech-Modell
  • Es unterstützt Streaming von Texteingaben aus LLMs und Streaming der Audioausgabe und kann über HTTP REST API, WebSocket-API oder SDK genutzt werden
  • 3.0 mini ist außerdem effizienter als Play 2.0 und bei der Inferenz 28 % schneller

Play 3.0 mini unterstützt jede Stimme in über 30 Sprachen

  • Play 3.0 mini unterstützt nun standardmäßig über 30 Sprachen mit mehreren männlichen und weiblichen Stimmoptionen
  • Englische, japanische, hindi-, arabische, spanische, italienische, deutsche, französische und portugiesische Stimmen können nun für Produktionsanwendungsfälle genutzt werden und sind über API und Playground verfügbar
  • Außerdem können Afrikaans, Bulgarisch, Kroatisch, Tschechisch, Hebräisch, Ungarisch, Indonesisch, Malaiisch, Mandarin, Polnisch, Serbisch, Schwedisch, Tagalog, Thai, Türkisch, Ukrainisch, Urdu und Xhosa getestet werden

Play 3.0 mini ist genauer

  • Das Ziel von Play 3.0 mini war es, das beste TTS-Modell für dialogfähige KI zu entwickeln
  • Um das zu erreichen, musste das Modell konkurrierende Modelle sowohl bei Latenz als auch Genauigkeit übertreffen und dabei Sprache mit dem dialogfähigsten Ton erzeugen
  • LLMs halluzinieren, und Sprach-LLMs sind keine Ausnahme. Halluzinationen bei Sprach-LLMs können sich als zusätzliche oder fehlende Wörter oder Zahlen im ausgegebenen Audio äußern, die nicht Teil des Eingabetexts sind

Play 3.0 mini liest Kombinationen aus Buchstaben und Zahlen natürlicher

  • Das Modell wurde so trainiert, dass es Zahlen und Initialen wie ein Mensch vorliest
  • Es passt das Tempo an und verlangsamt alle alphabetischen und numerischen Zeichen
  • So werden zum Beispiel Telefonnummern in natürlicherem Tempo vorgelesen, ebenso alle Initialen und Abkürzungen
  • Dadurch wird das gesamte Dialogerlebnis natürlicher

Play 3.0 mini erreicht die beste Stimmähnlichkeit für Voice Cloning

  • Beim Klonen von Stimmen reicht ein nur ähnlicher Klang oft nicht aus
  • Das Voice Cloning von Play 3.0 erreicht beim Klonen von Stimmen State-of-the-Art-Leistung und reproduziert Betonung, Tonfall und Akzent der geklonten Stimme präzise
  • Beim Benchmarking mit beliebten Open-Source-Embedding-Modellen übertrifft es konkurrierende Modelle in der Ähnlichkeit zur Originalstimme deutlich
  • Probieren Sie es selbst aus, indem Sie auf play.ai Ihre eigene Stimme klonen und mit sich selbst sprechen

Unterstützung für die WebSocket-API

  • Die API von 3.0 mini unterstützt nun WebSockets, wodurch sich der Overhead für das Öffnen und Schließen von HTTP-Verbindungen stark reduziert und das Streaming von Texteingaben aus LLMs oder anderen Quellen einfacher ermöglicht wird

Play 3.0 mini ist ein kosteneffizientes Modell

  • Wir freuen uns, Preissenkungen für Startups und Growth-Tiers mit höherem Volumen bekanntzugeben, und führen nun zusätzlich einen neuen Pro-Tier für 49 US-Dollar pro Monat für Unternehmen mit moderaterem Bedarf ein
  • Hier können Sie die neue Preistabelle ansehen
  • Wir sind gespannt, was Sie mit uns entwickeln werden! Wenn Sie individuelle Anforderungen mit großem Volumen haben, wenden Sie sich bitte an das Vertriebsteam

Meinung von GN+

  • Die Bemühungen von Play.ht, das verlässlichste Sprachmodell für dialogfähige KI zu entwickeln, sind beeindruckend. Da es die Konkurrenz bei Latenz und Genauigkeit übertrifft und die natürlichste dialogfähige Sprache erzeugt, scheint dieses Modell die Branche anzuführen
  • Die Unterstützung von über 30 Sprachen und vielfältigen Stimmoptionen ist ein wichtiger Schritt, um mehr Nutzer und Anwendungsfälle zu erreichen. Das dürfte die breite Einführung von Voice AI fördern
  • Bei der Einführung dieser Technologie müssen jedoch ethische Aspekte berücksichtigt werden. So kann etwa das Klonen der Stimme einer Person ohne deren Zustimmung Datenschutzprobleme verursachen. Außerdem besteht die Möglichkeit, dass diese Technologie zur Verbreitung von Desinformation missbraucht wird
  • Weitere bemerkenswerte Voice-AI-Projekte mit ähnlichen Funktionen sind Googles Tacotron und DeepMinds WaveNet. Auch diese Modelle konzentrieren sich auf mehrsprachige Unterstützung und natürlich erzeugte Sprache
  • Insgesamt setzt Play 3.0 mini einen neuen Maßstab für Sprachtechnologie in dialogfähiger KI. Entwickler können damit schnelles, präzises und natürliches TTS für verschiedenste Echtzeit-Anwendungen nutzen. Um potenziellen Missbrauch dieser Technologie zu verhindern, müssen jedoch starke Schutzmechanismen und ethische Richtlinien vorhanden sein

4 Kommentare

 
dane1 2024-11-04

Aber als ich Playground anschaute, war Koreanisch schon wieder dabei?

 
dane1 2024-11-04

Was, so viele unterstützte Sprachen, und dann gibt es kein Koreanisch, hmpf

 
hmmhmmhm 2024-11-03

Schade, offenbar wird Koreanisch noch nicht unterstützt. :(

 
GN⁺ 2024-11-03

Hacker-News-Kommentare

  • Ein kürzlich veröffentlichtes Open-Source-TTS-Modell bietet hervorragendes Voice Cloning. Es kann auf einer NVIDIA-GPU mit 10 GB VRAM laufen.
  • Der Live-Test funktionierte in Firefox nicht, lief aber nach dem Wechsel zu Chrome schnell. Innerhalb von 30 Sekunden konnte man die eigene Stimme klonen und ein Gespräch führen. Es ist ausgefeilt genug, um die meisten Menschen zu täuschen.
  • Dieses Modell kostet mehr als die TTS-APIs von Cartesia und OpenAI. TTS-APIs werden im Allgemeinen mit höheren Margen betrieben als LLMs.
  • Für andere Sprachen als Englisch ist die Transkriptionsfunktion nicht nützlich. Wenn die Transkription korrekt ist, sind Übersetzung und Sprachantwort sehr schnell, aber wenn die Transkription schlecht ist, ist sie nutzlos.
  • Im Sommer wurden API-Clients für Go und Rust geschrieben. Damals wurde Play bei der Arbeit verwendet, aber es gab nur Python- und Node-SDKs.
  • Ein Gespräch mit geringer Latenz mit einer Stimme, die der eigenen ähnelt, kann etwas Unbehagen auslösen. Es ist jedoch eine sehr anregende Erfahrung.
  • Die geklonte Stimme klang sehr ähnlich, aber in einem Blindtest erkannten alle fünf Personen sie nicht als die eigene Stimme. Das wirft die Frage auf, ob es einen Bias gibt, wenn man die eigene Stimme hört.
  • Das Modell von OpenAI ist bei der Aussprache von Zahlen nicht besonders gut. Es ist schockierend, dass 2024 ein TTS-Modell veröffentlicht wurde, das Zahlen nicht richtig aussprechen kann. Ein neues TTS-Modell sollte nach dieser Ansicht zumindest Zahlen bis 100.000 validieren.