Play 3.0 Mini vorgestellt – leichtgewichtiges, kosteneffizientes mehrsprachiges Text-to-Speech-Model

Das bislang leistungsfähigste und dialogfähigste Sprachmodell, das mit branchenführender Geschwindigkeit und Genauigkeit in über 30 Sprachen mit jeder Stimme und jedem Akzent sprechen kann
- Außerdem wurden über 50 neue dialogfähige KI-Stimmen für mehrere Sprachen veröffentlicht
Beim Aufbau von Echtzeit-Anwendungen mit TTS sind Latenz, Zuverlässigkeit, Audioqualität und die Natürlichkeit der Stimme entscheidend

Play 3.0 mini ist bislang das schnellste dialogfähige Sprachmodell

3.0 mini erreicht eine durchschnittliche Latenz von 189 Millisekunden bei der TTFB und ist damit das schnellste KI-Text-to-Speech-Modell
Es unterstützt Streaming von Texteingaben aus LLMs und Streaming der Audioausgabe und kann über HTTP REST API, WebSocket-API oder SDK genutzt werden
3.0 mini ist außerdem effizienter als Play 2.0 und bei der Inferenz 28 % schneller

Play 3.0 mini unterstützt nun standardmäßig über 30 Sprachen mit mehreren männlichen und weiblichen Stimmoptionen
Englische, japanische, hindi-, arabische, spanische, italienische, deutsche, französische und portugiesische Stimmen können nun für Produktionsanwendungsfälle genutzt werden und sind über API und Playground verfügbar
Außerdem können Afrikaans, Bulgarisch, Kroatisch, Tschechisch, Hebräisch, Ungarisch, Indonesisch, Malaiisch, Mandarin, Polnisch, Serbisch, Schwedisch, Tagalog, Thai, Türkisch, Ukrainisch, Urdu und Xhosa getestet werden

Das Ziel von Play 3.0 mini war es, das beste TTS-Modell für dialogfähige KI zu entwickeln
Um das zu erreichen, musste das Modell konkurrierende Modelle sowohl bei Latenz als auch Genauigkeit übertreffen und dabei Sprache mit dem dialogfähigsten Ton erzeugen
LLMs halluzinieren, und Sprach-LLMs sind keine Ausnahme. Halluzinationen bei Sprach-LLMs können sich als zusätzliche oder fehlende Wörter oder Zahlen im ausgegebenen Audio äußern, die nicht Teil des Eingabetexts sind

Das Modell wurde so trainiert, dass es Zahlen und Initialen wie ein Mensch vorliest
Es passt das Tempo an und verlangsamt alle alphabetischen und numerischen Zeichen
So werden zum Beispiel Telefonnummern in natürlicherem Tempo vorgelesen, ebenso alle Initialen und Abkürzungen
Dadurch wird das gesamte Dialogerlebnis natürlicher

Beim Klonen von Stimmen reicht ein nur ähnlicher Klang oft nicht aus
Das Voice Cloning von Play 3.0 erreicht beim Klonen von Stimmen State-of-the-Art-Leistung und reproduziert Betonung, Tonfall und Akzent der geklonten Stimme präzise
Beim Benchmarking mit beliebten Open-Source-Embedding-Modellen übertrifft es konkurrierende Modelle in der Ähnlichkeit zur Originalstimme deutlich
Probieren Sie es selbst aus, indem Sie auf play.ai Ihre eigene Stimme klonen und mit sich selbst sprechen

Die API von 3.0 mini unterstützt nun WebSockets, wodurch sich der Overhead für das Öffnen und Schließen von HTTP-Verbindungen stark reduziert und das Streaming von Texteingaben aus LLMs oder anderen Quellen einfacher ermöglicht wird

Wir freuen uns, Preissenkungen für Startups und Growth-Tiers mit höherem Volumen bekanntzugeben, und führen nun zusätzlich einen neuen Pro-Tier für 49 US-Dollar pro Monat für Unternehmen mit moderaterem Bedarf ein
Hier können Sie die neue Preistabelle ansehen
Wir sind gespannt, was Sie mit uns entwickeln werden! Wenn Sie individuelle Anforderungen mit großem Volumen haben, wenden Sie sich bitte an das Vertriebsteam

Die Bemühungen von Play.ht, das verlässlichste Sprachmodell für dialogfähige KI zu entwickeln, sind beeindruckend. Da es die Konkurrenz bei Latenz und Genauigkeit übertrifft und die natürlichste dialogfähige Sprache erzeugt, scheint dieses Modell die Branche anzuführen
Die Unterstützung von über 30 Sprachen und vielfältigen Stimmoptionen ist ein wichtiger Schritt, um mehr Nutzer und Anwendungsfälle zu erreichen. Das dürfte die breite Einführung von Voice AI fördern
Bei der Einführung dieser Technologie müssen jedoch ethische Aspekte berücksichtigt werden. So kann etwa das Klonen der Stimme einer Person ohne deren Zustimmung Datenschutzprobleme verursachen. Außerdem besteht die Möglichkeit, dass diese Technologie zur Verbreitung von Desinformation missbraucht wird
Weitere bemerkenswerte Voice-AI-Projekte mit ähnlichen Funktionen sind Googles Tacotron und DeepMinds WaveNet. Auch diese Modelle konzentrieren sich auf mehrsprachige Unterstützung und natürlich erzeugte Sprache
Insgesamt setzt Play 3.0 mini einen neuen Maßstab für Sprachtechnologie in dialogfähiger KI. Entwickler können damit schnelles, präzises und natürliches TTS für verschiedenste Echtzeit-Anwendungen nutzen. Um potenziellen Missbrauch dieser Technologie zu verhindern, müssen jedoch starke Schutzmechanismen und ethische Richtlinien vorhanden sein