- Das bislang leistungsfähigste und dialogfähigste Sprachmodell, das mit branchenführender Geschwindigkeit und Genauigkeit in über 30 Sprachen mit jeder Stimme und jedem Akzent sprechen kann
- Außerdem wurden über 50 neue dialogfähige KI-Stimmen für mehrere Sprachen veröffentlicht
- Beim Aufbau von Echtzeit-Anwendungen mit TTS sind Latenz, Zuverlässigkeit, Audioqualität und die Natürlichkeit der Stimme entscheidend
Play 3.0 mini ist bislang das schnellste dialogfähige Sprachmodell
- 3.0 mini erreicht eine durchschnittliche Latenz von 189 Millisekunden bei der TTFB und ist damit das schnellste KI-Text-to-Speech-Modell
- Es unterstützt Streaming von Texteingaben aus LLMs und Streaming der Audioausgabe und kann über HTTP REST API, WebSocket-API oder SDK genutzt werden
- 3.0 mini ist außerdem effizienter als Play 2.0 und bei der Inferenz 28 % schneller
Play 3.0 mini unterstützt jede Stimme in über 30 Sprachen
- Play 3.0 mini unterstützt nun standardmäßig über 30 Sprachen mit mehreren männlichen und weiblichen Stimmoptionen
- Englische, japanische, hindi-, arabische, spanische, italienische, deutsche, französische und portugiesische Stimmen können nun für Produktionsanwendungsfälle genutzt werden und sind über API und Playground verfügbar
- Außerdem können Afrikaans, Bulgarisch, Kroatisch, Tschechisch, Hebräisch, Ungarisch, Indonesisch, Malaiisch, Mandarin, Polnisch, Serbisch, Schwedisch, Tagalog, Thai, Türkisch, Ukrainisch, Urdu und Xhosa getestet werden
Play 3.0 mini ist genauer
- Das Ziel von Play 3.0 mini war es, das beste TTS-Modell für dialogfähige KI zu entwickeln
- Um das zu erreichen, musste das Modell konkurrierende Modelle sowohl bei Latenz als auch Genauigkeit übertreffen und dabei Sprache mit dem dialogfähigsten Ton erzeugen
- LLMs halluzinieren, und Sprach-LLMs sind keine Ausnahme. Halluzinationen bei Sprach-LLMs können sich als zusätzliche oder fehlende Wörter oder Zahlen im ausgegebenen Audio äußern, die nicht Teil des Eingabetexts sind
Play 3.0 mini liest Kombinationen aus Buchstaben und Zahlen natürlicher
- Das Modell wurde so trainiert, dass es Zahlen und Initialen wie ein Mensch vorliest
- Es passt das Tempo an und verlangsamt alle alphabetischen und numerischen Zeichen
- So werden zum Beispiel Telefonnummern in natürlicherem Tempo vorgelesen, ebenso alle Initialen und Abkürzungen
- Dadurch wird das gesamte Dialogerlebnis natürlicher
Play 3.0 mini erreicht die beste Stimmähnlichkeit für Voice Cloning
- Beim Klonen von Stimmen reicht ein nur ähnlicher Klang oft nicht aus
- Das Voice Cloning von Play 3.0 erreicht beim Klonen von Stimmen State-of-the-Art-Leistung und reproduziert Betonung, Tonfall und Akzent der geklonten Stimme präzise
- Beim Benchmarking mit beliebten Open-Source-Embedding-Modellen übertrifft es konkurrierende Modelle in der Ähnlichkeit zur Originalstimme deutlich
- Probieren Sie es selbst aus, indem Sie auf play.ai Ihre eigene Stimme klonen und mit sich selbst sprechen
Unterstützung für die WebSocket-API
- Die API von 3.0 mini unterstützt nun WebSockets, wodurch sich der Overhead für das Öffnen und Schließen von HTTP-Verbindungen stark reduziert und das Streaming von Texteingaben aus LLMs oder anderen Quellen einfacher ermöglicht wird
Play 3.0 mini ist ein kosteneffizientes Modell
- Wir freuen uns, Preissenkungen für Startups und Growth-Tiers mit höherem Volumen bekanntzugeben, und führen nun zusätzlich einen neuen Pro-Tier für 49 US-Dollar pro Monat für Unternehmen mit moderaterem Bedarf ein
- Hier können Sie die neue Preistabelle ansehen
- Wir sind gespannt, was Sie mit uns entwickeln werden! Wenn Sie individuelle Anforderungen mit großem Volumen haben, wenden Sie sich bitte an das Vertriebsteam
Meinung von GN+
- Die Bemühungen von Play.ht, das verlässlichste Sprachmodell für dialogfähige KI zu entwickeln, sind beeindruckend. Da es die Konkurrenz bei Latenz und Genauigkeit übertrifft und die natürlichste dialogfähige Sprache erzeugt, scheint dieses Modell die Branche anzuführen
- Die Unterstützung von über 30 Sprachen und vielfältigen Stimmoptionen ist ein wichtiger Schritt, um mehr Nutzer und Anwendungsfälle zu erreichen. Das dürfte die breite Einführung von Voice AI fördern
- Bei der Einführung dieser Technologie müssen jedoch ethische Aspekte berücksichtigt werden. So kann etwa das Klonen der Stimme einer Person ohne deren Zustimmung Datenschutzprobleme verursachen. Außerdem besteht die Möglichkeit, dass diese Technologie zur Verbreitung von Desinformation missbraucht wird
- Weitere bemerkenswerte Voice-AI-Projekte mit ähnlichen Funktionen sind Googles Tacotron und DeepMinds WaveNet. Auch diese Modelle konzentrieren sich auf mehrsprachige Unterstützung und natürlich erzeugte Sprache
- Insgesamt setzt Play 3.0 mini einen neuen Maßstab für Sprachtechnologie in dialogfähiger KI. Entwickler können damit schnelles, präzises und natürliches TTS für verschiedenste Echtzeit-Anwendungen nutzen. Um potenziellen Missbrauch dieser Technologie zu verhindern, müssen jedoch starke Schutzmechanismen und ethische Richtlinien vorhanden sein
4 Kommentare
Aber als ich Playground anschaute, war Koreanisch schon wieder dabei?
Was, so viele unterstützte Sprachen, und dann gibt es kein Koreanisch, hmpf
Schade, offenbar wird Koreanisch noch nicht unterstützt. :(
Hacker-News-Kommentare