Gemini 3.1 Flash TTS – KI-Sprachmodell der nächsten Generation zur Steuerung des Sprechstils in natürlicher Sprache
(blog.google)- Googles neu veröffentlichtes Text-to-Speech-Modell bietet im Vergleich zu bisherigen Modellen mehr Natürlichkeit und Ausdrucksstärke und unterstützt Entwickler, Unternehmen und allgemeine Nutzer beim Aufbau von KI-Sprachanwendungen
- Mit der neu eingeführten Funktion Audio Tags lassen sich Sprachstil, Sprechgeschwindigkeit und Vortragsweise fein steuern, indem Befehle in natürlicher Sprache direkt in den Text eingefügt werden
- Im Artificial Analysis TTS Leaderboard erzielte es einen Elo-Wert von 1.211 und wurde als ideale Kombination aus hochwertiger Sprachgenerierung und niedrigen Kosten bewertet
- Unterstützt mehr als 70 Sprachen und verfügt über eine native Multi-Speaker-Dialogfunktion
- Auf alle erzeugten Audiodateien wird ein SynthID-Wasserzeichen angewendet, was eine verlässliche Erkennung KI-generierter Inhalte und die Verhinderung von Desinformation ermöglicht
Einführung und Verfügbarkeitskanäle
- Gemini 3.1 Flash TTS ist das neueste Text-to-Speech-Modell und bietet verbesserte Steuerbarkeit, Ausdruckskraft und Qualität
- Derzeit ist es als Preview über die folgenden Kanäle verfügbar:
- Für Entwickler: Gemini API und Google AI Studio
- Für Unternehmen: Vertex AI
- Für Workspace-Nutzer: Google Vids
Verbesserte Sprachqualität und Steuerbarkeit
- Die allgemeine Sprachqualität wurde verbessert, wodurch es bislang das natürlichste und ausdrucksstärkste Modell ist
- Im Artificial Analysis TTS Leaderboard erreichte es auf Basis von Tausenden verblindeten menschlichen Präferenzbewertungen 1.211 Elo-Punkte
- Artificial Analysis platzierte Gemini 3.1 Flash TTS als ideale Kombination aus hochwertiger Sprachgenerierung und niedrigen Kosten im „most attractive quadrant“
- Es hebt sich durch native Multi-Speaker-Dialoge, Unterstützung für mehr als 70 Sprachen und fein abgestimmte kreative Steuerung auf Basis natürlicher Sprache ab
Mehr Ausdruckskraft durch Audio Tags
- Mit der neuen Funktion Audio Tags lassen sich Sprachstil, Sprechgeschwindigkeit und Vortragsweise intuitiv steuern
- Durch das direkte Einfügen natürlichsprachlicher Befehle in die Texteingabe kann die KI-Sprachausgabe detailliert angepasst werden
- Unternehmen können Audio Tags innerhalb von Vertex AI nutzen, um Enterprise-Anwendungen der nächsten Generation zu entwickeln
- In Google AI Studio stehen konfigurierbare Steuerelemente zur Verfügung, die Entwickler auf den „Regiestuhl“ setzen:
- Scene direction: Definiert die Umgebung und setzt konkrete Dialoganweisungen, um Charakteren Worldbuilding-Kontext zu geben, damit sie über mehrere Gesprächsrunden hinweg natürlich reagieren
- Speaker-level specificity: Besetzt Charaktere mit einem individuellen Audio Profile, steuert Tempo, Ton und Intonation über Director's Notes und ermöglicht durch Inline-Tags sogar Ausdruckswechsel mitten im Satz
- Seamless export: Fertige Parameter lassen sich als Gemini API-Code exportieren, damit die Stimme über verschiedene Projekte und Plattformen hinweg konsistent bleibt
- Damit können Entwickler einprägsame Charaktere und immersive Audioerlebnisse umsetzen
Unterstützung für globale Skalierung
- Bietet hochauflösende Stimmen und präzise Steuerung in mehr als 70 Sprachen
- Durch fortschrittliche Steuerung von Stil, Geschwindigkeit und Intonation für wichtige Märkte lassen sich lokalisierte Spracherlebnisse aufbauen
- Frühe Tester aus Entwicklung und Unternehmen bewerteten die beeindruckende Steuerbarkeit und Ausdruckskraft von 3.1 Flash TTS sehr positiv
- Feedback zufolge liefern Audio Tags ein neues Maß an kreativer Präzision und verwandeln einfachen Text in hochauflösende vokale Performances
SynthID-Wasserzeichen
- Auf alle von Gemini 3.1 Flash TTS erzeugten Audiodateien wird ein SynthID-Wasserzeichen angewendet
- Das nicht wahrnehmbare Wasserzeichen wird direkt in die Audioausgabe eingebettet und ermöglicht die verlässliche Erkennung KI-generierter Inhalte
- Es dient als Sicherheitsmaßnahme zur Verhinderung von Desinformation, während die Model Card detaillierte Informationen zu Sicherheit und Verantwortung bereitstellt
Noch keine Kommentare.