3 Punkte von GN⁺ 14 일 전 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Googles neu veröffentlichtes Text-to-Speech-Modell bietet im Vergleich zu bisherigen Modellen mehr Natürlichkeit und Ausdrucksstärke und unterstützt Entwickler, Unternehmen und allgemeine Nutzer beim Aufbau von KI-Sprachanwendungen
  • Mit der neu eingeführten Funktion Audio Tags lassen sich Sprachstil, Sprechgeschwindigkeit und Vortragsweise fein steuern, indem Befehle in natürlicher Sprache direkt in den Text eingefügt werden
  • Im Artificial Analysis TTS Leaderboard erzielte es einen Elo-Wert von 1.211 und wurde als ideale Kombination aus hochwertiger Sprachgenerierung und niedrigen Kosten bewertet
  • Unterstützt mehr als 70 Sprachen und verfügt über eine native Multi-Speaker-Dialogfunktion
  • Auf alle erzeugten Audiodateien wird ein SynthID-Wasserzeichen angewendet, was eine verlässliche Erkennung KI-generierter Inhalte und die Verhinderung von Desinformation ermöglicht

Einführung und Verfügbarkeitskanäle

  • Gemini 3.1 Flash TTS ist das neueste Text-to-Speech-Modell und bietet verbesserte Steuerbarkeit, Ausdruckskraft und Qualität
  • Derzeit ist es als Preview über die folgenden Kanäle verfügbar:
    • Für Entwickler: Gemini API und Google AI Studio
    • Für Unternehmen: Vertex AI
    • Für Workspace-Nutzer: Google Vids

Verbesserte Sprachqualität und Steuerbarkeit

  • Die allgemeine Sprachqualität wurde verbessert, wodurch es bislang das natürlichste und ausdrucksstärkste Modell ist
  • Im Artificial Analysis TTS Leaderboard erreichte es auf Basis von Tausenden verblindeten menschlichen Präferenzbewertungen 1.211 Elo-Punkte
  • Artificial Analysis platzierte Gemini 3.1 Flash TTS als ideale Kombination aus hochwertiger Sprachgenerierung und niedrigen Kosten im „most attractive quadrant“
  • Es hebt sich durch native Multi-Speaker-Dialoge, Unterstützung für mehr als 70 Sprachen und fein abgestimmte kreative Steuerung auf Basis natürlicher Sprache ab

Mehr Ausdruckskraft durch Audio Tags

  • Mit der neuen Funktion Audio Tags lassen sich Sprachstil, Sprechgeschwindigkeit und Vortragsweise intuitiv steuern
  • Durch das direkte Einfügen natürlichsprachlicher Befehle in die Texteingabe kann die KI-Sprachausgabe detailliert angepasst werden
  • Unternehmen können Audio Tags innerhalb von Vertex AI nutzen, um Enterprise-Anwendungen der nächsten Generation zu entwickeln
  • In Google AI Studio stehen konfigurierbare Steuerelemente zur Verfügung, die Entwickler auf den „Regiestuhl“ setzen:
    • Scene direction: Definiert die Umgebung und setzt konkrete Dialoganweisungen, um Charakteren Worldbuilding-Kontext zu geben, damit sie über mehrere Gesprächsrunden hinweg natürlich reagieren
    • Speaker-level specificity: Besetzt Charaktere mit einem individuellen Audio Profile, steuert Tempo, Ton und Intonation über Director's Notes und ermöglicht durch Inline-Tags sogar Ausdruckswechsel mitten im Satz
    • Seamless export: Fertige Parameter lassen sich als Gemini API-Code exportieren, damit die Stimme über verschiedene Projekte und Plattformen hinweg konsistent bleibt
  • Damit können Entwickler einprägsame Charaktere und immersive Audioerlebnisse umsetzen

Unterstützung für globale Skalierung

  • Bietet hochauflösende Stimmen und präzise Steuerung in mehr als 70 Sprachen
  • Durch fortschrittliche Steuerung von Stil, Geschwindigkeit und Intonation für wichtige Märkte lassen sich lokalisierte Spracherlebnisse aufbauen
  • Frühe Tester aus Entwicklung und Unternehmen bewerteten die beeindruckende Steuerbarkeit und Ausdruckskraft von 3.1 Flash TTS sehr positiv
    • Feedback zufolge liefern Audio Tags ein neues Maß an kreativer Präzision und verwandeln einfachen Text in hochauflösende vokale Performances

SynthID-Wasserzeichen

  • Auf alle von Gemini 3.1 Flash TTS erzeugten Audiodateien wird ein SynthID-Wasserzeichen angewendet
  • Das nicht wahrnehmbare Wasserzeichen wird direkt in die Audioausgabe eingebettet und ermöglicht die verlässliche Erkennung KI-generierter Inhalte
  • Es dient als Sicherheitsmaßnahme zur Verhinderung von Desinformation, während die Model Card detaillierte Informationen zu Sicherheit und Verantwortung bereitstellt

Noch keine Kommentare.

Noch keine Kommentare.