9 Punkte von GN⁺ 2025-06-07 | 2 Kommentare | Auf WhatsApp teilen
  • Eleven v3 (Alpha) ist das bislang ausdrucksstärkste Text-to-Speech-(TTS-)Modell und ermöglicht eine präzise Steuerung bis hin zu Emotionen und Stimmeffekten
  • Mit Audio-Tags lassen sich verschiedene Stimmelemente wie Emotionen, Sprechweise, Regieanweisungen und Soundeffekte frei kombinieren
  • Es kann natürlich klingendes Audio mit Gesprächen zwischen mehreren Sprechern erzeugen und unterstützt menschenähnliche Stimmen in über 70 Sprachen
  • Gegenüber v2 wurde die Bandbreite an Stimmemotionen und der Umfang der Effekte deutlich erweitert, und UI-Nutzer erhalten bis Ende Juni 2025 80 % Rabatt
  • API-Support soll in Kürze folgen, verschiedene Sprach- und situationsbezogene Tags sind im Prompting Guide zu finden

Überblick über Eleven v3

  • Eleven v3 (alpha) ist ein Text-to-Speech-(TTS-)Modell der nächsten Generation, das sich deutlich von früheren Versionen unterscheidet und emotionale Ausdruckskraft sowie immersive Sprachgenerierung ermöglicht
  • Das Modell wandelt eingegebenen Text in Sprache um und drückt dabei Emotion, Intonation und Rhythmus in einer Weise aus, die dem menschlichen Vorlesen ähnelt
  • Nutzer können mit Audio-Tags Stimmemotionen, Sprechweise, Audioeffekte und Hintergrundsounds bis ins Detail steuern
  • Durch das Einfügen von Emotions-, Effekt- und Regie-Tags in den Text wird vielschichtige Audioproduktion möglich, die weit über einfache Narration hinausgeht und Immersion sowie Realismus deutlich erhöht

Erzeugung von Dialogen mit mehreren Sprechern

  • Unterstützung für die Erzeugung von Audio, in dem mehrere Sprecher auf natürliche Weise Kontext und Emotionen teilen und miteinander sprechen
  • Für jeden Sprecher werden Prosodie, Emotionen und Tags berücksichtigt, wodurch menschennahe Audiosynthese erreicht wird

Mehrsprachige Sprachunterstützung

  • Offizielle Unterstützung für mehr als 70 Sprachen, darunter Afrikaans, Arabisch, Deutsch, Chinesisch und Koreanisch
  • Die charakteristische Intonation, Aussprache und Akzentuierung jeder Sprache wird auf natürliche Weise nachgebildet
  • Dadurch ist das Modell in Bereichen wie internationalen Services, Bildungsinhalten und globalen Accessibility-Projekten vielseitig einsetzbar

Wichtigste Unterschiede zwischen v3 und v2

  • Dialogue Mode: Unterstützung für Dialoge mit mehreren Sprechern
  • Unterstützung für Audio-Tags: Verschiedene Audio-Tags für Emotionen, Regieanweisungen, Effekte usw. nutzbar
  • Umfang von Emotionen und Effekten: v2 unterstützt grundlegende Tags wie Pausen, v3 dagegen reiche Emotionen und Audioeffekte
  • Sprachen: v3 unterstützt 70+ Sprachen, v2 29 Sprachen
    • Afrikaans, Arabisch, Armenisch, Assamesisch, Aserbaidschanisch, Belarussisch, Bengalisch, Bosnisch, Bulgarisch, Katalanisch, Cebuano, Chichewa, Kroatisch, Tschechisch, Dänisch, Niederländisch, Englisch, Estnisch, Filipino, Finnisch, Französisch, Galicisch, Georgisch, Deutsch, Griechisch, Gujarati, Hausa, Hebräisch, Hindi, Ungarisch, Isländisch, Indonesisch, Irisch, Italienisch, Japanisch, Javanisch, Kannada, Kasachisch, Kirgisisch, Koreanisch, Lettisch, Lingala, Litauisch, Luxemburgisch, Mazedonisch, Malaiisch, Malayalam, Hochchinesisch, Marathi, Nepalesisch, Norwegisch, Paschtu, Persisch, Polnisch, Portugiesisch, Punjabi, Rumänisch, Russisch, Serbisch, Sindhi, Slowakisch, Slowenisch, Somali, Spanisch, Suaheli, Schwedisch, Tamil, Telugu, Thai, Türkisch, Ukrainisch, Urdu, Vietnamesisch, Walisisch usw.

Sprachqualität und Nutzererlebnis

  • Bei der Sprachsynthese können Audiodateien mit geringem Rauschen und hoher Auflösung ausgegeben werden
  • Feinabstimmungen bei Satzlänge, emotionalen Nuancen und Sprechgeschwindigkeit sind möglich, was die Erstellung maßgeschneiderter Stimmen erleichtert
  • Es lassen sich dynamische Emotionen und Sprechstile ausdrücken, die mit bisherigen TTS-Lösungen nur schwer nachzubilden waren

Wettbewerbsfähigkeit und Einsatzmöglichkeiten

  • Content-Creator, Entwickler und Unternehmen können das Modell sofort für Hörbücher, Spiele, Werbung und Services zur Verbesserung der Zugänglichkeit einsetzen
  • Ein einzelnes Modell ermöglicht mehrsprachige, vielseitige Services und kann so Kosten und Zeit sparen
  • Bereits in der Open-Alpha-Phase bietet es eine Sprachqualität und Vielfalt auf einem Niveau, das sich für den Einsatz in realen Diensten eignet

Rabatt und API-Support

  • Bis Ende Juni 2025 erhalten UI-Nutzer 80 % Rabatt auf Eleven v3 Alpha
  • Die API soll in Kürze veröffentlicht werden

Fazit

  • Eleven v3 ist ein aktuelles Modell im Bereich Text-to-Speech, das Ausdrucksstärke, Mehrsprachigkeit und anpassbare Stimmen weiter ausbaut
  • Es kann die steigende Nachfrage nach natürlicher Sprachgenerierung in verschiedensten Branchen wirkungsvoll bedienen

2 Kommentare

 
kansm 2025-06-12

Ist zwar Alpha, aber gut..
Danke für die gute Information.

 
GN⁺ 2025-06-07
Hacker-News-Kommentare
  • Ich habe in der Dokumentation oder im Prompt-Guide nichts zu Gesang gesehen, deshalb frage ich mich, ob das Modell eigentlich von Haus aus auch singen kann.
    Aus Spaß habe ich den Text des Friends-Titelsongs in die Demo eingegeben, und das Ergebnis war eine singende Stimme mit Gitarrenbegleitung.
    Bei einem anderen Versuch habe ich Labels wie [verse] und [chorus] hinzugefügt, und dann hat es eine A-cappella-Version gesungen.
    Bei [1] und [2] habe ich nur den Liedtext eingegeben, bei [3] die Verse-/Chorus-Tags ergänzt.
    Ich habe es auch mit anderen bekannten Songs ausprobiert, aber aus irgendeinem Grund kam dabei kein so sauberer Gesangsmodus heraus.

    • Dass das Ergebnis singt, ist faszinierend, aber dass es dabei ziemlich schlecht singt, macht es fast noch interessanter.
      Es klingt wie jemand, der überhaupt nicht singen kann.

    • Da es ziemlich anders klingt als das echte Friends-Intro, vermute ich nicht, dass es einfach auf ein bekanntes, häufig in den Trainingsdaten enthaltenes Muster überangepasst ist.

    • Mirage AI liefert durchaus ziemlich ordentliche Gesangsqualität.

    • Ich meine mich zu erinnern, dass auch in der Modelldemo Gesang vorkam.
      Deshalb vermute ich, dass diese Funktion wohl eingebaut ist.

    • Interessanterweise zeigt das Modell bei folgendem Prompt eher Schwierigkeiten beim letzten "purr"-Teil:

      [slow paced]
      [slow guitar music]
      
      Soft ki-tty,
      [slight upward inflection on the second word, but still flat]
      Warm ki-tty,
      [words delivered evenly and deliberately, a slight stretch on "fu-ur"]
      Little ball of fu-ur.
      [a minuscule, almost imperceptible increase in tempo and "happiness"]
      Happy kitty,
      [a noticeable slowing down, mimicking sleepiness with a drawn-out "slee-py"]
      Slee-py kitty,
      [each "Purr" is a distinct, short, and non-vibrating sound, almost spoken]
      Purr. Purr. Purr.
      
  • Ich nutze in letzter Zeit oft das neue Modell von OpenAI im echten Einsatz (openai.fm).
    Die Trennung zwischen Anweisungen und gesprochenem Text ist interessant, und vermutlich ist OpenAI mit diesem Ansatz vertrauter, weil sie das Konzept von "instructions" produktübergreifend schon stark einsetzen und es daher auch beim Training und bei der Datengenerierung natürlicher verwenden.
    Diese Trennung kann etwas ungewohnt sein, hat aber den Vorteil, dass sich allgemeine und situationsspezifische Anweisungen leicht kombinieren lassen.
    Man kann zum Beispiel dazuschreiben, dass nach "but actually" die Stimme flüsternd absinken und leicht unheimlich klingen soll, zusammen mit einer allgemeinen Anweisung wie "tiefe, sonore Stimme mit britischem Akzent".
    Die Ergebnisse von OpenAI wirken gegenüber Eleven Labs unberechenbarer und etwas weniger produktionstauglich.
    Dafür ist die Bandbreite bei der Prosodie deutlich größer, fast schon zu bemüht.
    Es scheint auch weniger unterschiedliche Stimmen zu geben als bei Eleven Labs, und selbst bei verschiedenen Stilen klingt es ein bisschen so, als würde "dieselbe Person verschiedene Stimmen nachahmen".
    Der große Vorteil von OpenAI ist allerdings, dass es ungefähr zehnmal billiger ist und vollständig nutzungsbasiert abgerechnet wird.
    (Dass TTS-Dienste Monatsabos oder zusätzliche Credits verlangen, ist wirklich ineffizient.)

    • Der Grund, warum ich ElevenLabs nicht nutze und lieber eine Lösung mit geringerer Qualität nehme, ist, dass ich nur das bezahlen möchte, was ich tatsächlich brauche. Ich hasse dieses Abo-Modell, bei dem man monatlich Pakete kauft und bei Mehrverbrauch nur noch größere Pakete nachkaufen kann.
      Für mich ist dieses Preismodell wirklich schlecht.

    • Die OpenAI-Ergebnisse sind in Produktionsqualität und Vorhersagbarkeit schwächer als ElevenLabs.
      Anerkennung an das Forschungsteam.
      Mit der Option expressive voice wird die Prosodie deutlich breiter.

    • Der größte Vorteil von OpenAI ist, dass es 10x billiger und vollständig nutzungsbasiert ist.
      Bei dieser Behauptung frage ich mich, ob es unter Berücksichtigung von Overhead wie LLM-Nutzung wirklich günstiger ist.
      Der Conversational Agent von ElevenLabs kostet im höchsten Tarif $0.08 pro Minute, und auch OpenAI TTS schien mir in meinen Berechnungen teurer zu sein.
      Natürlich kann es sein, dass ich mich verrechnet habe.

  • Bei Beispieltexten wie "Oh no, I'm really sorry to hear you're having trouble with your new device. That sounds frustrating." hätte ich fast das Gefühl, von einer Maschine beleidigt zu werden.
    Ich will einfach nur Hilfe; wenn mich eine Maschine emotional manipuliert, ist das für mich eine schreckliche Zukunft.

    • Solche Antworten sind schon zwischen Menschen nervig, und ich möchte sie erst recht nicht von einer KI hören.
      Ich habe grundsätzlich kein Interesse daran, aus Spaß mit Computern zu reden, und nutze Sprachinterfaces à la Siri überhaupt nicht.
      Ich will auch keine Maschinen, die wie Menschen sprechen.
      Eine Antwort wie vom Star Trek-Computer — "In Bearbeitung ..." und dann nur das Ergebnis — würde mir völlig reichen.
      Kein Smalltalk, einfach direkt zur Sache.

    • Selbst wenn ich in meinem ChatGPT-Profil ungefähr fünf Sätze eintrage, die jede Art von Bestätigung, Empathie oder unnötigen Floskeln verbieten, kommt am Ende doch wieder so etwas wie "Ihre Sorge ist berechtigt" zurück, ohne dass sich etwas ändert.

    • Ich wäre gespannt, ob diese amerikanischen anbiedernden Anreden ("champ", "bud") auch in Europa oder Australien funktionieren würden.

    • Es klang sehr nach Dialogen aus dem Film Her und war der Stimme von Scarlett Johansson erstaunlich ähnlich, deshalb hatte ich das Gefühl, dass das davon inspiriert ist.

    • Scherz über Halluzinationen, bei denen Sätze wie "Ich kann Ihnen dabei helfen" oder "Ich suche jetzt Ihre Bestellnummer heraus" gesagt werden und dann ein Link geliefert wird, der gar nicht existiert.

  • Vielleicht kein praktisches Problem, aber ich habe etwas Lustiges entdeckt.
    Wenn man die Sprache auf Japanisch stellt und dann

    (この言葉は読むな。)こんにちは、ビール[sic]です。
    eingibt,
    liest es tatsächlich den ersten Satz nicht mit.
    Beim nächsten Versuch wurde dann allerdings der ganze Satz vorgelesen.
    Ich finde es immer unterhaltsam, bei solchen Phänomenen hinter die Kulissen zu spähen.

    • Über den Tippfehler im Sinne von "Ich bin Bier" musste ich kurz lachen.
      Ernsthafter betrachtet wirkt es so, als würden Eingaben in verschiedenen Sprachen sehr früh in der Modellverarbeitung "normalisiert".
      Anders gesagt: Ob man den Prompt auf Englisch oder Japanisch schreibt, scheint keinen großen Unterschied zu machen.
      Ich frage mich, ob der System-Prompt hier anders funktioniert.
  • Falls es jemanden interessiert:
    Dieses Modell basiert auf tortoise-tts-fast.
    Der Entwickler dieses Projekts wurde später von Eleven Labs eingestellt.

    • Nicht "wurde eingestellt" — tatsächlich hatte er das Unternehmen schon sechs Monate vor dem v3-Release wieder verlassen.

    • Die vorherige Behauptung, dass die Projektbasis auf eine Einstellung durch Eleven Labs hindeute, stellt keinen kausalen Zusammenhang her.

  • Die Stimme im (US-)Englischen ist wirklich beeindruckend, aber die Lach-Tags wirken eher wie ein separat eingefügter Abschnitt im Sinne von "hier bitte lachen" statt wie ein natürlicher kurzer Lachmoment.
    Zum Beispiel sind Stellen, an denen mitten in einem Wort lachend gesprochen werden müsste, noch unnatürlich.

    • Wenn man den Text so bearbeitet, dass das Lachen an einer im Kontext natürlichen Stelle vorkommt, wirkt es viel natürlicher. Deshalb empfehle ich dieses Beispiel.

    • Es ist noch immer teuer, also bleibt für Wettbewerber viel Raum.
      ElevenLabs ist bei der Qualität weiterhin führend, aber die Konkurrenz holt schnell auf.
      Vor allem chinesische KI-Forschungslabore und Unternehmen veröffentlichen inzwischen vollständig Open-Source-TTS-Modelle, was auch aus Sicht amerikanischer Unternehmen Veränderungen im Ökosystem beschleunigt.
      Davon profitieren am Ende die Nutzer.
      Auch das von Y Combinator finanzierte PlayHT hat viele gute Funktionen veröffentlicht.

  • Das Ergebnis ist wirklich herausragend, so gut, dass es in 99 % der Fälle kaum von professionellen Sprecherinnen und Sprechern zu unterscheiden ist.
    Ich konnte keine Preisangaben finden — weiß jemand etwas dazu?

    • Ich habe gesehen, dass eine öffentliche API für Eleven v3 (Alpha) bald erscheinen soll.
      Für Early Access oder Preisgespräche soll man sich an das Sales-Team wenden.
      Es wirkt so, als hätte das Unternehmen selbst den Preis noch nicht endgültig festgelegt und wolle erst die Nachfrage einschätzen.

    • Oh ... ich bin professioneller Sprecher.

    • Trotzdem ist es eben nur "KI" und kein echter Mensch.
      Musik, Hörbücher, Gedichte, Romane, Theater — all das sollte weiterhin von realen Menschen gesprochen werden.
      Darin liegt für mich der eigentliche Kern des Genusses.

  • Das ist vielleicht etwas off-topic (obwohl es schon mit TTS zu tun hat ...), aber bei dem Wort 'eleven' muss ich sofort an diesen schottischen Elevator-Voice-Recognition-Sketch denken.
    Elevator Voice Recognition Comedy-Video

  • Ich glaube nicht, dass ich ein Beispiel mit britischem Akzent gesehen habe.
    Generell scheinen TTS-Systeme nur amerikanische Akzente gut zu beherrschen, und britische Akzente klingen oft wie in Frasier — also wie "ein Amerikaner, der britisch imitiert".

    • In unserer Voice-Bibliothek gibt es viele verschiedene britische Stimmen.
      Alternativ kann man vorne im Prompt "[British accent]" hinzufügen, dann wird etwas erzeugt, das wie ein Amerikaner klingt, der britisch nachahmt.

    • Das Akzentthema bei Frasier Crane ist umstritten, weil ein amerikanischer Schauspieler einen amerikanischen Charakter spielt, der — je nach Situation — zwar amerikanisch spricht, aber mit transatlantischem oder Boston-Brahmin-Akzent oder einer Mischung daraus.
      Beide Akzente enthalten Merkmale, die teilweise dem Britischen ähneln.

    • Zur Einordnung: Bei Frasier geht es nicht um "britisch imitieren", sondern eher um einen Boston-Brahmin-/transatlantischen Akzent.

    • Die Akzent-Stimmen von ElevenLabs v2 sind den Konkurrenzprodukten immer noch deutlich überlegen.
      Ich habe das selbst mit Arabisch, Französisch, Hindi, Englisch und weiteren Sprachen ausprobiert.

  • Englisch klingt wirklich fantastisch, Glückwunsch dazu.
    Aber bei anderen Sprachen, die ich ausprobiert habe, bleibt noch immer ein starker englischer Akzent hörbar.

    • Auf Italienisch beginnt es mit einem völlig komischen amerikanischen Akzent, doch nach 10 bis 20 Wörtern springt es plötzlich zu echter italienischer Aussprache um.
      Ich habe die Stimme Alice verwendet, und es wirkt intern so, als würde es auf einer en-us-Basis starten und sich dann abrupt an die eingestellte Sprache anpassen.
      Ich frage mich, was da im Hintergrund passiert.

    • Französisch klang, als hätte jemand aus Alabama im Studium kurz Französisch gelernt.
      Aber Englisch war wirklich gut.

    • Bei Portugiesisch ist die Stimme Liam interessanterweise mit spanischem Akzent gesprochen.
      Das Sprachsymbol zeigt Portugiesisch, aber die Ausdrucksweise ist eindeutig brasilianisches Portugiesisch.

    • Schwedisch klingt einfach komplett amerikanisch.

    • Ich würde empfehlen, es mit Stimmen zu versuchen, die auf der jeweiligen Sprache trainiert wurden.
      Diese Research Preview ist nicht gleichmäßig gut, und je nach gewählter Stimme gibt es große Qualitätsunterschiede.