13 Punkte von GN⁺ 2025-03-21 | 2 Kommentare | Auf WhatsApp teilen
  • Interaktive Demo, mit der Entwickler die neuen Text-zu-Sprache-Modelle der OpenAI API ausprobieren können
  • Per Prompt lassen sich Stimmeffekte, Ton, Sprechgeschwindigkeit, Emotionen, Aussprache, Pausen usw. detailliert festlegen

Demo

  • Stimmauswahl: 11 Varianten wie Alloy, Ash, Ballad, Coral und Echo
  • Auswahl verschiedener Vibes: Sincere, Friendly, Noir Detective, Robot, Auctioneer usw.
  • Beispiel: Sincere
    Voice Affect: Calm, composed, and reassuring. Competent and in control, instilling trust.  
    Tone: Sincere, empathetic, with genuine concern for the customer and understanding of the situation.  
    Pacing: Slower during the apology to allow for clarity and processing. Faster when offering solutions to signal action and resolution.  
    Emotions: Calm reassurance, empathy, and gratitude.  
    Pronunciation: Clear, precise: Ensures clarity, especially with key details. Focus on key words like "refund" and "patience."   
    Pauses: Before and after the apology to give space for processing the apology.  
    
  • Beispiel: Medieval Knight
    Stimmeffekt: Tief, befehlend und leicht dramatisch; spiegelt die Erhabenheit altenglischer Erzählungen wider  
    Ton: Edel, heroisch und formell; fängt die Essenz mittelalterlicher Ritter und epischer Abenteuer ein  
    Emotionen: Eine Mischung aus Aufregung, Erwartung, Geheimnis sowie dem Ernst von Schicksal und Pflicht  
    Aussprache: Klar und bedächtig, mit leicht formellem Rhythmus; Wörter wie "hast", "thou" und "doth" werden langsam betont, um altenglische Aussprachemuster widerzuspiegeln  
    Pausen: Nach altenglischen Wendungen wie "Lo!" und "Hark!" sowie zwischen Satzteilen wie "Choose thy path", um die Bedeutung der Entscheidung zu betonen und dem Zuhörer Raum zu geben, über den Ernst der Quest nachzudenken  
    

2 Kommentare

 
GN⁺ 2025-03-21
Hacker-News-Kommentar
  • Diese Modelle sind deutlich günstiger als ElevenLabs

    • Das Modell gpt-4o-mini-tts kostet beispielsweise 0,015 $ pro Audiominute und ist damit 85 % günstiger als ElevenLabs
    • Der "Business"-Plan von ElevenLabs bietet 11.000 Minuten TTS für 1100 $ pro Monat, also 10 Cent pro Minute
    • OpenAI könnte 11.000 Minuten TTS für 165 $ bereitstellen
    • Bitte prüfen, ob die Rechnung stimmt
  • Jeff von OpenAI weist darauf hin, dass neue Audiomodelle veröffentlicht wurden

    • Zwei Spracherkennungsmodelle und ein neues TTS-Modell wurden veröffentlicht
    • Unterstützung im Agents SDK, damit sich Text-Agenten leicht in Sprach-Agenten umwandeln lassen
    • Er bittet darum, Fragen zu stellen
  • Es werden Zuverlässigkeitsprobleme bei Text-zu-Sprache- und Sprache-zu-Text-Modellen erwähnt

    • Es ist unklar, wie problematisch das für Anwendungen in der realen Welt sein wird
    • Ein Link zu dazugehörigen Notizen wird bereitgestellt
  • Es wird gefragt, wie man zusammen mit dem generierten Audio "speech marks" erhalten kann

    • Erklärung der bei AWS Polly TTS verwendeten "speech marks"
    • Nützlich für Textbetonung und Lippensynchronisation
  • Die jüngsten Fortschritte bei großen Text-zu-Sprache- und Sprache-zu-Text-Modellen

    • Der Bedarf an Offline- und mehrsprachigen Text-zu-Sprache-Lösungen wird erwähnt
    • Es wird angenommen, dass Tortoise TTS Wörter häufig verfälscht
    • Das Acapela SDK sei die einzige Plugin-Lösung für Desktop-Apps
    • Hoffnung, dass neue neuronale Modelle auf gewöhnlichen Computern effizient laufen
  • Im Feld "vibe" lassen sich je nach eingegebenem Text verschiedene Betonungen und Persönlichkeiten umsetzen

    • Das Niveau an intelligenter Prosodie und Intonation ist erstaunlich
    • Die Entwicklung ist so weit, dass man für Hörbuchaufnahmen praktisch nur noch Prominente braucht
    • Es werden verschiedene unterhaltsame Sprachbeispiele genannt
  • Reaktion bei Eingabe der Navy-Seal-Copypasta

    • Die Sicherheitskontrollen funktionieren je nach "vibe"-Anweisung unterschiedlich
    • Ein New Yorker Taxifahrer funktioniert problemlos und ist unterhaltsam
  • Die Stimme des neuen Modells habe ein feines Zittern und wirke deshalb schlechter als Siri

  • Das offizielle Tool von OpenAI ist mit der Ankündigung des neuen Modells verknüpft

  • Wichtige Zitate aus der offiziellen Ankündigung

    • Entwickler können dem Modell nicht nur sagen, was es sagen soll, sondern auch, wie es das sagen soll
    • "vibes" sind die Anweisungen in der UI
    • Das neue Modell berücksichtigt feine Unterschiede besser
    • Die Audioausgabe von gpt-4o-mini-tts kostet mit 0,015 $ pro Minute wenig genug für den praktischen Einsatz
    • Weitere Tests sind geplant
 
sylee999 2025-03-21

Auch auf Koreanisch funktioniert es perfekt.