OpenAI-Audiomodelle

(openai.fm)

13 Punkte von GN⁺ 2025-03-21 | 2 Kommentare | Auf WhatsApp teilen

Interaktive Demo, mit der Entwickler die neuen Text-zu-Sprache-Modelle der OpenAI API ausprobieren können
Per Prompt lassen sich Stimmeffekte, Ton, Sprechgeschwindigkeit, Emotionen, Aussprache, Pausen usw. detailliert festlegen

Demo

Stimmauswahl: 11 Varianten wie Alloy, Ash, Ballad, Coral und Echo
Auswahl verschiedener Vibes: Sincere, Friendly, Noir Detective, Robot, Auctioneer usw.

Beispiel: Sincere

Voice Affect: Calm, composed, and reassuring. Competent and in control, instilling trust.  
Tone: Sincere, empathetic, with genuine concern for the customer and understanding of the situation.  
Pacing: Slower during the apology to allow for clarity and processing. Faster when offering solutions to signal action and resolution.  
Emotions: Calm reassurance, empathy, and gratitude.  
Pronunciation: Clear, precise: Ensures clarity, especially with key details. Focus on key words like "refund" and "patience."   
Pauses: Before and after the apology to give space for processing the apology.

Beispiel: Medieval Knight

Stimmeffekt: Tief, befehlend und leicht dramatisch; spiegelt die Erhabenheit altenglischer Erzählungen wider  
Ton: Edel, heroisch und formell; fängt die Essenz mittelalterlicher Ritter und epischer Abenteuer ein  
Emotionen: Eine Mischung aus Aufregung, Erwartung, Geheimnis sowie dem Ernst von Schicksal und Pflicht  
Aussprache: Klar und bedächtig, mit leicht formellem Rhythmus; Wörter wie "hast", "thou" und "doth" werden langsam betont, um altenglische Aussprachemuster widerzuspiegeln  
Pausen: Nach altenglischen Wendungen wie "Lo!" und "Hark!" sowie zwischen Satzteilen wie "Choose thy path", um die Bedeutung der Entscheidung zu betonen und dem Zuhörer Raum zu geben, über den Ernst der Quest nachzudenken

2 Kommentare

GN⁺ 2025-03-21

Hacker-News-Kommentar

Diese Modelle sind deutlich günstiger als ElevenLabs
- Das Modell gpt-4o-mini-tts kostet beispielsweise 0,015 $ pro Audiominute und ist damit 85 % günstiger als ElevenLabs
- Der "Business"-Plan von ElevenLabs bietet 11.000 Minuten TTS für 1100 $ pro Monat, also 10 Cent pro Minute
- OpenAI könnte 11.000 Minuten TTS für 165 $ bereitstellen
- Bitte prüfen, ob die Rechnung stimmt
Jeff von OpenAI weist darauf hin, dass neue Audiomodelle veröffentlicht wurden
- Zwei Spracherkennungsmodelle und ein neues TTS-Modell wurden veröffentlicht
- Unterstützung im Agents SDK, damit sich Text-Agenten leicht in Sprach-Agenten umwandeln lassen
- Er bittet darum, Fragen zu stellen
Es werden Zuverlässigkeitsprobleme bei Text-zu-Sprache- und Sprache-zu-Text-Modellen erwähnt
- Es ist unklar, wie problematisch das für Anwendungen in der realen Welt sein wird
- Ein Link zu dazugehörigen Notizen wird bereitgestellt
Es wird gefragt, wie man zusammen mit dem generierten Audio "speech marks" erhalten kann
- Erklärung der bei AWS Polly TTS verwendeten "speech marks"
- Nützlich für Textbetonung und Lippensynchronisation
Die jüngsten Fortschritte bei großen Text-zu-Sprache- und Sprache-zu-Text-Modellen
- Der Bedarf an Offline- und mehrsprachigen Text-zu-Sprache-Lösungen wird erwähnt
- Es wird angenommen, dass Tortoise TTS Wörter häufig verfälscht
- Das Acapela SDK sei die einzige Plugin-Lösung für Desktop-Apps
- Hoffnung, dass neue neuronale Modelle auf gewöhnlichen Computern effizient laufen
Im Feld "vibe" lassen sich je nach eingegebenem Text verschiedene Betonungen und Persönlichkeiten umsetzen
- Das Niveau an intelligenter Prosodie und Intonation ist erstaunlich
- Die Entwicklung ist so weit, dass man für Hörbuchaufnahmen praktisch nur noch Prominente braucht
- Es werden verschiedene unterhaltsame Sprachbeispiele genannt
Reaktion bei Eingabe der Navy-Seal-Copypasta
- Die Sicherheitskontrollen funktionieren je nach "vibe"-Anweisung unterschiedlich
- Ein New Yorker Taxifahrer funktioniert problemlos und ist unterhaltsam
Die Stimme des neuen Modells habe ein feines Zittern und wirke deshalb schlechter als Siri
Das offizielle Tool von OpenAI ist mit der Ankündigung des neuen Modells verknüpft
Wichtige Zitate aus der offiziellen Ankündigung
- Entwickler können dem Modell nicht nur sagen, was es sagen soll, sondern auch, wie es das sagen soll
- "vibes" sind die Anweisungen in der UI
- Das neue Modell berücksichtigt feine Unterschiede besser
- Die Audioausgabe von gpt-4o-mini-tts kostet mit 0,015 $ pro Minute wenig genug für den praktischen Einsatz
- Weitere Tests sind geplant

sylee999 2025-03-21

Auch auf Koreanisch funktioniert es perfekt.

OpenAI-Audiomodelle

Demo

Verwandte Beiträge

2 Kommentare

Hacker-News-Kommentar