- Kokoro v0.19 ist ein kürzlich vorgestelltes Text-to-Speech-Modell mit 82M Parametern und liefert eine sehr hohe Ausgabequalität
- Apache-Lizenz, trainiert mit weniger als 100 Stunden Audio
- Unterstützt US-Englisch, britisches Englisch, Französisch, Koreanisch, Japanisch und Chinesisch und bietet verschiedene hochwertige Stimmen
-
Einsatz von Kokoro
- Nutzer können Kokoro über ein Tool namens Audiblez verwenden, mit dem sich E-Books in Hörbücher umwandeln lassen.
- Audiblez parst
.epub-Dateien und wandelt den Buchtext in gut eingesprochene Audiodateien um.
- Auf einem M2 MacBook Pro dauert die Umwandlung eines Buchs mit etwa 100.000 Wörtern zum Beispiel rund 2 Stunden.
-
Installation und Ausführung
- Audiblez kann auf einem Computer mit installiertem Python 3 per
pip installiert werden.
- Funktioniert nicht mit Python 3.13.
- Zusätzliche Dateien von etwa 360 MB müssen heruntergeladen werden.
- Um eine
.epub-Datei in ein Hörbuch umzuwandeln, muss ein Befehl ausgeführt werden.
-
Unterstützte Sprachen und Stimmen
- Mit der Option
-l kann die Sprache festgelegt werden; unterstützte Sprachcodes sind en-us, en-gb, fr-fr, ja, ko und cmn.
- Mit der Option
-v kann die Stimme ausgewählt werden; es stehen verschiedene Stimmen zur Verfügung.
-
Kapitel-Erkennung
- Die Kapitel-Erkennung ist etwas unzuverlässig, findet aber in den meisten
.epub-Dateien die zentralen Kapitel.
- Wenn ein gewünschtes Kapitel nicht enthalten ist, kann man versuchen, die Funktion
is_chapter im Code anzupassen.
-
Quellcode und Verbesserungen
- Das Audiblez-Projekt ist auf GitHub verfügbar.
- Künftige Verbesserungen umfassen eine bessere Kapitel-Erkennung, das Hinzufügen einer Kapitel-Navigation und das Hinzufügen von Bild-Narration.
3 Kommentare
Es gibt zwar auch größere und bessere Modelle als dieses, aber ich denke, man muss sagen, dass sie für andere Einsatzzwecke gedacht sind.
Kokoro ist klein, dadurch schnell, und die Qualität ist auch nicht schlecht – gerade deshalb kommt es sehr gut an.
Die koreanische Version klingt wie Russisch. Das ist auf einem Niveau, das man sich nicht anhören kann.
Hacker-News-Kommentare
Ich habe gemischte Gefühle beim Einsatz von AI-Stimmen, weil Erzähler bei Hörbüchern den Text manchmal sehr gut interpretieren
AI-generierte Stimmen sind für mich länger als eine Minute kaum auszuhalten, und wenn auf YouTube eine AI-Stimme auftaucht, überspringe ich sofort
Es wird nach Empfehlungen für Open-Source-Optionen zur TTS-Erzeugung mit benutzerdefinierten Stimmen gefragt
Ich wünsche mir einen E-Book-Reader, bei dem man per Knopfdruck zwischen Text und Audio wechseln kann
Jemand hat die Idee, E-Books mit der Stimme eines bestimmten Hörbuchsprechers in Hörbücher umzuwandeln
Es wurden verschiedene TTS-Modelle ausprobiert, aber die meisten waren durchschnittlich, liefen nicht auf dem Mac oder waren sehr langsam
2025 wird man mit neuronalen Netzen Hörbücher mit Hintergrundmusik, Soundeffekten und dramatischer Erzählung erzeugen können
„kokoro“ bedeutet auf Japanisch „Herz“
Ich hoffe, dass der E-Book-Verwaltungssoftware Calibre ein Plugin hinzugefügt wird, mit dem sich ausgewählte Titel aus einer epub-Bibliothek leicht in Audioversionen umwandeln lassen
Ich bin sehr zufrieden, nachdem ein Argument für variable Geschwindigkeit hinzugefügt wurde