24 Punkte von GN⁺ 2025-01-16 | 3 Kommentare | Auf WhatsApp teilen
  • Kokoro v0.19 ist ein kürzlich vorgestelltes Text-to-Speech-Modell mit 82M Parametern und liefert eine sehr hohe Ausgabequalität
    • Apache-Lizenz, trainiert mit weniger als 100 Stunden Audio
    • Unterstützt US-Englisch, britisches Englisch, Französisch, Koreanisch, Japanisch und Chinesisch und bietet verschiedene hochwertige Stimmen
  • Einsatz von Kokoro

    • Nutzer können Kokoro über ein Tool namens Audiblez verwenden, mit dem sich E-Books in Hörbücher umwandeln lassen.
    • Audiblez parst .epub-Dateien und wandelt den Buchtext in gut eingesprochene Audiodateien um.
    • Auf einem M2 MacBook Pro dauert die Umwandlung eines Buchs mit etwa 100.000 Wörtern zum Beispiel rund 2 Stunden.
  • Installation und Ausführung

    • Audiblez kann auf einem Computer mit installiertem Python 3 per pip installiert werden.
    • Funktioniert nicht mit Python 3.13.
    • Zusätzliche Dateien von etwa 360 MB müssen heruntergeladen werden.
    • Um eine .epub-Datei in ein Hörbuch umzuwandeln, muss ein Befehl ausgeführt werden.
  • Unterstützte Sprachen und Stimmen

    • Mit der Option -l kann die Sprache festgelegt werden; unterstützte Sprachcodes sind en-us, en-gb, fr-fr, ja, ko und cmn.
    • Mit der Option -v kann die Stimme ausgewählt werden; es stehen verschiedene Stimmen zur Verfügung.
  • Kapitel-Erkennung

    • Die Kapitel-Erkennung ist etwas unzuverlässig, findet aber in den meisten .epub-Dateien die zentralen Kapitel.
    • Wenn ein gewünschtes Kapitel nicht enthalten ist, kann man versuchen, die Funktion is_chapter im Code anzupassen.
  • Quellcode und Verbesserungen

    • Das Audiblez-Projekt ist auf GitHub verfügbar.
    • Künftige Verbesserungen umfassen eine bessere Kapitel-Erkennung, das Hinzufügen einer Kapitel-Navigation und das Hinzufügen von Bild-Narration.

3 Kommentare

 
crawler 2025-01-16

Es gibt zwar auch größere und bessere Modelle als dieses, aber ich denke, man muss sagen, dass sie für andere Einsatzzwecke gedacht sind.
Kokoro ist klein, dadurch schnell, und die Qualität ist auch nicht schlecht – gerade deshalb kommt es sehr gut an.

 
munggo 2025-01-16

Die koreanische Version klingt wie Russisch. Das ist auf einem Niveau, das man sich nicht anhören kann.

 
GN⁺ 2025-01-16
Hacker-News-Kommentare
  • Ich habe gemischte Gefühle beim Einsatz von AI-Stimmen, weil Erzähler bei Hörbüchern den Text manchmal sehr gut interpretieren

    • Hörbücher mit mehreren Erzählern und unterschiedlichen Stimmen für jede Figur bieten ein besonderes Erlebnis
    • Manchmal ist der einzige Hinweis darauf, wer in einem Dialog spricht, die Veränderung im Stimmton
    • Gegenüber Amateur-E-Books oder Public-Domain-Hörbüchern wie bei Project Gutenberg bevorzuge ich AI-Stimmen
  • AI-generierte Stimmen sind für mich länger als eine Minute kaum auszuhalten, und wenn auf YouTube eine AI-Stimme auftaucht, überspringe ich sofort

    • Das könnte daran liegen, dass unser Gehirn versucht, Emotionen, Pausen und ein unsichtbares Lächeln des Sprechers wahrzunehmen
    • Die Modelle werden sich verbessern, sodass AI-generierte Stimmen schwerer zu erkennen sein werden
  • Es wird nach Empfehlungen für Open-Source-Optionen zur TTS-Erzeugung mit benutzerdefinierten Stimmen gefragt

    • Ich werde Coqui TTS ausprobieren
  • Ich wünsche mir einen E-Book-Reader, bei dem man per Knopfdruck zwischen Text und Audio wechseln kann

    • Ich stelle mir eine Funktion vor, mit der man auf dem Sofa ein Buch liest und beim Abwasch in den Audiomodus wechseln kann
  • Jemand hat die Idee, E-Books mit der Stimme eines bestimmten Hörbuchsprechers in Hörbücher umzuwandeln

    • Inspiriert vom Projekt Infinite Conversation, aber noch nicht umgesetzt
  • Es wurden verschiedene TTS-Modelle ausprobiert, aber die meisten waren durchschnittlich, liefen nicht auf dem Mac oder waren sehr langsam

    • Dieses Modell hier ist schnell, leicht zu installieren und liefert eine ordentliche Stimme
    • Ich lese keine Bücher, von denen es keine Hörbuchversion gibt
    • Früher habe ich elevenlabs verwendet, aber für den privaten Gebrauch ist es zu teuer
  • 2025 wird man mit neuronalen Netzen Hörbücher mit Hintergrundmusik, Soundeffekten und dramatischer Erzählung erzeugen können

  • „kokoro“ bedeutet auf Japanisch „Herz“

  • Ich hoffe, dass der E-Book-Verwaltungssoftware Calibre ein Plugin hinzugefügt wird, mit dem sich ausgewählte Titel aus einer epub-Bibliothek leicht in Audioversionen umwandeln lassen

  • Ich bin sehr zufrieden, nachdem ein Argument für variable Geschwindigkeit hinzugefügt wurde