- Abogen ist ein Open-Source-Tool, das ePub-, PDF- und Textdateien einfach in hochwertige Audiobücher umwandelt
- Während der Umwandlung werden auch synchronisierte Untertitel automatisch erzeugt
- Es bietet zahlreiche Funktionen wie individuelles Voice-Mixing, Encoding-Formate, Kapitelaufteilung und Stapelverarbeitung (Queue-Modus)
- Es verwendet die aktuelle Kokoro-82M-Sprachsynthese-Engine und unterstützt dadurch natürliche TTS-Qualität und mehrere Sprachen
- Gegenüber anderen Projekten punktet es mit einer intuitiven GUI, projektweiser Ordnerverwaltung und automatischer Metadatenverarbeitung
Überblick über Abogen und seine Bedeutung
- Abogen ist ein Open-Source-Text-to-Speech-(TTS)-Tool, das Textdateien (ePub, PDF, .txt usw.) schnell in natürlich klingende Audiobücher umwandelt
- Es bietet einen großen Funktionsumfang, darunter eine intuitive Oberfläche, Stapelverarbeitung mehrerer Dateien, benutzerdefiniertes Voice-Mixing, verschiedene Ausgabeformate, Kapitelverwaltung und Metadaten-Unterstützung
- Im Unterschied zu anderen Open-Source-Projekten lassen sich mit einfacher Bedienung hochwertige Audiodateien (insbesondere TTS auf Basis von Kokoro-82M) und Untertitel leicht erzeugen
- Der anfängliche Installationsprozess und die komplexe Einrichtung der Python-Umgebung sind automatisiert, sodass auch Einsteiger unter den Entwicklern das Tool leicht nutzen können
- Besonders die kapitel- und metadatenbezogene Verarbeitung pro Projekt, die GUI-Umgebung und die Custom-Voice-Funktion gelten als Wettbewerbsvorteile
Zusammenfassung der wichtigsten Merkmale
- Text-to-Speech (TTS) wandelt ePub-, PDF- und Textdateien in Sekunden in Audio um
- Synchronisierte Untertitel werden automatisch erzeugt; Audio und Untertitel stimmen vollständig überein
- Mit dem Voice Mixer lassen sich mehrere Sprachmodelle kombinieren, um ein eigenes Stimmprofil zu erstellen
- Der Queue-Modus unterstützt die Stapelverarbeitung mehrerer Dateien und behält individuelle Einstellungen pro Datei bei
- Automatische Erzeugung von Kapitelmarkierungen und Metadaten sowie Verwaltung von Projektordnern
- Verschiedene Ausgabeformate: Unterstützung für WAV, FLAC, MP3, OPUS, M4B; Untertitel auch als SRT/ASS auswählbar
- Unterstützte Hauptsprachen: amerikanisches/britisches Englisch, Spanisch, Französisch, Hindi, Italienisch, Japanisch, Portugiesisch, Chinesisch usw.
- Liefert hochwertige, natürliche Aussprache auf Basis der Kokoro-82M-TTS-Engine
- Unterstützt sowohl GUI als auch Kommandozeile; Docker-Container können ebenfalls verwendet werden
Detaillierte Übersicht der Abogen-Funktionen
#Einstieg und Installationshintergrund
- Bestehende TTS-Tools haben oft Einschränkungen bei Installation, Einrichtung, Qualität, Anpassbarkeit und der Verarbeitung mehrerer Dateien
- Abogen wurde mit einer einfachen, aber leistungsstarken Oberfläche entwickelt, damit auch Anfänger fortgeschrittene Funktionen wie Text-zu-Audio-Konvertierung, Untertitel-Erzeugung und Voice-Mixing leicht nutzen können
- Es kann unter verschiedenen Betriebssystemen (Windows, Linux, macOS) verwendet werden und richtet die eingebettete/installierte Umgebung automatisch ein, ohne dass Python vorab installiert sein muss
#Wichtige Nutzungsschritte
- ePub-, PDF- oder Textdateien lassen sich per Drag-and-Drop hinzufügen, alternativ kann der integrierte Editor verwendet werden
- Einstellungen: Lesegeschwindigkeit, Stimme (Modell, Geschlecht, Sprache), Untertitelstil (satzweise, wortweise), Audio- und Untertitelausgabeformat, Ausgabepfad usw. lassen sich detailliert auswählen
- Mit einem Klick auf die Schaltfläche zum Starten der Umwandlung wird das Ergebnis sofort erzeugt
#Praktische Demonstration
- Selbst auf einer leistungsschwachen GPU können etwa 3.000 Zeichen Text in 11 Sekunden in 3 Minuten und 28 Sekunden Audio umgewandelt werden
- Die Verarbeitungsgeschwindigkeit variiert je nach Hardware
#Konfigurationsoptionen
- Eingabemethoden: Drag-and-Drop, integrierter Editor, gleichzeitige Verarbeitung mehrerer Dateien über die Queue-Verwaltung
- Lesegeschwindigkeit: Feineinstellung von 0.1x bis 2.0x
- Stimmauswahl und Vorschau: Modelle nach Sprache und Geschlecht sowie ein eigener Mixer für das persönliche Stimmprofil
- Untertitel-Erzeugung: Automatisierung nach Sätzen, Kommas oder in Einheiten von n Wörtern
- Audioausgabe: WAV, FLAC, MP3, OPUS, M4B (mit Kapiteln)
- Untertitelformate: Anpassbare Unterstützung für SRT, ASS usw.
- Kapitel- und Projektverwaltung: Speicherung in Projektordnern mit Audio pro Kapitel, zusammengeführter Version und Metadaten
- Vielfältige UI-Optionen wie Themes, Logs und Shortcuts
#Voice Mixer
- Mehrere Sprachmodelle lassen sich über Gewichtungsanpassung kombinieren, um eine einzigartige Stimme direkt zu erstellen, zu speichern und wiederzuverwenden
- Das Ergebnis des Voice-Mixings kann als Stimmprofil vorgehört und angewendet werden
#Queue-Modus
- Behält individuelle Einstellungen pro Datei bei und wandelt mehrere Texte und eBooks auf einmal automatisch um
- Für jede Datei werden die Einstellungen zum Zeitpunkt des Hinzufügens zur Queue separat gespeichert und bleiben unabhängig von Änderungen an den Haupteinstellungen
#Kapitelmarker/Metadaten
- Fügt automatisch Tags zur Kapitelaufteilung ein
- Tags können auch manuell mit `` eingefügt werden
- Im Fehlerfall ist es vorteilhaft, nur das betreffende Kapitel schnell erneut zu verarbeiten
- Mit Metadaten-Tags können Informationen wie Titel, Autor und Jahr ergänzt werden, damit Audiobook-Apps diese anzeigen
- Sie können am Anfang einer Textdatei hinzugefügt werden
#Unterstützte Sprachen
- Mehrsprachige Unterstützung der Kokoro-82M-Engine
- Englisch (US/UK), Spanisch, Französisch, Hindi, Italienisch, Japanisch, brasilianisches Portugiesisch, Chinesisch usw.
- Untertitel für andere Sprachen können aufgrund technischer Einschränkungen der Engine später angefragt werden
#Ausgabe und Einsatz
- Empfohlen werden leistungsfähige Media-Player wie MPV, die synchronisierte Untertitel unterstützen
- Unterstützung für den serverseitigen Betrieb auf Docker-Basis
#Unterschiede zu ähnlichen Projekten
- Abogen bietet mit eigenständiger GUI, Anpassungsfunktionen, projektweiser Ordnerverwaltung, Automatisierung von Kapiteln und Metadaten, Queue-Verarbeitung und gemischten Stimmen Komfort auf höchstem Niveau
- Es hat Gemeinsamkeiten mit audiblez, autiobooks, pdf-narrator, epub_to_audiobook und ebook2audiobook, unterscheidet sich aber durch die GUI-Bedienbarkeit, die fortschrittliche TTS-Engine sowie die Synchronisierung von Kapiteln und Untertiteln
#Roadmap und Mitwirkung
- Geplant sind unter anderem die Ergänzung von OCR (Dokumentenerkennung) und eine stärkere mehrsprachige GUI
- Jeder kann das Projekt forken und mit neuen Funktionen oder Bugfixes zu diesem Open-Source-Projekt beitragen
#Technische Credits und Lizenz
- Verwendet verschiedene Open-Source-Technologien von Partnerprojekten wie Kokoro-82M TTS, eine auf PyQt basierende GUI und die Integration von EbookLib
- MIT-Lizenz (kommerzielle Nutzung und Änderungen frei), die Engine (Kokoro) steht unter der Apache-2.0-Lizenz
#Hinweise und Einschränkungen
- Die Synchronisierung der Untertitel wird derzeit nur für Englisch angeboten (Unterstützung weiterer Sprachen erfordert Weiterentwicklung der Kokoro-Engine)
- Einige Funktionen sind eingeschränkt (z. B. Audio-Vorschau innerhalb von Docker)
- Für detaillierte Anleitungen zu Installation und Umgebungseinrichtung siehe die offizielle Dokumentation
Noch keine Kommentare.