Abogen - Audiobücher aus EPUB, PDF und Text erzeugen

(github.com/denizsafak)

10 Punkte von GN⁺ 2025-08-11 | 1 Kommentare | Auf WhatsApp teilen

Abogen ist ein Open-Source-Tool, das ePub-, PDF- und Textdateien einfach in hochwertige Audiobücher umwandelt
Während der Umwandlung werden auch synchronisierte Untertitel automatisch erzeugt
Es bietet zahlreiche Funktionen wie individuelles Voice-Mixing, Encoding-Formate, Kapitelaufteilung und Stapelverarbeitung (Queue-Modus)
Es verwendet die aktuelle Kokoro-82M-Sprachsynthese-Engine und unterstützt dadurch natürliche TTS-Qualität und mehrere Sprachen
Gegenüber anderen Projekten punktet es mit einer intuitiven GUI, projektweiser Ordnerverwaltung und automatischer Metadatenverarbeitung

Überblick über Abogen und seine Bedeutung

Abogen ist ein Open-Source-Text-to-Speech-(TTS)-Tool, das Textdateien (ePub, PDF, .txt usw.) schnell in natürlich klingende Audiobücher umwandelt
Es bietet einen großen Funktionsumfang, darunter eine intuitive Oberfläche, Stapelverarbeitung mehrerer Dateien, benutzerdefiniertes Voice-Mixing, verschiedene Ausgabeformate, Kapitelverwaltung und Metadaten-Unterstützung
Im Unterschied zu anderen Open-Source-Projekten lassen sich mit einfacher Bedienung hochwertige Audiodateien (insbesondere TTS auf Basis von Kokoro-82M) und Untertitel leicht erzeugen
Der anfängliche Installationsprozess und die komplexe Einrichtung der Python-Umgebung sind automatisiert, sodass auch Einsteiger unter den Entwicklern das Tool leicht nutzen können
Besonders die kapitel- und metadatenbezogene Verarbeitung pro Projekt, die GUI-Umgebung und die Custom-Voice-Funktion gelten als Wettbewerbsvorteile

Zusammenfassung der wichtigsten Merkmale

Text-to-Speech (TTS) wandelt ePub-, PDF- und Textdateien in Sekunden in Audio um
Synchronisierte Untertitel werden automatisch erzeugt; Audio und Untertitel stimmen vollständig überein
Mit dem Voice Mixer lassen sich mehrere Sprachmodelle kombinieren, um ein eigenes Stimmprofil zu erstellen
Der Queue-Modus unterstützt die Stapelverarbeitung mehrerer Dateien und behält individuelle Einstellungen pro Datei bei
Automatische Erzeugung von Kapitelmarkierungen und Metadaten sowie Verwaltung von Projektordnern
Verschiedene Ausgabeformate: Unterstützung für WAV, FLAC, MP3, OPUS, M4B; Untertitel auch als SRT/ASS auswählbar
Unterstützte Hauptsprachen: amerikanisches/britisches Englisch, Spanisch, Französisch, Hindi, Italienisch, Japanisch, Portugiesisch, Chinesisch usw.
Liefert hochwertige, natürliche Aussprache auf Basis der Kokoro-82M-TTS-Engine
Unterstützt sowohl GUI als auch Kommandozeile; Docker-Container können ebenfalls verwendet werden

Detaillierte Übersicht der Abogen-Funktionen

#Einstieg und Installationshintergrund

Bestehende TTS-Tools haben oft Einschränkungen bei Installation, Einrichtung, Qualität, Anpassbarkeit und der Verarbeitung mehrerer Dateien
Abogen wurde mit einer einfachen, aber leistungsstarken Oberfläche entwickelt, damit auch Anfänger fortgeschrittene Funktionen wie Text-zu-Audio-Konvertierung, Untertitel-Erzeugung und Voice-Mixing leicht nutzen können
Es kann unter verschiedenen Betriebssystemen (Windows, Linux, macOS) verwendet werden und richtet die eingebettete/installierte Umgebung automatisch ein, ohne dass Python vorab installiert sein muss

#Wichtige Nutzungsschritte

ePub-, PDF- oder Textdateien lassen sich per Drag-and-Drop hinzufügen, alternativ kann der integrierte Editor verwendet werden
Einstellungen: Lesegeschwindigkeit, Stimme (Modell, Geschlecht, Sprache), Untertitelstil (satzweise, wortweise), Audio- und Untertitelausgabeformat, Ausgabepfad usw. lassen sich detailliert auswählen
Mit einem Klick auf die Schaltfläche zum Starten der Umwandlung wird das Ergebnis sofort erzeugt

#Praktische Demonstration

Selbst auf einer leistungsschwachen GPU können etwa 3.000 Zeichen Text in 11 Sekunden in 3 Minuten und 28 Sekunden Audio umgewandelt werden
Die Verarbeitungsgeschwindigkeit variiert je nach Hardware

#Konfigurationsoptionen

Eingabemethoden: Drag-and-Drop, integrierter Editor, gleichzeitige Verarbeitung mehrerer Dateien über die Queue-Verwaltung
Lesegeschwindigkeit: Feineinstellung von 0.1x bis 2.0x
Stimmauswahl und Vorschau: Modelle nach Sprache und Geschlecht sowie ein eigener Mixer für das persönliche Stimmprofil
Untertitel-Erzeugung: Automatisierung nach Sätzen, Kommas oder in Einheiten von n Wörtern
Audioausgabe: WAV, FLAC, MP3, OPUS, M4B (mit Kapiteln)
Untertitelformate: Anpassbare Unterstützung für SRT, ASS usw.
Kapitel- und Projektverwaltung: Speicherung in Projektordnern mit Audio pro Kapitel, zusammengeführter Version und Metadaten
Vielfältige UI-Optionen wie Themes, Logs und Shortcuts

#Voice Mixer

Mehrere Sprachmodelle lassen sich über Gewichtungsanpassung kombinieren, um eine einzigartige Stimme direkt zu erstellen, zu speichern und wiederzuverwenden
Das Ergebnis des Voice-Mixings kann als Stimmprofil vorgehört und angewendet werden

#Queue-Modus

Behält individuelle Einstellungen pro Datei bei und wandelt mehrere Texte und eBooks auf einmal automatisch um
Für jede Datei werden die Einstellungen zum Zeitpunkt des Hinzufügens zur Queue separat gespeichert und bleiben unabhängig von Änderungen an den Haupteinstellungen

#Kapitelmarker/Metadaten

Fügt automatisch Tags zur Kapitelaufteilung ein
- Tags können auch manuell mit `` eingefügt werden
- Im Fehlerfall ist es vorteilhaft, nur das betreffende Kapitel schnell erneut zu verarbeiten
Mit Metadaten-Tags können Informationen wie Titel, Autor und Jahr ergänzt werden, damit Audiobook-Apps diese anzeigen
- Sie können am Anfang einer Textdatei hinzugefügt werden

#Unterstützte Sprachen

Mehrsprachige Unterstützung der Kokoro-82M-Engine
Englisch (US/UK), Spanisch, Französisch, Hindi, Italienisch, Japanisch, brasilianisches Portugiesisch, Chinesisch usw.
Untertitel für andere Sprachen können aufgrund technischer Einschränkungen der Engine später angefragt werden

#Ausgabe und Einsatz

Empfohlen werden leistungsfähige Media-Player wie MPV, die synchronisierte Untertitel unterstützen
Unterstützung für den serverseitigen Betrieb auf Docker-Basis

#Unterschiede zu ähnlichen Projekten

Abogen bietet mit eigenständiger GUI, Anpassungsfunktionen, projektweiser Ordnerverwaltung, Automatisierung von Kapiteln und Metadaten, Queue-Verarbeitung und gemischten Stimmen Komfort auf höchstem Niveau
Es hat Gemeinsamkeiten mit audiblez, autiobooks, pdf-narrator, epub_to_audiobook und ebook2audiobook, unterscheidet sich aber durch die GUI-Bedienbarkeit, die fortschrittliche TTS-Engine sowie die Synchronisierung von Kapiteln und Untertiteln

#Roadmap und Mitwirkung

Geplant sind unter anderem die Ergänzung von OCR (Dokumentenerkennung) und eine stärkere mehrsprachige GUI
Jeder kann das Projekt forken und mit neuen Funktionen oder Bugfixes zu diesem Open-Source-Projekt beitragen

#Technische Credits und Lizenz

Verwendet verschiedene Open-Source-Technologien von Partnerprojekten wie Kokoro-82M TTS, eine auf PyQt basierende GUI und die Integration von EbookLib
MIT-Lizenz (kommerzielle Nutzung und Änderungen frei), die Engine (Kokoro) steht unter der Apache-2.0-Lizenz

#Hinweise und Einschränkungen

Die Synchronisierung der Untertitel wird derzeit nur für Englisch angeboten (Unterstützung weiterer Sprachen erfordert Weiterentwicklung der Kokoro-Engine)
Einige Funktionen sind eingeschränkt (z. B. Audio-Vorschau innerhalb von Docker)
Für detaillierte Anleitungen zu Installation und Umgebungseinrichtung siehe die offizielle Dokumentation

1 Kommentare

GN⁺ 2025-08-11

Hacker-News-Kommentare

Ich stelle mir eine Pipeline vor, bei der Bücher über Calibre-Web bereitgestellt, mit Abogen in eine Audioversion umgewandelt und dann über Audiobookshelf ausgeliefert werden; das wäre auch für Menschen mit Hörbehinderung eine wirklich gute Lösung. Siehe Calibre-Web und audiobookshelf
Dieses Tool zu verwenden, um ein Textbuch für den privaten Konsum in ein Hörbuch umzuwandeln, ist in Ordnung, aber wenn ein Autor damit Dateien zur Verbreitung erstellt, ist das sehr riskant. Unabhängige Autoren haben ohnehin große Schwierigkeiten, ihre Werke bekannt zu machen, und inzwischen verlieren potenzielle Leser oft sofort das Interesse, sobald sie auch nur Spuren von AI bemerken. Ich selbst habe begonnen, Sprecher zu engagieren, die gut schauspielern, aber kein englischer Muttersprachler sind, oder Sprecher, die zu Hause eine andere Sprache sprechen. Manchmal bitte ich sogar um einen etwas stärkeren Akzent; das hilft dabei, sich von AI abzuheben, und verleiht Büchern für Menschen, die etwas Neues suchen, zusätzlichen Reiz. Früher war ich bei Castings regelrecht überrascht, wie lebendig Darsteller aus dem Mittelmeerraum Hörbücher einsprechen konnten.
- Ich nutze Amazons WhisperSync-Funktion häufig. Damit kann ich ein Buch lesen und gleichzeitig hören. Besonders unterwegs ist es sehr praktisch, den Inhalt gelegentlich visuell zu prüfen oder später Stellen zu markieren. Der Nachteil ist, dass nicht viele Bücher diese Funktion unterstützen, und die im Kindle-App integrierte Vorlesefunktion ist qualitativ eher schwach. Deshalb fände ich es persönlich großartig, wenn zu einem von einem hervorragenden Menschen geschriebenen Buch zusätzlich eine AI-Stimmenfunktion verfügbar wäre.
- Ich bin mir nicht sicher, ob es wirklich so verbreitet ist, dass potenzielle Leser ein Buch sofort überspringen, sobald sie irgendwelche AI-Spuren sehen. Beim Lesen von Texten scheint es den meisten egal zu sein, ob AI oder etwas anderes vorliest, solange das Ergebnis gut ist. Die Leute wollen keine von AI geschriebenen Bücher, aber AI-Stimmen zum Vorlesen von Texten werden für Artikel oder Bücher schon seit Längerem ganz bequem genutzt. Das ist etwas anderes als Schauspiel oder Stimmregie.
Ich frage mich, ob das hier einfach nur Text in Sprache umwandelt oder ob daraus wirklich ein echtes Hörbuch wird. Gute Hörbücher leben oft davon, dass Sprecher Figuren unterschiedlich darstellen und auch Akzente oder Dialekte verschieden wiedergeben. Solche Dinge lassen sich mit Tools wie chatgpt vielleicht für ein paar Sätze schreiben, aber über ein ganzes 8- bis 20-stündiges Hörbuch hinweg ist das nicht einfach. Auf dem aktuellen Stand gibt es meiner Meinung nach immer noch grundlegende Hürden, um aus einem epub ein Hörbuch auf Spitzenniveau zu machen. Vielleicht übersehe ich aber etwas.
- Elevenlabs hat eine Generierungsfunktion im Stil von "Full Cast", bei der verschiedenen Figuren unterschiedliche Stimmen zugewiesen werden. Für Dialekte ist das aber nicht automatisch sensibel. Mit den aktuellen Systemen kann man je nach Kontext oder Prompt zwar Akzent und Sprechweise verändern, aber wie zuverlässig das ist, weiß ich nicht.
- Mit dem Mixer kann man verschiedene Charakterstimmen mischen und dadurch unterschiedliche Wirkungen erzielen. Man kann auch selbst per Code passende Stimmen für verschiedene Figuren zuweisen.
- Ehrlich gesagt mag ich die Inszenierung mit mehreren Figurenstimmen nicht besonders. Dass Zitate je nach Kontext mit passendem Tonfall und passender Betonung gelesen werden, finde ich gut, aber ich mag es nicht, wenn jede Figur eine andere Stimme bekommt.
Dieses Tool benötigt beim Starten der abogen-App pip, also muss es in einer Umgebung laufen, in der pip verwendbar ist. Mit dem Befehl uv tool run abogen kann man zwar beginnen, aber es bleibt beim Installationsschritt für das Modell hängen. Mit uv venv && uv pip install pip && source .venv/bin/activate && abogen läuft es korrekt. Die gepackte GUI ist ebenfalls gelungen, auch die UI zum Auswählen von Seiten oder Abschnitten in PDF-Dateien ist gut, und auf meinem Laptop mit GTX 1650 ist es schnell. Die Ausgabe besteht aus .ogg-Audio und .ass-Untertiteldateien; lädt man das in mpv, kann man im Terminal gleichzeitig hören und lesen. Ein kleiner Nachteil ist, dass Zeilenumbrüche aus dem PDF im Originalzustand erhalten bleiben und Sätze dadurch mitten im Satz lang auseinandergerissen werden, was das Verständnis stört. Wenn man die Funktion zum Überspringen einzelner Zeilenumbrüche aktiviert, wird es deutlich besser.
- Ich habe mit einer RTX 4060 ein 110-seitiges Buch in etwa einer Stunde in wav umgewandelt. Ohne die Funktion zum Überspringen von Zeilenumbrüchen war das Ergebnis nicht besonders gut. Mit dieser Option ist es wirklich beeindruckend. Die Stimme af_heart gefällt mir persönlich sehr gut, af_jessica finde ich eher störend. Das größte Problem bei Hörbüchern ist, dass Sympathie oder Abneigung gegenüber dem Sprecher fast genauso wichtig ist wie der Inhalt des Buchs. Ich hatte das Gefühl, dass dieser Tag bald kommen würde, und es ist wirklich beeindruckend. Ich bin so sehr an Hörbücher gewöhnt, dass es mir schwerfällt, tatsächliche Bücher vollständig zu lesen. Besonders erstaunlich ist, dass ich jetzt etwa 20 Bücher, die wirtschaftlich nicht attraktiv genug wären, um von einem Sprecher eingelesen zu werden, mit dieser Funktion ganz einfach in Stimmen umwandeln kann, die ich mag.
Ich liebe Hörbücher wirklich, bin aber sehr wählerisch bei der Erzählstimme. Es gibt viele Hörbücher, bei denen ich mitten drin aufgehört habe, weil der Sprecher nicht zu mir passte. Bis ich so einen Dienst wirklich nutzen würde, wird es für mich wohl noch lange dauern.
- Es gab Fälle, in denen ich dank eines guten Sprechers eine ganze Reihe gekauft und gehört habe, zum Beispiel Grim Noir Chronicles oder die Full-Cast-Produktionen von Soundbooth Theater. Wenn man einfach nur möchte, dass Text in Schwingungen verwandelt wird, reicht TTS-Technik aus, aber ich denke nicht, dass AI-Narration bisher dieselbe Erfahrung liefern kann wie menschliche Sprecher.
- Ich habe auch schon Hörbücher wegen des Sprechers abgebrochen, aber umgekehrt könnte eine neutrale und ordentliche AI-Stimme mir vielleicht helfen, Bücher zu Ende zu hören, mit denen ich früher Probleme hatte. Vielleicht ist eine saubere AI-Stimme am Ende die bessere Wahl als eine unangenehme offizielle Vertonung.
- Es gab auch Fälle, in denen eine von R. C. Bray erzählte Reihe plötzlich auf einen anderen Sprecher umgestellt wurde und dadurch schlagartig schwer hörbar wurde, sodass ich sie ganz aufgegeben habe. Andererseits gibt es Sprecher wie Wil Wheaton, nach denen ich gezielt suche. Letztlich kann der Sprecher ein Hörbuch retten oder ruinieren.
- Was ist dein Lieblingshörbuch?
Für Bücher, die neben Text auch Code, Diagramme oder Bilder enthalten, scheint es nicht gut geeignet zu sein, was natürlich naheliegt. Ich frage mich, ob es Open-Source-neuronale Netze gibt, die eine PDF-Seite entgegennehmen und in eine Version mit "reiner Prosa" umwandeln können, also zum Beispiel bei Seiten mit Bild und Text auch den Inhalt oder die Beschreibung des Bildes als Text wiedergeben.
Für kurze Inhalte wie Blogs oder Artikel habe ich Kokoro TTS ausprobiert, war aber nicht besonders überzeugt. Im Moment ist Gemini 2.5 Flash TTS deutlich besser und hat außerdem ein großzügiges Gratislimit (10 Minuten pro Generierung, 90 Minuten pro Tag). Bei kurzen Texten fällt die mangelnde Konsistenz der Stimme kaum auf, aber bei längeren Inhalten wie einem ganzen Buch ist das eindeutig ein Problem.
- Kokoro ist als TTS nicht schlecht, aber es fehlt an emotionalem Ausdruck. Wenn man die Größe des Modells bedenkt, ist das vielleicht unvermeidlich.
Ich habe dieses Tool ausprobiert, um philosophische Bücher als Hörbücher zugänglicher zu machen, dabei gab es aber ein wichtiges Problem. Wenn die Eingabesätze für Kokoro zu lang sind, werden Wörter oder ganze Satzteile am Ende übersprungen oder undeutlich. Abogen schneidet den Text in Sätze und gibt ihn so weiter, aber wenn die Sätze lang sind, gehen sie unverändert in Kokoro, und dann ist das Hörbuch praktisch unbrauchbar. Deshalb baue ich gerade meine eigene tkinter-GUI-App, die mit nltk und regulären Ausdrücken feiner segmentiert.
- Ich nutze derzeit zufrieden das CLI-Tool "kokoro-tts", weil dessen Aufteilungs-/Segmentierungsfunktion besser ist: kokoro-tts. Das Tool erzeugt außerdem Audiodateien und Metadaten für jedes Kapitel. Mit m4b-tool kann man die Audiodateien zusammenfügen und Kapitelinformationen hinzufügen: m4b-tool. Ich habe große Lust, einen Beitrag über diesen Workflow zu schreiben; er ist wirklich nützlich.
- Ich bin derzeit unzufrieden damit, wie nichtdeterministisch die Ausgabe von Deep-Learning-TTS ist. Klassische Verfahren liefern vorhersehbarere Aussprache und fühlen sich deshalb fast besser an.
Ich hoffe persönlich auf eine Lösung, die PDFs in sauber aufbereitete ePub-Dateien umwandeln kann.
Ich habe Kokoro TTS zusammen mit audiblez für die CLI verwendet. Obwohl es ein kleines Modell ist, war es schnell und die Audioqualität beeindruckend. Es gibt aber ein paar Schwächen: a) Es kann Satzendpunkte nicht von Punkten in Abkürzungen wie "Mr." oder "Mrs." unterscheiden, wodurch unnatürliche Pausen entstehen, b) es geht nicht gut mit Auslassungspunkten (...) um, c) die Aussprache eines Wortes bleibt immer gleich, auch wenn der Kontext ein anderer ist.
- Man könnte versuchen, SSML-Phonem-Tags zu nutzen. Manche TTS-Systeme unterstützen das. Mit einem leistungsstarken LLM als Vorverarbeitung könnte man solche Probleme vermeiden.
- Fälle wie das Mr./Mrs.-Problem dürften sich ziemlich leicht beheben lassen. Zumindest einige der häufigen Fälle könnte man wohl herausfiltern.

Abogen - Audiobücher aus EPUB, PDF und Text erzeugen

Überblick über Abogen und seine Bedeutung

Zusammenfassung der wichtigsten Merkmale

Detaillierte Übersicht der Abogen-Funktionen

#Einstieg und Installationshintergrund

#Wichtige Nutzungsschritte

#Praktische Demonstration

#Konfigurationsoptionen

#Voice Mixer

#Queue-Modus

#Kapitelmarker/Metadaten

#Unterstützte Sprachen

#Ausgabe und Einsatz

#Unterschiede zu ähnlichen Projekten

#Roadmap und Mitwirkung

#Technische Credits und Lizenz

#Hinweise und Einschränkungen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare