10 Punkte von GN⁺ 2025-08-11 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Abogen ist ein Open-Source-Tool, das ePub-, PDF- und Textdateien einfach in hochwertige Audiobücher umwandelt
  • Während der Umwandlung werden auch synchronisierte Untertitel automatisch erzeugt
  • Es bietet zahlreiche Funktionen wie individuelles Voice-Mixing, Encoding-Formate, Kapitelaufteilung und Stapelverarbeitung (Queue-Modus)
  • Es verwendet die aktuelle Kokoro-82M-Sprachsynthese-Engine und unterstützt dadurch natürliche TTS-Qualität und mehrere Sprachen
  • Gegenüber anderen Projekten punktet es mit einer intuitiven GUI, projektweiser Ordnerverwaltung und automatischer Metadatenverarbeitung

Überblick über Abogen und seine Bedeutung

  • Abogen ist ein Open-Source-Text-to-Speech-(TTS)-Tool, das Textdateien (ePub, PDF, .txt usw.) schnell in natürlich klingende Audiobücher umwandelt
  • Es bietet einen großen Funktionsumfang, darunter eine intuitive Oberfläche, Stapelverarbeitung mehrerer Dateien, benutzerdefiniertes Voice-Mixing, verschiedene Ausgabeformate, Kapitelverwaltung und Metadaten-Unterstützung
  • Im Unterschied zu anderen Open-Source-Projekten lassen sich mit einfacher Bedienung hochwertige Audiodateien (insbesondere TTS auf Basis von Kokoro-82M) und Untertitel leicht erzeugen
  • Der anfängliche Installationsprozess und die komplexe Einrichtung der Python-Umgebung sind automatisiert, sodass auch Einsteiger unter den Entwicklern das Tool leicht nutzen können
  • Besonders die kapitel- und metadatenbezogene Verarbeitung pro Projekt, die GUI-Umgebung und die Custom-Voice-Funktion gelten als Wettbewerbsvorteile

Zusammenfassung der wichtigsten Merkmale

  • Text-to-Speech (TTS) wandelt ePub-, PDF- und Textdateien in Sekunden in Audio um
  • Synchronisierte Untertitel werden automatisch erzeugt; Audio und Untertitel stimmen vollständig überein
  • Mit dem Voice Mixer lassen sich mehrere Sprachmodelle kombinieren, um ein eigenes Stimmprofil zu erstellen
  • Der Queue-Modus unterstützt die Stapelverarbeitung mehrerer Dateien und behält individuelle Einstellungen pro Datei bei
  • Automatische Erzeugung von Kapitelmarkierungen und Metadaten sowie Verwaltung von Projektordnern
  • Verschiedene Ausgabeformate: Unterstützung für WAV, FLAC, MP3, OPUS, M4B; Untertitel auch als SRT/ASS auswählbar
  • Unterstützte Hauptsprachen: amerikanisches/britisches Englisch, Spanisch, Französisch, Hindi, Italienisch, Japanisch, Portugiesisch, Chinesisch usw.
  • Liefert hochwertige, natürliche Aussprache auf Basis der Kokoro-82M-TTS-Engine
  • Unterstützt sowohl GUI als auch Kommandozeile; Docker-Container können ebenfalls verwendet werden

Detaillierte Übersicht der Abogen-Funktionen

#Einstieg und Installationshintergrund

  • Bestehende TTS-Tools haben oft Einschränkungen bei Installation, Einrichtung, Qualität, Anpassbarkeit und der Verarbeitung mehrerer Dateien
  • Abogen wurde mit einer einfachen, aber leistungsstarken Oberfläche entwickelt, damit auch Anfänger fortgeschrittene Funktionen wie Text-zu-Audio-Konvertierung, Untertitel-Erzeugung und Voice-Mixing leicht nutzen können
  • Es kann unter verschiedenen Betriebssystemen (Windows, Linux, macOS) verwendet werden und richtet die eingebettete/installierte Umgebung automatisch ein, ohne dass Python vorab installiert sein muss

#Wichtige Nutzungsschritte

  • ePub-, PDF- oder Textdateien lassen sich per Drag-and-Drop hinzufügen, alternativ kann der integrierte Editor verwendet werden
  • Einstellungen: Lesegeschwindigkeit, Stimme (Modell, Geschlecht, Sprache), Untertitelstil (satzweise, wortweise), Audio- und Untertitelausgabeformat, Ausgabepfad usw. lassen sich detailliert auswählen
  • Mit einem Klick auf die Schaltfläche zum Starten der Umwandlung wird das Ergebnis sofort erzeugt

#Praktische Demonstration

  • Selbst auf einer leistungsschwachen GPU können etwa 3.000 Zeichen Text in 11 Sekunden in 3 Minuten und 28 Sekunden Audio umgewandelt werden
  • Die Verarbeitungsgeschwindigkeit variiert je nach Hardware

#Konfigurationsoptionen

  • Eingabemethoden: Drag-and-Drop, integrierter Editor, gleichzeitige Verarbeitung mehrerer Dateien über die Queue-Verwaltung
  • Lesegeschwindigkeit: Feineinstellung von 0.1x bis 2.0x
  • Stimmauswahl und Vorschau: Modelle nach Sprache und Geschlecht sowie ein eigener Mixer für das persönliche Stimmprofil
  • Untertitel-Erzeugung: Automatisierung nach Sätzen, Kommas oder in Einheiten von n Wörtern
  • Audioausgabe: WAV, FLAC, MP3, OPUS, M4B (mit Kapiteln)
  • Untertitelformate: Anpassbare Unterstützung für SRT, ASS usw.
  • Kapitel- und Projektverwaltung: Speicherung in Projektordnern mit Audio pro Kapitel, zusammengeführter Version und Metadaten
  • Vielfältige UI-Optionen wie Themes, Logs und Shortcuts

#Voice Mixer

  • Mehrere Sprachmodelle lassen sich über Gewichtungsanpassung kombinieren, um eine einzigartige Stimme direkt zu erstellen, zu speichern und wiederzuverwenden
  • Das Ergebnis des Voice-Mixings kann als Stimmprofil vorgehört und angewendet werden

#Queue-Modus

  • Behält individuelle Einstellungen pro Datei bei und wandelt mehrere Texte und eBooks auf einmal automatisch um
  • Für jede Datei werden die Einstellungen zum Zeitpunkt des Hinzufügens zur Queue separat gespeichert und bleiben unabhängig von Änderungen an den Haupteinstellungen

#Kapitelmarker/Metadaten

  • Fügt automatisch Tags zur Kapitelaufteilung ein
    • Tags können auch manuell mit `` eingefügt werden
    • Im Fehlerfall ist es vorteilhaft, nur das betreffende Kapitel schnell erneut zu verarbeiten
  • Mit Metadaten-Tags können Informationen wie Titel, Autor und Jahr ergänzt werden, damit Audiobook-Apps diese anzeigen
    • Sie können am Anfang einer Textdatei hinzugefügt werden

#Unterstützte Sprachen

  • Mehrsprachige Unterstützung der Kokoro-82M-Engine
  • Englisch (US/UK), Spanisch, Französisch, Hindi, Italienisch, Japanisch, brasilianisches Portugiesisch, Chinesisch usw.
  • Untertitel für andere Sprachen können aufgrund technischer Einschränkungen der Engine später angefragt werden

#Ausgabe und Einsatz

  • Empfohlen werden leistungsfähige Media-Player wie MPV, die synchronisierte Untertitel unterstützen
  • Unterstützung für den serverseitigen Betrieb auf Docker-Basis

#Unterschiede zu ähnlichen Projekten

  • Abogen bietet mit eigenständiger GUI, Anpassungsfunktionen, projektweiser Ordnerverwaltung, Automatisierung von Kapiteln und Metadaten, Queue-Verarbeitung und gemischten Stimmen Komfort auf höchstem Niveau
  • Es hat Gemeinsamkeiten mit audiblez, autiobooks, pdf-narrator, epub_to_audiobook und ebook2audiobook, unterscheidet sich aber durch die GUI-Bedienbarkeit, die fortschrittliche TTS-Engine sowie die Synchronisierung von Kapiteln und Untertiteln

#Roadmap und Mitwirkung

  • Geplant sind unter anderem die Ergänzung von OCR (Dokumentenerkennung) und eine stärkere mehrsprachige GUI
  • Jeder kann das Projekt forken und mit neuen Funktionen oder Bugfixes zu diesem Open-Source-Projekt beitragen

#Technische Credits und Lizenz

  • Verwendet verschiedene Open-Source-Technologien von Partnerprojekten wie Kokoro-82M TTS, eine auf PyQt basierende GUI und die Integration von EbookLib
  • MIT-Lizenz (kommerzielle Nutzung und Änderungen frei), die Engine (Kokoro) steht unter der Apache-2.0-Lizenz

#Hinweise und Einschränkungen

  • Die Synchronisierung der Untertitel wird derzeit nur für Englisch angeboten (Unterstützung weiterer Sprachen erfordert Weiterentwicklung der Kokoro-Engine)
  • Einige Funktionen sind eingeschränkt (z. B. Audio-Vorschau innerhalb von Docker)
  • Für detaillierte Anleitungen zu Installation und Umgebungseinrichtung siehe die offizielle Dokumentation

Noch keine Kommentare.

Noch keine Kommentare.