- Integrierte Funktionen für Sprachklonung, Text-to-Speech, Dokumentenvorlesen und Hörbucherstellung
- Native Leistung unter macOS durch MLX-basierte Metal-Beschleunigung (Windows-Unterstützung geplant)
- Integration der Engines Qwen3-TTS und Chatterbox, die Sprachklonung mit 3-Sekunden-Samples ermöglichen
- Unterstützung für mehrsprachige Sprachklonung (23 Sprachen, darunter Koreanisch) und emotionale Ausdrucksweise
- Enthält aktuelle Sprachsynthesemodelle wie Kokoro TTS, Supertonic-2 und CosyVoice3 ONNX
- Dokumentenvorlese-Reader: Unterstützt das Vorlesen von PDF-, DOCX-, EPUB-, Markdown- und TXT-Dateien satzweise
- Hörbuch-Generator: Wandelt ganze Dokumente in die Formate WAV/MP3/M4B um. Kapitelbasierte Queue-Verwaltung, Fortschrittsverfolgung und Wiederverwendung von Sprach-Presets
- Läuft als Agentic Voice Cloning Server und unterstützt Parallelverarbeitung durch fortgeschrittene Task-Queue-Orchestrierung
- UI, API und CLI vollständig vorhanden, wodurch lokale Automatisierung und externe Integration möglich sind; ein MCP-Server ist ebenfalls integriert
- Dank gemeinsam genutzter Sprachbibliothek können hochgeladene Stimmen in allen Engines wiederverwendet werden
- Integrierter Model Manager: Herunterladen von HuggingFace-Modellen und Prüfen ihres Status möglich
- Unterstützt Multi-LLM-Integration (Claude, OpenAI, Ollama usw.)
- Codebasis mit rund 18.600 Zeilen, bestehend aus FastAPI-Backend und Flutter-Desktop-UI
- Python-Backend ca. 8.500 Zeilen, Dart-UI ca. 10.100 Zeilen
- Nur für macOS verfügbare Binärdateien; Windows/Linux unterstützen derzeit nur Code-Kompatibilität (Builds folgen später)
- Quellcode unter Business Source License 1.1 (BSL-1.1) veröffentlicht, für Binärdateien gilt eine separate Distributionslizenz
2 Kommentare
Ist das die GUI-Version von
mlx-audio? Die Qualität ist auf jeden Fall gut.Ich habe es ausprobiert, und es ist wirklich verdammt gut.