42 Punkte von xguru 2026-03-19 | 2 Kommentare | Auf WhatsApp teilen
  • Integrierte Funktionen für Sprachklonung, Text-to-Speech, Dokumentenvorlesen und Hörbucherstellung
  • Native Leistung unter macOS durch MLX-basierte Metal-Beschleunigung (Windows-Unterstützung geplant)
  • Integration der Engines Qwen3-TTS und Chatterbox, die Sprachklonung mit 3-Sekunden-Samples ermöglichen
    • Unterstützung für mehrsprachige Sprachklonung (23 Sprachen, darunter Koreanisch) und emotionale Ausdrucksweise
  • Enthält aktuelle Sprachsynthesemodelle wie Kokoro TTS, Supertonic-2 und CosyVoice3 ONNX
  • Dokumentenvorlese-Reader: Unterstützt das Vorlesen von PDF-, DOCX-, EPUB-, Markdown- und TXT-Dateien satzweise
  • Hörbuch-Generator: Wandelt ganze Dokumente in die Formate WAV/MP3/M4B um. Kapitelbasierte Queue-Verwaltung, Fortschrittsverfolgung und Wiederverwendung von Sprach-Presets
  • Läuft als Agentic Voice Cloning Server und unterstützt Parallelverarbeitung durch fortgeschrittene Task-Queue-Orchestrierung
  • UI, API und CLI vollständig vorhanden, wodurch lokale Automatisierung und externe Integration möglich sind; ein MCP-Server ist ebenfalls integriert
  • Dank gemeinsam genutzter Sprachbibliothek können hochgeladene Stimmen in allen Engines wiederverwendet werden
  • Integrierter Model Manager: Herunterladen von HuggingFace-Modellen und Prüfen ihres Status möglich
  • Unterstützt Multi-LLM-Integration (Claude, OpenAI, Ollama usw.)
  • Codebasis mit rund 18.600 Zeilen, bestehend aus FastAPI-Backend und Flutter-Desktop-UI
    • Python-Backend ca. 8.500 Zeilen, Dart-UI ca. 10.100 Zeilen
  • Nur für macOS verfügbare Binärdateien; Windows/Linux unterstützen derzeit nur Code-Kompatibilität (Builds folgen später)
  • Quellcode unter Business Source License 1.1 (BSL-1.1) veröffentlicht, für Binärdateien gilt eine separate Distributionslizenz

2 Kommentare

 
neocode24 2026-03-19

Ist das die GUI-Version von mlx-audio? Die Qualität ist auf jeden Fall gut.

 
jhk0530 2026-03-19

Ich habe es ausprobiert, und es ist wirklich verdammt gut.