MimikaStudio – Open-Source-Sprachklonung und TTS für den Mac

xguru · 2026-03-19T09:31:02+09:00

Integrierte Funktionen für Sprachklonung, Text-to-Speech, Dokumentenvorlesen und Hörbucherstellung Native Leistung unter macOS durch MLX-basierte Metal-Beschleunigung (Windows-Unterstützung geplant) Integration der Engines Qwen3-TTS und Chatterbox, die Sprachklonung mit 3-Sekunden-Samples ermöglichen Unterstützung für mehrsprachige Sprachklonung (23 Sprachen, darunter Koreanisch) und emotionale Ausdrucksweise Enthält aktuelle Sprachsynthesemodelle wie Kokoro TTS, Supertonic-2 und CosyVoice3 ONNX Dokumentenvorlese-Reader: Unterstützt das Vorlesen von PDF-, DOCX-, EPUB-, Markdown- und TXT-Dateien satzweise Hörbuch-Generator: Wandelt ganze Dokumente in die Formate WAV/MP3/M4B um. Kapitelbasierte Queue-Verwaltung, Fortschrittsverfolgung und Wiederverwendung von Sprach-Presets Läuft als Agentic Voice Cloning Server und unterstützt Parallelverarbeitung durch fortgeschrittene Task-Queue-Orchestrierung UI, API und CLI vollständig vorhanden, wodurch lokale Automatisierung und externe Integration möglich sind; ein MCP-Server ist ebenfalls integriert Dank gemeinsam genutzter Sprachbibliothek können hochgeladene Stimmen in allen Engines wiederverwendet werden Integrierter Model Manager: Herunterladen von HuggingFace-Modellen und Prüfen ihres Status möglich Unterstützt Multi-LLM-Integration (Claude, OpenAI, Ollama usw.) Codebasis mit rund 18.600 Zeilen, bestehend aus FastAPI-Backend und Flutter-Desktop-UI Python-Backend ca. 8.500 Zeilen, Dart-UI ca. 10.100 Zeilen Nur für macOS verfügbare Binärdateien; Windows/Linux unterstützen derzeit nur Code-Kompatibilität (Builds folgen später) Quellcode unter Business Source License 1.1 (BSL-1.1) veröffentlicht, für Binärdateien gilt eine separate Distributionslizenz

Integrierte Funktionen für Sprachklonung, Text-to-Speech, Dokumentenvorlesen und Hörbucherstellung
Native Leistung unter macOS durch MLX-basierte Metal-Beschleunigung (Windows-Unterstützung geplant)
Integration der Engines Qwen3-TTS und Chatterbox, die Sprachklonung mit 3-Sekunden-Samples ermöglichen
- Unterstützung für mehrsprachige Sprachklonung (23 Sprachen, darunter Koreanisch) und emotionale Ausdrucksweise
Enthält aktuelle Sprachsynthesemodelle wie Kokoro TTS, Supertonic-2 und CosyVoice3 ONNX
Dokumentenvorlese-Reader: Unterstützt das Vorlesen von PDF-, DOCX-, EPUB-, Markdown- und TXT-Dateien satzweise
Hörbuch-Generator: Wandelt ganze Dokumente in die Formate WAV/MP3/M4B um. Kapitelbasierte Queue-Verwaltung, Fortschrittsverfolgung und Wiederverwendung von Sprach-Presets
Läuft als Agentic Voice Cloning Server und unterstützt Parallelverarbeitung durch fortgeschrittene Task-Queue-Orchestrierung
UI, API und CLI vollständig vorhanden, wodurch lokale Automatisierung und externe Integration möglich sind; ein MCP-Server ist ebenfalls integriert
Dank gemeinsam genutzter Sprachbibliothek können hochgeladene Stimmen in allen Engines wiederverwendet werden
Integrierter Model Manager: Herunterladen von HuggingFace-Modellen und Prüfen ihres Status möglich
Unterstützt Multi-LLM-Integration (Claude, OpenAI, Ollama usw.)
Codebasis mit rund 18.600 Zeilen, bestehend aus FastAPI-Backend und Flutter-Desktop-UI
- Python-Backend ca. 8.500 Zeilen, Dart-UI ca. 10.100 Zeilen
Nur für macOS verfügbare Binärdateien; Windows/Linux unterstützen derzeit nur Code-Kompatibilität (Builds folgen später)
Quellcode unter Business Source License 1.1 (BSL-1.1) veröffentlicht, für Binärdateien gilt eine separate Distributionslizenz

MimikaStudio – Open-Source-Sprachklonung und TTS für den Mac

Verwandte Beiträge

2 Kommentare