Dia - Ein Open-Weight-TTS-Modell für realistische Dialoge

(github.com/nari-labs)

41 Punkte von GN⁺ 2025-04-22 | 13 Kommentare | Auf WhatsApp teilen

Dia ist ein 1,6B-Parameter-TTS-Modell, das auf Basis von Textdialogen hochwertige dialogische Sprache erzeugt und über Audio-Prompts Emotionen und Tonlage steuern kann
Es wurde von Nari Labs entwickelt; „Nari“ bedeutet im reinen Koreanisch „Lilie“
Mit [S1], [S2] lassen sich Sprecher festlegen, und auch nichtverbale Ausdrücke wie (laughs) oder (coughs) können erzeugt werden; einfache Voice-Cloning-Funktionen werden ebenfalls unterstützt
Es lässt sich direkt auf Hugging Face ausführen; browserbasierte Tests ohne separate Installation sowie ZeroGPU-Unterstützung sind ebenfalls verfügbar
Derzeit wird nur Englisch unterstützt, es werden mindestens 10 GB VRAM benötigt, und künftig sind unter anderem quantisierte Modelle sowie mehrsprachige Unterstützung geplant

Dia: Ein dialogorientiertes Sprachsynthese-Modell

Dia ist ein Open-Weight-TTS-Modell mit 1,6 Milliarden Parametern, entwickelt von Nari Labs
Anders als bei herkömmlichem TTS werden Stimmen nicht getrennt nach Sprecher erzeugt, sondern der gesamte Dialog wird in einem Durchgang generiert
Demo: Hugging Face Space
Code: GitHub-Repository

Hauptfunktionen

Dialogische Sprachgenerierung

Sprecher können im Text mit [S1], [S2] festgelegt werden
Auch nichtverbale Laute lassen sich als Text einfügen, etwa (laughs) oder (coughs)
Emotionen, Tonlage und Stimmstil können per Audio-Prompt vorgegeben werden

Voice Cloning

Wenn Beispielaudio und der zugehörige Dialogtext gemeinsam bereitgestellt werden, wird die Voice-Cloning-Funktion aktiviert
Übungen damit sind im Hugging Face Space nach dem Hochladen von Audio möglich
Ein ausführliches Beispiel findet sich in example/voice_clone.py

Nutzung als Bibliothek

from dia.model import Dia  
model = Dia.from_pretrained("nari-labs/Dia-1.6B")  
output = model.generate(text)

MP3-Ausgabe ist mit soundfile möglich
Ein PyPI-Paket und ein CLI-Tool sollen ebenfalls bald bereitgestellt werden

Installation und Ausführung

Schneller Start (auf Gradio-Basis)

git clone https://github.com/nari-labs/dia.git  
cd dia && uv run app.py

Oder, falls uv nicht vorhanden ist:

cd dia  
python -m venv .venv  
source .venv/bin/activate  
pip install uv  
uv run app.py

Beim Start wird der Descript Audio Codec automatisch heruntergeladen
Bei jeder Ausführung wird die Stimme zufällig generiert; für Konsistenz müssen Prompt oder Seed fixiert werden

Leistung und Hardware-Anforderungen

Testumgebung: PyTorch 2.0+, CUDA 12.6 oder höher
Empfohlener VRAM: mindestens 10 GB, eine quantisierte Version soll bald erscheinen
Auf einer A4000-GPU werden etwa 40 Token/Sekunde generiert (86 Token = ca. 1 Sekunde Sprache)
Mit torch.compile lässt sich die Geschwindigkeit verbessern

Weitere Planung und TODO

Docker-Unterstützung
Optimierung der Inferenzgeschwindigkeit
Modellquantisierung (zur besseren Speichereffizienz)
Mehrsprachige Unterstützung und Erweiterung auf mehr Sprecher werden geprüft

Lizenz und Nutzungseinschränkungen

Lizenz unter Apache 2.0
Beispiele für verbotene Nutzung:
- Erzeugung der Stimme anderer ohne Erlaubnis (Identity Misuse)
- Erzeugung von Falschinformationen (Fake News usw.)
- Illegale oder böswillige Zwecke

Community und Beiträge

Das Forschungsteam ist klein und besteht aus 1 Vollzeitkraft + 1 Teilzeitkraft
Über den Discord-Server können Feedback und Funktionsvorschläge geteilt werden
Ein Open-Source-orientiertes Projekt, das gemeinsam mit Beitragenden wachsen will

Referenzen und technische Grundlage

Sound-Modelle: inspiriert von SoundStorm, Parakeet und Descript Audio Codec
Rechenunterstützung: Google TPU Research Cloud, HuggingFace-ZeroGPU-Programm
„Nari“ bedeutet im reinen Koreanisch „Lilie“

13 Kommentare

reagea0 2025-04-24

Wow, das ist wirklich großartig. Für Sie beide war es sicher nicht leicht, sogar die Trainingsdaten zu beschaffen, daher ist das wirklich beeindruckend.

princox 2025-04-24

Der Ersteller meldet sich persönlich zu Wort~ Das sollte ich auch mal ausprobieren.

kleinstein 2025-04-22

Ich freue mich darauf, dass Koreanisch unterstützt wird!!

toebee 2025-04-22

Oh, das wollte ich gerade selbst erstellen und posten, aber Sie waren schon schneller. Vielen Dank.

winterjung 2025-04-22

Ach, das wurde also von einer Person aus Korea entwickelt! Ich habe mir die Vergleiche auf der Demoseite angehört, und die Leistung ist wirklich sehr gut. Wenn man einen Audio-Prompt bereitstellt, orientiert sich das Modell dann an dieser Stimme? Ich frage mich, ob man die als s1 und s2 getrennten Beispiele jeweils einzeln eingeben muss.

toebee 2025-04-22

Vielen Dank! Sie müssen dem Audio-Prompt kein nach [S1] und [S2] getrenntes Beispiel hinzufügen. Sie können nur [S1] einfügen, und es ist auch in Ordnung, sowohl [S1] als auch [S2] einzufügen. Sie müssen nur darauf achten, dass [S1] immer zuerst kommt.

xguru 2025-04-22

Auf Hacker News hat es viele Upvotes bekommen, daher hat GN+ es automatisch zusammengefasst. Ich habe es nur noch etwas zusätzlich geordnet.

Ich unterstütze euch!!

toebee 2025-04-22

Danke :))

toebee 2025-04-22

Das ist ein Modell, das ich erstellt habe, haha ...

kgh1379 2025-04-22

Großartig!! Ich werde es gut nutzen T_T/

toebee 2025-04-22

Danke :)) Bitte gebt dem GitHub-Repo einen Stern, hehe

kgh1379 2025-04-22

Erledigt! Ich hoffe, dass wir bald auch Nachrichten auf Koreanisch sehen!! Vielen Dank

GN⁺ 2025-04-22

Hacker-News-Kommentare

Technische Bewunderung und Lob

Obwohl es ein Projekt ist, das von nur zwei Personen in drei Monaten erstellt wurde, zeigt es eine sehr hohe Qualität
Es beeindruckt, dass ein kleines Team im Bereich Audiomodelle im Vergleich zu großen Unternehmen konkurrenzfähige Ergebnisse erzielt
Reaktionen wie „klingt wie ein echter Mensch“, „fühlt sich an, als würde man die Zukunft von TTS sehen“ und „die Beispiele sind erstaunlich“
Mehrere Nutzer bewerteten besonders die Audio-Beispiele auf Basis von Szenen aus The Office als beeindruckend

Bewertung der Sprachqualität und Eigenschaften

Die meisten Reaktionen waren positiv: „natürlich wie ein Mensch“, „guter Emotionsausdruck“, „Details wie Lachen, Husten und Rufen wirken lebendig“
Einige erwähnten auch Nachteile wie übertriebene Emotionen, einen werbeartigen Eindruck und Rauschen am Anfang
Es gab auch Meinungen, dass es an bestimmte Sprecherstile (z. B. einen NPR-Ton) oder an frühere YouTube-Flash-Animationen erinnere

Erfahrungen mit der Demo und direkte Tests

Es wurden erfolgreiche Ausführungen auf verschiedener Hardware wie einem M2 MacBook geteilt
Positiv hervorgehoben wurde, dass man es über HuggingFace Spaces sofort online ausprobieren kann
Es wurde auch Rückmeldung geteilt, dass es sich mit Docker und CUDA-Containern leicht ausführen lässt

Diskussion zur Nutzung für Hörbücher und Romane

Verschiedene Nutzer erkundeten das Potenzial für Hörbuchproduktion, getrennte Sprecher pro Figur und die Umsetzung emotional reichhaltiger Dialoge
Einige meinten jedoch auch: „Menschliche Sprecher sind trotzdem besser“ und „gute Sprecher verleihen einem Werk eine eigene Textur“
Demgegenüber gab es die Gegenposition, dass KI sogar besser sein könnte, wenn sie Emotionen und Figuren richtig interpretiert

Funktionswünsche und Fragen zur Sprachsynthese

Es kamen Wünsche und Anfragen zu folgenden Funktionen/Unterstützungen auf:
- Mehrsprachige Unterstützung (Chinesisch, Finnisch usw.)
- Unterstützung für Dialoge mit mehr als zwei Personen
- Voice Cloning (eigene Stimme)
- Wortgenaue Timing-Informationen
- Unterstützung für AMD-GPUs
- Unterstützung für Streaming-Ausgabe
Daraufhin teilte die Entwicklerseite mit, dass einzelne Funktionen in Entwicklung seien oder künftig unterstützt werden sollen

Lizenz und Open Source

Die Veröffentlichung erfolgt unter Apache 2.0, und der Entwickler erklärte selbst, dass die ursprüngliche Formulierung (auf Forschungszwecke beschränkt) eigentlich bedeuten sollte: „macht keinen shady stuff“
Einige Nutzer wiesen darauf hin, dass dies klarer formuliert werden sollte, um Verwirrung zu vermeiden

Fragen zu Trainingsdaten und Trainingsprozess

Viele Nutzer fragten: „Woher stammt das Dataset?“ und „Wie wurde es trainiert?“
Die Entwicklerseite antwortete, dass im technischen Report eine Übersicht auf hoher Ebene bereitgestellt werden solle

Kontroverse um den Namen

Es wurde auf Namenskonflikte mit dem Diagramm-Tool Dia von GNOME und diabrowser.com hingewiesen
Es gab auch Kritik, dass „KI-Projekte absichtlich bestehende Open-Source-Namen übernehmen“
Darauf antwortete die Entwicklerseite: „Wir wussten es nicht und werden es künftig klarer abgrenzen“

Feedback zu Nutzbarkeit und Verbesserungen

Es gab die Meinung, dass die Demo-Seite auf Notion-Basis langsam sei und das Teilen von Links unpraktisch mache → vorgeschlagen wurde eine leichtgewichtige Seite wie GitHub Pages
Es wurden Verbesserungen am README vorgeschlagen, etwa die missverständliche Formulierung „join waitlist“ oder die unnötige Erwähnung von venv
Außerdem gab es Konfigurationsfeedback, etwa zum Problem, dass das Modell ohne Server-Cache jedes Mal neu heruntergeladen wird

Entwicklung, Anwendungen und Integrationsfälle

Vergleiche mit anderen TTS-Modellen wie E5-F2 und Sesame-TTS
Einige Nutzer betonten die Genauigkeit in bestimmten Domänen wie medizinischer Terminologie
Es wurden Codec-Informationen für die Ausführung auf iOS angefragt und mögliche Anwendungen angesprochen
Für den Einsatz in echten Services wurden Faktoren wie Streaming und die Geschwindigkeit der ersten Antwort genannt

Sonstiges

Es wurden Hinweise und Korrekturen zu fehlerhaften HuggingFace-Links oder Zugriffsproblemen geteilt
Kleine Zusatzfunktionen wie die Bookmark-Funktion in der Demo-Oberfläche wurden entdeckt
Auch die Hardware-Beschränkungen der Nutzer sowie allgemeine Erwartungen und Bedenken zur Nutzung von TTS wurden erwähnt

Dia - Ein Open-Weight-TTS-Modell für realistische Dialoge

Dia: Ein dialogorientiertes Sprachsynthese-Modell

Hauptfunktionen

Dialogische Sprachgenerierung

Voice Cloning

Nutzung als Bibliothek

Installation und Ausführung

Schneller Start (auf Gradio-Basis)

Leistung und Hardware-Anforderungen

Weitere Planung und TODO

Lizenz und Nutzungseinschränkungen

Community und Beiträge

Referenzen und technische Grundlage

Verwandte Beiträge

13 Kommentare

Hacker-News-Kommentare

Technische Bewunderung und Lob

Bewertung der Sprachqualität und Eigenschaften

Erfahrungen mit der Demo und direkte Tests

Diskussion zur Nutzung für Hörbücher und Romane

Funktionswünsche und Fragen zur Sprachsynthese

Lizenz und Open Source

Fragen zu Trainingsdaten und Trainingsprozess

Kontroverse um den Namen

Feedback zu Nutzbarkeit und Verbesserungen

Entwicklung, Anwendungen und Integrationsfälle

Sonstiges