41 Punkte von GN⁺ 2025-04-22 | 13 Kommentare | Auf WhatsApp teilen
  • Dia ist ein 1,6B-Parameter-TTS-Modell, das auf Basis von Textdialogen hochwertige dialogische Sprache erzeugt und über Audio-Prompts Emotionen und Tonlage steuern kann
  • Es wurde von Nari Labs entwickelt; „Nari“ bedeutet im reinen Koreanisch „Lilie
  • Mit [S1], [S2] lassen sich Sprecher festlegen, und auch nichtverbale Ausdrücke wie (laughs) oder (coughs) können erzeugt werden; einfache Voice-Cloning-Funktionen werden ebenfalls unterstützt
  • Es lässt sich direkt auf Hugging Face ausführen; browserbasierte Tests ohne separate Installation sowie ZeroGPU-Unterstützung sind ebenfalls verfügbar
  • Derzeit wird nur Englisch unterstützt, es werden mindestens 10 GB VRAM benötigt, und künftig sind unter anderem quantisierte Modelle sowie mehrsprachige Unterstützung geplant

Dia: Ein dialogorientiertes Sprachsynthese-Modell

  • Dia ist ein Open-Weight-TTS-Modell mit 1,6 Milliarden Parametern, entwickelt von Nari Labs
  • Anders als bei herkömmlichem TTS werden Stimmen nicht getrennt nach Sprecher erzeugt, sondern der gesamte Dialog wird in einem Durchgang generiert
  • Demo: Hugging Face Space
  • Code: GitHub-Repository

Hauptfunktionen

Dialogische Sprachgenerierung

  • Sprecher können im Text mit [S1], [S2] festgelegt werden
  • Auch nichtverbale Laute lassen sich als Text einfügen, etwa (laughs) oder (coughs)
  • Emotionen, Tonlage und Stimmstil können per Audio-Prompt vorgegeben werden

Voice Cloning

  • Wenn Beispielaudio und der zugehörige Dialogtext gemeinsam bereitgestellt werden, wird die Voice-Cloning-Funktion aktiviert
  • Übungen damit sind im Hugging Face Space nach dem Hochladen von Audio möglich
  • Ein ausführliches Beispiel findet sich in example/voice_clone.py

Nutzung als Bibliothek

from dia.model import Dia  
model = Dia.from_pretrained("nari-labs/Dia-1.6B")  
output = model.generate(text)  
  • MP3-Ausgabe ist mit soundfile möglich
  • Ein PyPI-Paket und ein CLI-Tool sollen ebenfalls bald bereitgestellt werden

Installation und Ausführung

Schneller Start (auf Gradio-Basis)

git clone https://github.com/nari-labs/dia.git  
cd dia && uv run app.py  

Oder, falls uv nicht vorhanden ist:

cd dia  
python -m venv .venv  
source .venv/bin/activate  
pip install uv  
uv run app.py  
  • Beim Start wird der Descript Audio Codec automatisch heruntergeladen
  • Bei jeder Ausführung wird die Stimme zufällig generiert; für Konsistenz müssen Prompt oder Seed fixiert werden

Leistung und Hardware-Anforderungen

  • Testumgebung: PyTorch 2.0+, CUDA 12.6 oder höher
  • Empfohlener VRAM: mindestens 10 GB, eine quantisierte Version soll bald erscheinen
  • Auf einer A4000-GPU werden etwa 40 Token/Sekunde generiert (86 Token = ca. 1 Sekunde Sprache)
  • Mit torch.compile lässt sich die Geschwindigkeit verbessern

Weitere Planung und TODO

  • Docker-Unterstützung
  • Optimierung der Inferenzgeschwindigkeit
  • Modellquantisierung (zur besseren Speichereffizienz)
  • Mehrsprachige Unterstützung und Erweiterung auf mehr Sprecher werden geprüft

Lizenz und Nutzungseinschränkungen

  • Lizenz unter Apache 2.0
  • Beispiele für verbotene Nutzung:
    • Erzeugung der Stimme anderer ohne Erlaubnis (Identity Misuse)
    • Erzeugung von Falschinformationen (Fake News usw.)
    • Illegale oder böswillige Zwecke

Community und Beiträge

  • Das Forschungsteam ist klein und besteht aus 1 Vollzeitkraft + 1 Teilzeitkraft
  • Über den Discord-Server können Feedback und Funktionsvorschläge geteilt werden
  • Ein Open-Source-orientiertes Projekt, das gemeinsam mit Beitragenden wachsen will

Referenzen und technische Grundlage

  • Sound-Modelle: inspiriert von SoundStorm, Parakeet und Descript Audio Codec
  • Rechenunterstützung: Google TPU Research Cloud, HuggingFace-ZeroGPU-Programm
  • „Nari“ bedeutet im reinen Koreanisch „Lilie“

13 Kommentare

 
reagea0 2025-04-24

Wow, das ist wirklich großartig. Für Sie beide war es sicher nicht leicht, sogar die Trainingsdaten zu beschaffen, daher ist das wirklich beeindruckend.

 
princox 2025-04-24

Der Ersteller meldet sich persönlich zu Wort~ Das sollte ich auch mal ausprobieren.

 
kleinstein 2025-04-22

Ich freue mich darauf, dass Koreanisch unterstützt wird!!

 
toebee 2025-04-22

Oh, das wollte ich gerade selbst erstellen und posten, aber Sie waren schon schneller. Vielen Dank.

 
winterjung 2025-04-22

Ach, das wurde also von einer Person aus Korea entwickelt! Ich habe mir die Vergleiche auf der Demoseite angehört, und die Leistung ist wirklich sehr gut. Wenn man einen Audio-Prompt bereitstellt, orientiert sich das Modell dann an dieser Stimme? Ich frage mich, ob man die als s1 und s2 getrennten Beispiele jeweils einzeln eingeben muss.

 
toebee 2025-04-22

Vielen Dank! Sie müssen dem Audio-Prompt kein nach [S1] und [S2] getrenntes Beispiel hinzufügen. Sie können nur [S1] einfügen, und es ist auch in Ordnung, sowohl [S1] als auch [S2] einzufügen. Sie müssen nur darauf achten, dass [S1] immer zuerst kommt.

 
xguru 2025-04-22

Auf Hacker News hat es viele Upvotes bekommen, daher hat GN+ es automatisch zusammengefasst. Ich habe es nur noch etwas zusätzlich geordnet.

Ich unterstütze euch!!

 
toebee 2025-04-22

Danke :))

 
toebee 2025-04-22

Das ist ein Modell, das ich erstellt habe, haha ...

 
kgh1379 2025-04-22

Großartig!! Ich werde es gut nutzen T_T/

 
toebee 2025-04-22

Danke :)) Bitte gebt dem GitHub-Repo einen Stern, hehe

 
kgh1379 2025-04-22

Erledigt! Ich hoffe, dass wir bald auch Nachrichten auf Koreanisch sehen!! Vielen Dank

 
GN⁺ 2025-04-22
Hacker-News-Kommentare

Technische Bewunderung und Lob

  • Obwohl es ein Projekt ist, das von nur zwei Personen in drei Monaten erstellt wurde, zeigt es eine sehr hohe Qualität
  • Es beeindruckt, dass ein kleines Team im Bereich Audiomodelle im Vergleich zu großen Unternehmen konkurrenzfähige Ergebnisse erzielt
  • Reaktionen wie „klingt wie ein echter Mensch“, „fühlt sich an, als würde man die Zukunft von TTS sehen“ und „die Beispiele sind erstaunlich“
  • Mehrere Nutzer bewerteten besonders die Audio-Beispiele auf Basis von Szenen aus The Office als beeindruckend

Bewertung der Sprachqualität und Eigenschaften

  • Die meisten Reaktionen waren positiv: „natürlich wie ein Mensch“, „guter Emotionsausdruck“, „Details wie Lachen, Husten und Rufen wirken lebendig“
  • Einige erwähnten auch Nachteile wie übertriebene Emotionen, einen werbeartigen Eindruck und Rauschen am Anfang
  • Es gab auch Meinungen, dass es an bestimmte Sprecherstile (z. B. einen NPR-Ton) oder an frühere YouTube-Flash-Animationen erinnere

Erfahrungen mit der Demo und direkte Tests

  • Es wurden erfolgreiche Ausführungen auf verschiedener Hardware wie einem M2 MacBook geteilt
  • Positiv hervorgehoben wurde, dass man es über HuggingFace Spaces sofort online ausprobieren kann
  • Es wurde auch Rückmeldung geteilt, dass es sich mit Docker und CUDA-Containern leicht ausführen lässt

Diskussion zur Nutzung für Hörbücher und Romane

  • Verschiedene Nutzer erkundeten das Potenzial für Hörbuchproduktion, getrennte Sprecher pro Figur und die Umsetzung emotional reichhaltiger Dialoge
  • Einige meinten jedoch auch: „Menschliche Sprecher sind trotzdem besser“ und „gute Sprecher verleihen einem Werk eine eigene Textur“
  • Demgegenüber gab es die Gegenposition, dass KI sogar besser sein könnte, wenn sie Emotionen und Figuren richtig interpretiert

Funktionswünsche und Fragen zur Sprachsynthese

  • Es kamen Wünsche und Anfragen zu folgenden Funktionen/Unterstützungen auf:
    • Mehrsprachige Unterstützung (Chinesisch, Finnisch usw.)
    • Unterstützung für Dialoge mit mehr als zwei Personen
    • Voice Cloning (eigene Stimme)
    • Wortgenaue Timing-Informationen
    • Unterstützung für AMD-GPUs
    • Unterstützung für Streaming-Ausgabe
  • Daraufhin teilte die Entwicklerseite mit, dass einzelne Funktionen in Entwicklung seien oder künftig unterstützt werden sollen

Lizenz und Open Source

  • Die Veröffentlichung erfolgt unter Apache 2.0, und der Entwickler erklärte selbst, dass die ursprüngliche Formulierung (auf Forschungszwecke beschränkt) eigentlich bedeuten sollte: „macht keinen shady stuff“
  • Einige Nutzer wiesen darauf hin, dass dies klarer formuliert werden sollte, um Verwirrung zu vermeiden

Fragen zu Trainingsdaten und Trainingsprozess

  • Viele Nutzer fragten: „Woher stammt das Dataset?“ und „Wie wurde es trainiert?“
  • Die Entwicklerseite antwortete, dass im technischen Report eine Übersicht auf hoher Ebene bereitgestellt werden solle

Kontroverse um den Namen

  • Es wurde auf Namenskonflikte mit dem Diagramm-Tool Dia von GNOME und diabrowser.com hingewiesen
  • Es gab auch Kritik, dass „KI-Projekte absichtlich bestehende Open-Source-Namen übernehmen“
  • Darauf antwortete die Entwicklerseite: „Wir wussten es nicht und werden es künftig klarer abgrenzen“

Feedback zu Nutzbarkeit und Verbesserungen

  • Es gab die Meinung, dass die Demo-Seite auf Notion-Basis langsam sei und das Teilen von Links unpraktisch mache → vorgeschlagen wurde eine leichtgewichtige Seite wie GitHub Pages
  • Es wurden Verbesserungen am README vorgeschlagen, etwa die missverständliche Formulierung „join waitlist“ oder die unnötige Erwähnung von venv
  • Außerdem gab es Konfigurationsfeedback, etwa zum Problem, dass das Modell ohne Server-Cache jedes Mal neu heruntergeladen wird

Entwicklung, Anwendungen und Integrationsfälle

  • Vergleiche mit anderen TTS-Modellen wie E5-F2 und Sesame-TTS
  • Einige Nutzer betonten die Genauigkeit in bestimmten Domänen wie medizinischer Terminologie
  • Es wurden Codec-Informationen für die Ausführung auf iOS angefragt und mögliche Anwendungen angesprochen
  • Für den Einsatz in echten Services wurden Faktoren wie Streaming und die Geschwindigkeit der ersten Antwort genannt

Sonstiges

  • Es wurden Hinweise und Korrekturen zu fehlerhaften HuggingFace-Links oder Zugriffsproblemen geteilt
  • Kleine Zusatzfunktionen wie die Bookmark-Funktion in der Demo-Oberfläche wurden entdeckt
  • Auch die Hardware-Beschränkungen der Nutzer sowie allgemeine Erwartungen und Bedenken zur Nutzung von TTS wurden erwähnt