21 Punkte von GN⁺ 2025-08-07 | 2 Kommentare | Auf WhatsApp teilen
  • Kitten TTS ist ein Open-Source-TTS-Modell (Text-to-Speech), das gleichzeitig auf Leichtgewichtigkeit und hohe Audioqualität abzielt
  • Es verwendet nur 15 Millionen Parameter und bleibt damit unter 25 MB Modellgröße
    • Im Gegensatz zu anderen großen TTS-Modellen ist dies ein wesentliches Merkmal, da es in jeder Umgebung ausgeführt werden kann, etwa auf Mobilgeräten oder eingebetteten Systemen
  • Auch ohne GPU ist hochwertige Sprachsynthese auf allen Geräten möglich
  • Es bietet verschiedene Premium-Stimmen und unterstützt eine hochwertige Sprachsynthese, die echter Sprache sehr nahekommt
  • Dank schneller Inferenz ist es für Echtzeit-Synthese optimiert
  • Ein Developer-Preview-Modell ist bereits veröffentlicht; die vollständigen trainierten Modellgewichte, ein mobiles SDK, eine Web-Version und weitere Komponenten sollen künftig schrittweise veröffentlicht werden

2 Kommentare

 
hybridego 2025-08-07

Es wäre schön, wenn es auch ein koreanisches Modell gäbe..

 
GN⁺ 2025-08-07
Hacker-News-Kommentare
  • Auf Ubuntu 24 wurde ein einfacher Benchmark mit einem Razer Blade 16 und Intel Core i9-14900HX durchgeführt
    Die anfängliche Latenz liegt bei kurzem Text bei etwa 315 ms, und die Sprachgenerierung erreicht je nach Textlänge das 3,35- bis 5,5-Fache der Echtzeitgeschwindigkeit
    Das Modell wird in etwa 710 ms geladen
    Auch bei vier verschiedenen Stimmen gibt es kaum Leistungsunterschiede, und es hält ungefähr das 5-Fache der Echtzeitgeschwindigkeit

    • Auf meiner Intel Celeron N4020 CPU (1,10 GHz) dauert das Laden 6 Sekunden, und die Geschwindigkeit liegt unabhängig von der Textlänge fast in Echtzeit

    • Danke für den Benchmark
      Das Modell ist derzeit noch nicht optimiert
      Wenn das Produktions-SDK veröffentlicht wird, wollen wir auch das Laden und Ähnliches optimieren

  • Auf Reddit gibt es von KittenTTS erzeugte Audiobeispiele
    Reddit-Audiobeispiel

    • Es gibt auch ein kurzes Video mit allen verschiedenen Stimmen
      YouTube-Video

    • Das Reddit-Video ist wirklich großartig
      Es ist erstaunlich, dass bei weniger als 25 MB und nur mit CPU diese Qualität herauskommt
      Ich verstehe nicht, warum Leute es als „nur so lala“ bewerten

    • Der Klang ist sehr sauber und klar
      Selbst für mich als Nicht-Muttersprachler im Englischen ist es leicht zu verstehen

    • Es klingt etwas langsam und so, als käme die Stimme aus einer Animation

    • Wurde das vielleicht mit Stimmen von Futurama-Charakteren quertrainiert?

  • Ich hoffe, dass solche Modelle die Zukunft sind
    Eine Zeit, in der offline arbeitende, kleine ML-Modelle Inferenz auf günstiger, überall verfügbarer Hardware ausführen
    Sie lassen sich leicht in andere Geräte oder Apps integrieren und sogar auf anderen Modellen betreiben

    • Genau das ist die Vision, die Apple mit SLMs (Small Language Models) zeichnet
      Wenn es ein Modell gibt, das nur Kalenderereignisse verwaltet, muss es nicht das Wissen der gesamten Menschheit enthalten
      Es kann sich einfach auf das konzentrieren, was für die Kalenderverwaltung nötig ist

    • Wenn man Modelle auf dedizierter Hardware mit nur einem Zweck betreibt, wird die Energieeffizienz sehr hoch
      Man kann neuronale Netze sogar nur mit Widerständen betreiben (ohne Transistoren)
      Natürlich ist solche Hardware nicht allgemein einsetzbar, und Modell-Upgrades sind schwierig
      Aber für viele Anwendungsfälle reicht das völlig aus

    • Ich frage mich, was erfolgreicher sein wird: Modelle, die man einmal kauft und dann für alles nutzen kann, oder Modelle, die an ein Abo gebunden sind und Hardware brauchen, die sich nur die reichsten Mega-Konzerne leisten können

    • Eigentlich ist genau das das Ziel, das wir erreichen wollen

    • Genau das ist auch unsere Vision

  • Die Größe von 25 MB ist beeindruckend, aber der eigentliche Innovationspunkt ist, dass KittenTTS unter der Apache-2.0-Lizenz veröffentlicht wurde
    Diese Kombination macht es möglich, eine vollständig offline laufende Sprach-Engine direkt in Hardware auf Pi-Zero-Niveau oder batteriebetriebenes Spielzeug einzubauen
    Keine GPU, keine Cloud-Aufrufe, keine Sorgen wegen restriktiver Lizenzen
    Dadurch werden Hardware- oder Lizenzprobleme auf einmal zu einem „Packaging-Problem“
    Qualitätsverbesserungen sind eine spätere Frage; der eigentliche Gamechanger ist, dass Verteilung in dieser Klasse überhaupt möglich wird

    • Auch wir freuen uns sehr darauf, künftig hochwertige ultrakleine AI-Modelle zu bauen
      Wir halten lokale Sprachschnittstellen für unvermeidlich und wollen in Zukunft ein Kernakteur in diesem Bereich sein
      Dieses Modell ist eine Vorschau, und etwa nächste Woche werden wir zusätzlich eine deutlich ausgereiftere Version veröffentlichen
      Außerdem planen wir die Veröffentlichung eines etwa 80M großen Modells

    • Du hast erwähnt, dass KittenTTS unter Apache-2.0 steht
      Wenn man sich aber den Quellcode auf GitHub ansieht, wird ein Phonemizer verwendet
      Phonemizer steht unter der GPL-3.0-Lizenz
      Daher ist es derzeit faktisch GPL
      (Anmerkung: In dem Kommentar wird außerdem ergänzt, dass dieser wie von einem LLM geschrieben wirke)

    • Das festvox-kallpc16k-Modell von Festival ist etwa 6 MB groß, festvox-kallpc8k etwa 3,5 MB
      Die mehrsprachigen Daten von eSpeak NG liegen bei ungefähr 12 MB
      Dieses Modell dürfte zwar natürlichere Sprache erzeugen
      Aber auch ältere oder schwache Computer konnten schon früher ziemlich gutes TTS umsetzen

    • Wenn KittenTTS Apache-2.0 ist, frage ich mich, wie es mit den Trainingsdaten aussieht
      Selbst wenn das Modell Trainingsbeispiele so genau reproduzieren könnte, dass die Ausgaben praktisch identisch sind
      kann man dann rechtlich sicher sein, dass es kein vollständig abgeleitetes Werk ist?

    • Es ist wegen der Abhängigkeit von espeak-ng GPLv3

  • Es gibt eine Webversion
    Direkt zur Demo
    Der Klang ist ganz ordentlich, und gemessen an der Größe ist es ziemlich beeindruckend

    • Ist es nicht witzig, dass man in SF-Filmen Roboterstimmen absichtlich seltsam verfremdet, damit sie „wirklich robotisch“ klingen?
      Eine klar nichtmenschliche Roboterstimme kann in vielen Umgebungen tatsächlich attraktiver und wünschenswerter sein
      Ein smarter Toaster muss zum Beispiel nicht wie ein BBC-Nachrichtensprecher reden
      Es reicht, wenn die Aussprache gut verständlich ist

    • Ich habe es den Demotext vorlesen lassen, aber es klang nicht so gut wie die Samples
      Für alle, die es ausprobieren wollen, hier der Beispieltext

      Kitten TTS is an open-source series of tiny and expressive text-to-speech models for on-device applications. Our smallest model is less than 25 megabytes.

    • Als ich die Demo mit 6 Sätzen ausprobiert habe, trat ein Fehler auf
      Als ich auf 3 Sätze reduziert habe, funktionierte sie gut
      Ich frage mich, ob die Textlängenbegrenzung am Modell liegt oder nur eine Einschränkung der Demo ist

    • Bei mir funktioniert es überhaupt nicht
      Im Backend-Modul tritt ein 404-Fehler auf
      Beispiellink für den 404-Fehler

    • Genau nach diesem Link habe ich gesucht
      Die Reddit-Demo ist ganz okay und wirkt auf mich wie ein Stand von vor ein paar Jahren
      Aber als ich es selbst ausprobiert habe, waren alle Samples fast unverständlich

  • Ich musste lachen über die Systemanforderung „läuft praktisch überall“
    Auf manchen Maschinen ist die Python-Version zu alt
    auf anderen wiederum zu neu, sodass sich das Paket wegen Abhängigkeitsproblemen nicht installieren lässt

    • Um dieses Problem zu lösen, habe ich ein paar PRs eingereicht
      PR 21, PR 24, PR 25
      Wenn uv installiert ist, kann man auf dem von mir zusammengeführten Referenz-Branch

      uvx --from git+https://github.com/akx/KittenTTS.git@pr-21-22-24-25 kittentts --output output.wav --text "This high quality TTS model works without a GPU"
      

      das so ausführen

    • Wenn man über uvx installiert, lassen sich die meisten Probleme mit der Python-Umgebung lösen
      Installationsanleitung für uv

    • Wenn man sich für Python entscheidet, löst man ein Problem und schafft gleichzeitig Dutzende neue

    • Unter Fedora funktioniert es nicht, weil keine passende Version von g++ vorhanden ist

    • Python ist die Ursache

  • Nachdem ich es selbst benutzt habe, sind Modellgröße und Geschwindigkeit ziemlich ordentlich
    Allerdings braucht die Installation sehr viele Bibliotheken und zusätzliche Komponenten
    sodass man letztlich weit von 25 MB entfernt ist
    Trotzdem ist es ein tolles Projekt

    • Guter Hinweis zu den Abhängigkeitsproblemen
      Um Installation und Nutzung zu vereinfachen und zusätzlich die von den Leuten gewünschte GPU-Unterstützung und Verarbeitung längerer Texte anzubieten, habe ich einen selbst gehosteten Server für dieses Modell gebaut
      Kitten-TTS-Server
      Er läuft direkt in einer normalen Python-venv-Umgebung, ohne dass man sich über Konflikte Sorgen machen muss
      git clone, pip install, python server.py – mehr ist nicht nötig

    • Da ONNX erwähnt wird, vermute ich, dass es bereits ein ONNX-Modell gibt oder bald hinzugefügt wird
      Die ONNX Runtime ist eine einzelne Bibliothek und ist in C# auf etwa 115 MB komprimiert
      Das ist nicht extrem klein, aber der tatsächlich zum Ausführen nötige Code besteht nur aus ein paar Zeilen, daher gibt es auch nur wenige Abhängigkeiten

    • Wenn man mehrere Bibliotheken auf einmal einbindet, hilft das bei schneller Entwicklung und Iteration
      Später, wenn sich die Funktionen stabilisiert haben, räumt man unnötige Bibliotheken wieder auf

  • Wichtiger als die Modellgröße in MB sind CPU-Betrieb und Qualität, und meine einzige Sorge ist die Latenz
    Ich frage mich, ob ein Modell für Speech-to-Text offline ohne zusätzliches Training möglich ist
    Wenn die Zeit kommt, in der Gespräche mit AI in natürlicher Geschwindigkeit möglich sind, fast wie zwischen Menschen, wäre das wirklich beeindruckend

    • Das parakeet-Modell von Nvidia ist beim Englischen aktuell führend
      Es ist 10-mal schneller als Whisper und läuft auf meiner mittelklassigen AMD-CPU deutlich schneller als in Echtzeit

    • Mit Whisper ist Offline-Spracherkennung möglich
      Manche Apps unterstützen vollständig offline Diktat oder Transkription

    • Beim Beispieltext „The brown fox jumps over the lazy dog..“
      beträgt die durchschnittliche Generierungszeit 1,28 Sekunden bei etwa 30,35 Zeichen pro Sekunde
      auf einem AMD Ryzen 7 5800H

    • Als Offline-Spracherkennungsmodell ist Whisper von OpenAI besonders bekannt
      Offizielles Whisper-Repository

    • Kennt jemand Faktoren, die die Latenz von TTS-Modellen beeinflussen?

  • Ziemlich beeindruckend
    In bestimmten Bereichen, zum Beispiel im Embedded-Bereich, gibt es dafür definitiv Einsatzmöglichkeiten
    Allerdings scheint die Qualität nicht perfekt genug zu sein, um große Modelle zu ersetzen
    Als qualitativ hochwertigste offline nutzbare Open-TTS-Modelle sehe ich fish-speech und f5-tts
    F5-TTS lief bei mir ordentlich auf einer älteren NVidia 1660 (6 GB VRAM)
    Mit aktueller Hardware kann man ohne große Kosten höhere Qualität, Mehrsprachigkeit und sogar Zero-Shot nutzen
    Unter Android ist SherpaTTS bei der Kompatibilität gut

    • Dieses Modell ist eine Vorschauversion, und wir wollen die Qualität künftig deutlich verbessern

    • Fish Speech hat Gewichte, die nicht kommerziell nutzbar sind
      Mich würden die VRAM-Anforderungen interessieren, aber KittenTTS hat 15 Millionen Parameter und könnte daher sogar auf stromsparenden Computern für unter 100 US-Dollar laufen
      Die von dir erwähnte 6-GB-GPU ist bereits alt

  • Die Qualität ist nicht so beeindruckend wie erwartet
    Das Ziel ist natürliche Sprache
    Auch piper oder kokoro finde ich nicht zufriedenstellend, und XTTS war etwas umständlich zu installieren
    Bei Speech-to-Text ist Whisper wirklich hervorragend
    Ich vermisse gutes TTS
    Hohe GPU-Nutzung wäre für mich in Ordnung, wenn die Qualität stimmt
    Zur Einordnung: Dieses Modell ist derzeit schlechter als kokoro

    • Meiner Meinung nach liefert chatterbox aktuell die beste Qualität unter den Open-Weights-SOTA-Modellen

    • Das beste Open-Source-TTS, das ich gesehen habe, ist Dia
      Es hat zwar einige Einschränkungen, läuft aber auch auf einem Notebook gut

    • Pinokio ist ebenfalls einen Versuch wert

    • Auch Chatterbox ist einen Versuch wert

    • Wenn reichlich GPU-Ressourcen vorhanden sind, muss man hier die Qualität nicht übermäßig streng bewerten
      Der entscheidende Punkt ist, dass dieses Modell auch ohne GPU läuft
      Früher, noch vor Tacotron2, habe ich kleine TTS-Modelle und Vocoder wie GlowTTS und MelGAN günstig in der DigitalOcean-Cloud betrieben
      Danach ging der Trend immer mehr zu größeren Modellen
      Aber ich glaube, dass wir wieder in eine Zeit kommen, in der kleine Modelle direkt in Geräte eingebaut werden
      In Raspberry Pis, Spielzeug und allerlei kleine Geräte ohne Netzwerkverbindung
      Edge AI wird für Roboter, Spielzeug, Consumer-Geräte und Spiele enorme Expansion bringen