1 Punkte von GN⁺ 12 일 전 | 1 Kommentare | Auf WhatsApp teilen
  • Besteht aus einer Sprach-KI-Modellfamilie mit TTS und ASR und deckt sowohl die Erzeugung als auch die Erkennung langer Sprachsequenzen ab
  • Die Kernarchitektur kombiniert einen kontinuierlichen Sprach-Tokenizer mit 7,5 Hz und extrem niedriger Framerate mit next-token diffusion, um bei langen Sequenzen sowohl Audioqualität als auch Recheneffizienz zu erreichen
  • Für das Verständnis von Textkontext und Gesprächsverlauf wird ein LLM verwendet; für die hochpräzise Erzeugung akustischer Details kommt eine Diffusion-Head-Struktur hinzu
  • VibeVoice-ASR verarbeitet bis zu 60 Minuten Audio in einem einzigen Durchlauf und erzeugt strukturierte Transkriptionen mit Sprecherinformationen, Zeitstempeln und Äußerungsinhalten
  • Das ASR-Modell unterstützt mehr als 50 Sprachen und kann benutzerdefinierte Hotwords oder Kontextinformationen aufnehmen, um die domänenspezifische Erkennungsgenauigkeit zu verbessern
  • Für ASR sind Finetuning-Code und vLLM-Inferenzunterstützung veröffentlicht; außerdem lässt es sich direkt mit der Hugging Face Transformers-Bibliothek verwenden
  • VibeVoice-TTS synthetisiert Sprachsequenzen mit einer Länge von bis zu 90 Minuten in einem einzigen Durchlauf und unterstützt bis zu 4 Sprecher innerhalb eines Gesprächs
  • TTS legt den Schwerpunkt auf ausdrucksstarke dialogorientierte Sprache und Sprecherkonsistenz und unterstützt Englisch, Chinesisch und weitere Sprachen
  • Laut Hinweis im Repository wurde der VibeVoice-TTS-Code entfernt; es wird ausdrücklich angegeben, dass nach der Veröffentlichung Nutzungen festgestellt wurden, die nicht der erklärten Absicht entsprachen, weshalb er aus dem Repository gelöscht wurde
  • VibeVoice-Realtime-0.5B ist ein Echtzeit-TTS-Modell mit 0,5B Parametern und unterstützt Streaming-Texteingaben, eine erste hörbare Latenz von etwa 300 ms sowie die Erzeugung langer Sprachsequenzen von rund 10 Minuten
  • Dem Realtime-Modell wurden mehrsprachige experimentelle Stimmen für 9 Sprachen sowie 11 englische Stil-Stimmen hinzugefügt; laut Beschreibung sollen weitere Sprechertypen folgen
  • Die Bereitstellung erfolgt vor allem über Hugging Face-Gewichte, Playground und Colab, wodurch sich das Modell schnell ausprobieren lässt
  • Dieses Repository ist ausschließlich für Forschungs- und Entwicklungszwecke vorgesehen; der Einsatz in kommerziellen oder produktiven Umgebungen ohne zusätzliche Tests und Entwicklung wird nicht empfohlen
  • Die Modelle können Biases und Fehler des Basismodells Qwen2.5 1.5b übernehmen; wegen Risiken wie Deepfakes, Identitätsvortäuschung und Desinformation werden rechtmäßige und verantwortungsvolle Nutzung sowie die Kennzeichnung KI-generierter Inhalte empfohlen

1 Kommentare

 
GN⁺ 12 일 전
Hacker-News-Kommentare
  • Das ist nicht einmal ein neues Modell, und gemessen an STT hat es viele Halluzinationen, die Inferenz ist schwergewichtig und langsam, und die mehrsprachige Leistung ist auch nicht besonders gut
    Zu den anderen Funktionen kann ich nichts sagen, hier geht es rein um Speech-to-Text

    • Es ist nicht so, dass es gar keine Vorteile hätte, in manchen Fällen ist es bei der Ausdrucksstärke etwas besser
      Insgesamt wirkt es aber so, als sei es mit stark verrauschten Daten trainiert worden, verbraucht mehr Speicher und ist auch nicht schnell
      Ich spreche von der 7B-Version vibevoice-community, die früher kurz veröffentlicht und dann schnell wieder entfernt wurde, und nutze derzeit weiter chatterbox turbo und gelegentlich qwen TTS
    • Ich verstehe nicht, warum das heute plötzlich so viel Aufmerksamkeit bekommt
      Auf Twitter geht es auch nur noch darum
    • Auch TTS war nicht gut
      Ich habe es ein paar Tage benutzt, aber schon für das 1.5B-Modell gibt es keine Dokumentation, und das 0.5B-Realtime-Modell war miserabel
      Es wandelte Text zeilenweise um, fügte dabei zufällig Musik ein und konnte nicht einmal Sonderzeichen wie sauber verarbeiten
      Ehrlich gesagt ziemlich enttäuschend
    • Der aktuelle SOTA ist dem hier weit voraus
    • Das hat mir viel Zeit gespart
      Ich habe den Repo-Star sofort wieder entfernt und werde es einfach überspringen
  • Ich finde, man sollte aufhören, Modelle dieser Art Open Source zu nennen
    In Wirklichkeit sind sie nur open weight, der Trainingscode ist proprietär und wurde nie veröffentlicht
    https://github.com/microsoft/VibeVoice/issues/102

    • Wir leben inzwischen in einer Welt, in der selbst Freeware als Open Source bezeichnet wird
      Entschuldigung, Stallman
    • Ich hebe mir diesen Frust für Modelle auf, die unter nicht-offenen Lizenzen veröffentlicht werden und trotzdem als Open Source bezeichnet werden
      Wichtiger ist für mich, was ich tatsächlich tun kann, wenn bei einem Projekt steht, es sei Open Source
    • Das Schiff ist bereits abgefahren
      Die Unterscheidung open source vs. open weight scheint inzwischen in dieselbe Kategorie zu fallen wie hacker/cracker oder die GIF-Aussprachedebatte
    • Andererseits könnte auch mein MIT-Code noch Open Source sein, selbst wenn ich dir nur das Binary gebe und den Quellcode nie liefere
      Das heißt nur, dass du keinen Zugriff hast, nicht, dass die Lizenz nicht MIT wäre
      Trotzdem stimme ich völlig zu, dass Microsoft hier die Offenheit übertreibt, und überraschend ist das auch nicht
    • Immerhin steht es unter der MIT-Lizenz
      Nicht öffentliche Trainingsdaten stören mich auch, aber einschränkende Lizenzen stören mich mehr
  • In dieser Kategorie ist Voxtral meiner Meinung nach deutlich besser
    Außerdem ist es klein genug, um auf webGPU zu laufen
    https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU

  • Kevin Beaumont hat etwas Interessantes zu diesem Repo/Produkt/Autor gepostet
    https://cyberplace.social/@GossiTheDog/116454846703138243

    • Schon beeindruckend, wie sehr man versucht, den Link zu verstecken
  • Ich glaube, das ist doch das Projekt, das Microsoft veröffentlicht und dann aus Sicherheits-/Safety-Gründen schnell wieder entfernt hatte
    Ich frage mich, was sich seitdem geändert hat

    • Schau in den News-Abschnitt der Readme
      Das ursprüngliche TTS-Modell ist aus diesem Repo verschwunden, anderswo lässt es sich aber noch finden
      Stattdessen sind SST/ASR, Long-Form-TTS und Streaming-TTS die neueren Modelle
    • Zumindest für mich ist das ziemlich verwirrend
      Denn dieses Projekt deckt mehrere Bereiche gleichzeitig ab, einschließlich der gerade genannten
  • Es ist schon interessant, dass ein Unternehmen wie Microsoft vibe als offiziellen Begriff für AI-Produkte etabliert

    • Vor allem, weil vibe coded auch die negative Konnotation haben kann, etwas ohne Verständnis hastig zusammenzuschustern
    • Vielleicht ist es auch ein Wortspiel mit Via Voice, dem verfluchten STT von IBM aus den 90ern
    • Noch überraschender ist fast, dass man der Versuchung widerstanden hat, es Copilot zu nennen
  • Auch mein speech-swift konzentriert sich wie VibeVoice auf On-Device-Sprachverarbeitung
    Allerdings habe ich es so gebaut, dass ASR, TTS, VAD die Fähigkeiten von Apple Silicon ohne Cloud-Abhängigkeit nutzen
    ASR unterstützt 52 Sprachen und der Real-Time-Factor liegt bei 0.06
    https://soniqo.audio/benchmarks

  • Simons Beitrag von gestern Abend war gut
    https://simonwillison.net/2026/Apr/27/vibevoice/

    • Zur Einordnung: Der Beitrag behandelt nur den Bereich Speech-to-Text / Speech-Recognition
      Das ist eher ein Whisper-ähnlicher Bereich; daneben gibt es auch noch separate Modelle für Long-Form-TTS und Streaming-TTS
    • Es heißt, VibeVoice könne nur bis zu 1 Stunde Audio verarbeiten
      Ich frage mich, warum das so ist
  • Ich habe Microsoft Sam als Standardstimme des Computers ausgewählt

    • Ich erinnere mich noch daran, wie wir im Computerraum mit Microsoft Sam lange Zeichenfolgen eingegeben und uns über die lustigen Soundeffekte kaputtgelacht haben
      Sususususususu
  • Wow, endlich mal ein Microsoft-AI-Produkt, das nicht Copilot heißt

    • Vopilot wäre eigentlich perfekt gewesen