Meta stellt die Modellfamilie Seamless Communication vor

(ai.meta.com)

4 Punkte von GN⁺ 2023-12-02 | 1 Kommentare | Auf WhatsApp teilen

Eine Familie von KI-Forschungsmodellen, die Sprachbarrieren abbauen und eine natürlichere Kommunikation über mehrere Sprachen hinweg ermöglichen soll
- SeamlessExpressive: Bewahrt Ausdruckskraft und sprachliche Nuancen über Sprachgrenzen hinweg
- SeamlessStreaming: Bietet Sprach- und Textübersetzung mit einer Latenz von etwa 2 Sekunden
- SeamlessM4T v2: Ein mehrsprachiges, multitaskingfähiges Foundation-Modell, das Kommunikation per Sprache und Text unterstützt
- Seamless: Vereint die Funktionen von SeamlessExpressive, SeamlessStreaming und SeamlessM4T v2 in einem System

Nuancen im Ausdruck bewahren

SeamlessExpressive zielt auf Übersetzungen ab, die die Nuancen menschlichen Ausdrucks erfassen
Bestehende Übersetzungstools sind gut darin, Gesprächsinhalte zu erfassen, geben diese aber meist mit monotoner, roboterhafter Stimme aus
SeamlessExpressive soll nicht nur Sprechstil und emotionale Färbung bewahren, sondern auch sprachliche Feinheiten wie Sprechtempo und Pausen

Übersetzung nahezu in Echtzeit

SeamlessStreaming ist das erste groß angelegte mehrsprachige Modell, das Übersetzungen mit einer Latenz von rund 2 Sekunden liefert
Es basiert auf SeamlessM4T v2 und unterstützt automatische Spracherkennung sowie Speech-to-Text-Übersetzung für nahezu 100 Eingabe- und Ausgabesprachen
Außerdem unterstützt es Speech-to-Speech-Übersetzung für nahezu 100 Eingabesprachen und 36 Ausgabesprachen

Ein Foundation-Modell für universelle Übersetzung

Im August 2023 stellte Meta die erste Version von SeamlessM4T vor, die bei Übersetzung und Transkription über Sprache und Text hinweg Ergebnisse auf dem neuesten Stand der Technik lieferte
Das darauf aufbauende verbesserte Modell SeamlessM4T v2 bildet die Grundlage für die neuen Modelle SeamlessExpressive und SeamlessStreaming
Es zeichnet sich durch eine neue Architektur und einen nicht-autoregressiven Text-Unit-Decoder aus, was die Konsistenz zwischen Text- und Sprachausgaben verbessert

Forschungsansatz

Meta glaubt an die Kraft von Zusammenarbeit und offener Forschung und veröffentlicht die gesamte Modellfamilie Seamless Communication, damit Forschende darauf aufbauen können
Um ein sicheres und verantwortungsbewusstes KI-Ökosystem zu fördern, reduziert Meta den Einfluss toxischer Halluzinationen bei Übersetzungen deutlich und implementiert einen maßgeschneiderten Watermarking-Ansatz für die Audioausgabe des ausdrucksstarken Modells

Meinung von GN⁺

Das Wichtigste an diesem Artikel ist die Vorstellung der von Meta entwickelten KI-Modelle der Reihe Seamless Communication, die Sprachbarrieren abbauen sollen. Diese Modelle liefern Übersetzungen nahezu in Echtzeit, bewahren dabei Ausdrucksnuancen und bieten leistungsstarke Unterstützung für viele verschiedene Sprachen. Dieser technologische Fortschritt eröffnet Menschen weltweit die Möglichkeit, natürlicher und authentischer miteinander zu kommunizieren, was die Nachricht für viele besonders interessant und attraktiv macht.

1 Kommentare

GN⁺ 2023-12-02

Hacker-News-Kommentare

Hoffnung auf vielversprechende Zukunftstechnologie

Ich freue mich auf den Tag, an dem ich im Ausland Kopfhörer tragen und die Gespräche um mich herum in meiner eigenen Sprache hören kann. Als Kind war ich von dem „Universalübersetzer“ aus der Science-Fiction fasziniert, und als ich sah, wie mein Vater als Französisch-Englisch-Simultandolmetscher viel beschäftigt war, wollte ich selbst einen Übersetzer bauen. Ich hoffe, dass Übersetzung wichtige Arbeit ist und vielen Menschen helfen kann.
Erwartungen an Sprachlernwerkzeuge auf Basis dieser Technologie

Ich hoffe auf die Entwicklung eines Sprachlehrers, der diese Technologie nutzt. Jeder könnte jeden Tag für ein paar Stunden einen persönlichen Lehrer haben. In China oder Mexiko zu arbeiten und über VR-Spiele eine Sprache zu lernen, klingt äußerst attraktiv.
Potenzial von Echtzeit-Streaming-Technologie

Für einen neuen Mitarbeiter mit Hörbehinderung schlug das Unternehmen Lösungen wie Dragon vor, die jedoch nicht in Echtzeit funktionieren. Der Mitarbeiter entwickelte daraufhin selbst mit Whisper eine nahezu in Echtzeit arbeitende Speech-to-Text-Lösung. Ich bin gespannt, was er mit dem neuen Modell machen wird.
Bedenken hinsichtlich der Genauigkeit von Übersetzungen

Noch besorgniserregender als ein Übersetzer, der gelegentlich ungenaue Wörter verwendet, sind Übersetzungen, die Missverständnisse hervorrufen. Wenn zum Beispiel „what the fuck“ ins Spanische mit dem abgeschwächten „qué diablos“ übersetzt wird, kann das für Nutzer problematisch sein, die die ursprüngliche Intention genau verstehen möchten.
Wahrnehmung des durch KI ausgelösten Branchenwandels

Als meine Frau professionelle Sprecherin für Synchronisationen in mehreren Sprachen werden wollte, hat sie den durch KI verursachten Wandel der Branche vorausgesehen und ihren Weg geändert. Die Ergebnisse der KI-Entwicklung finde ich beeindruckend.
Fortschritte bei Text-to-Speech und Erwartungen für die Zukunft

Text-to-Speech hat sich in den letzten Jahren stark weiterentwickelt, aber ich frage mich, wann diese Technologie in die im Betriebssystem integrierten TTS-Engines (z. B. für Screenreader) eingebunden wird.
Unzufriedenheit über mangelnde Unterstützung für bestimmte Sprachen

Ich bin enttäuscht, dass wichtige Sprachen wie Hindi nicht in den Beispielen enthalten waren. Indien ist die größte Facebook-Nutzerbasis, aber Facebook leistet für Indien nicht genug.
Hinweise auf das Problem fehlender Sprachdaten

Meine Versuche mit Englisch-Swahili-Übersetzung waren nicht gut. Ich habe Huggingface M4T V2 verwendet, aber in den meisten Fällen funktionierte es nicht richtig und gab lediglich Englisch mit einer anderen Stimme zurück. Es braucht eine klare Erklärung, welche Daten fehlen, damit die Sprache richtig funktioniert. Vielleicht könnte ich helfen, indem ich Daten bereitstelle.
Ausdruck für Fehler von Übersetzern

Der Ausdruck „toxic word hallucinations“ wirkt auf mich sehr cyberpunkig.
Bewunderung für die Fortschritte bei KI-Übersetzungstechnologie

Ich bin beeindruckt von den Fortschritten der letzten 30 Jahre. Mitte der 90er arbeitete ich als Student am Verbmobil-System des Deutschen Forschungszentrums für Künstliche Intelligenz, das in einem sehr begrenzten Rahmen Sprach-zu-Sprach-Übersetzung zwischen Englisch, Deutsch und Japanisch durchführte. Damals kamen „traditionelle“ NLP-Ansätze zum Einsatz, darunter Domänenmodellierung, Satzanalyse, eine semantische Engine und maßgeschneiderte Speech-to-Text-Systeme für drei Sprachen, aber mir wurde klar, dass dieser Ansatz letztlich eine Sackgasse war.