4 Punkte von GN⁺ 2026-03-22 | 1 Kommentare | Auf WhatsApp teilen
  • Meta AI hat mit Omnilingual Machine Translation (OMT) das erste maschinelle Übersetzungssystem entwickelt, das mehr als 1.600 Sprachen unterstützt, und übertrifft damit die bisherige Grenze von 200 Sprachen des NLLB-Projekts
  • Durch die Kombination aus offenen Korpora, Rückübersetzung und Data Mining wurde ein groß angelegter mehrsprachiger Datensatz aufgebaut, der auch ressourcenarme und Minderheitensprachen abdeckt
  • Zur Messung der Übersetzungsleistung mit hoher Zuverlässigkeit wurden verschiedene Tools zur Qualitäts- und Schädlichkeitsbewertung integriert, darunter BLASER 3, OmniTOX, BOUQuET und Met-BOUQuET
  • Mit einem decoder-only-Modell auf Basis von LLaMA3 sowie OMT-NLLB mit Encoder-Decoder-Architektur wird hochwertige Übersetzung auch in Umgebungen mit geringer Rechenleistung ermöglicht
  • Das System erreicht konsistente Satzerzeugung und verbesserten sprachübergreifenden Transfer über 1.600 Sprachen hinweg und gilt als wichtiger Fortschritt für mehr globale sprachliche Inklusion

Überblick über Omnilingual MT

  • Omnilingual Machine Translation (OMT) ist das erste maschinelle Übersetzungssystem für mehr als 1.600 Sprachen und wurde von Meta AI entwickelt
  • Aufbauend auf den Erfolgen des bisherigen Projekts No Language Left Behind (NLLB), das auf 200 Sprachen erweitert wurde, deckt OMT deutlich mehr Sprachen ab
  • Bisherige auf großen Sprachmodellen (LLMs) basierende Übersetzungssysteme boten zwar hohe Qualität, hatten aber eine begrenzte Sprachabdeckung; insbesondere wurde die unzureichende Generierungsfähigkeit für ressourcenarme und Minderheitensprachen als Problem hervorgehoben
  • Um diese Grenzen zu überwinden, erweitert OMT Datenstrategie, Modellarchitektur und Evaluierungssystem grundlegend

Datenstrategie und Ausbau der Sprachabdeckung

  • OMT erweitert die Sprachabdeckung deutlich, indem es offene mehrsprachige Korpora mit neu erzeugten Datensätzen zusammenführt
    • Kombination aus MeDLEY bitext (manuell bereinigte parallele Daten), Rückübersetzung (synthetic backtranslation) und Data-Mining-Techniken
    • Dadurch werden auch Minderheitensprachen (long-tail languages) sowie verschiedene Domänen und Sprachregister abgedeckt
  • Diese Datenstrategie schafft die Grundlage dafür, einen erheblichen Teil der Ausdrucksmöglichkeiten von mehr als 7.000 Sprachen, die bisherige Systeme nicht erfassen konnten, zugänglich zu machen

Evaluierungssystem und Qualitätsmessung

  • Für Zuverlässigkeit und Skalierbarkeit werden neben Standardmetriken mehrere Evaluierungstools kombiniert
    • BLASER 3**: ein** referenzfreies Evaluierungsmodell zur Qualitätsschätzung ohne Referenzsatz

      • OmniTOX: ein Klassifikator zur Erkennung von Schädlichkeit (toxicity) in Übersetzungsergebnissen
      • BOUQuET: ein groß angelegter mehrsprachiger Evaluierungsdatensatz mit verschiedenen Sprachfamilien, manuell erstellt
      • Met-BOUQuET: ein erweiterbarer Datensatz für großskalige mehrsprachige Qualitätsschätzung
      • Diese Datensätze werden zusammen mit einem fortlaufend aktualisierten öffentlichen Leaderboard bereitgestellt und können von Forschenden frei genutzt werden

Modellarchitektur und Trainingsansatz

  • OMT spezialisiert LLMs für Übersetzung auf zwei Arten
    • OMT-LLaMA

      • Ein decoder-only-Modell auf Basis von LLaMA3
      • Verbesserte Anpassungsfähigkeit bei der Inferenz durch mehrsprachiges fortlaufendes Vortraining (multilingual continual pretraining) und retrieval-gestützte Übersetzung (retrieval-augmented translation)
    • OMT-NLLB

      • Verwendet eine Encoder-Decoder-Architektur und ist auf einem mehrsprachigen Ausrichtungsraum namens OmniSONAR aufgebaut
      • Führt eine Trainingsmethode ein, die nicht-parallele Daten (non-parallel data) nutzen kann
      • Ermöglicht die Integration von Vortrainingsdaten aus decoder-only-Modellen in das Encoder-Decoder-Training
      • Modelle mit 1B bis 8B Parametern erreichen eine Übersetzungsleistung auf dem Niveau oder über dem eines 70B-LLM-Basismodells und belegen damit das Potenzial für hochwertige Übersetzung auch in rechenarmen Umgebungen

Leistung und Sprachgenerierungsfähigkeit

  • In der Evaluierung von Übersetzungen Englisch → 1.600 Sprachen konnten bestehende Modelle ressourcenarme Sprachen oft zwar verstehen, scheiterten jedoch häufig an der Erzeugung sinnvoller Sätze
  • Das OMT-LLaMA-Modell erweitert die kohärente Generierung (coherent generation) für diese Sprachen deutlich
  • Auch die Leistung beim sprachübergreifenden Transfer (cross-lingual transfer) wurde verbessert, sodass Probleme auf der Ebene des Verstehens (understanding) für 1.600 Sprachen nahezu gelöst wurden
  • Durch Feinabstimmung (finetuning) und Retrieval-Augmented Generation (RAG) sind für bestimmte Sprachen oder Domänen weitere Qualitätssteigerungen möglich

Öffentliche Ressourcen und Ausbau der Forschung

  • Die Datensätze BOUQuET und Met-BOUQuET sind frei verfügbar und werden mit Blick auf Omnilinguality kontinuierlich erweitert
  • Das Forschungsteam verfolgt das Ziel, den Zugang für ressourcenarme Sprachen zu verbessern und eine Grundlage für mehrsprachige KI-Forschung zu schaffen
  • OMT gilt als das erste praktische Übersetzungssystem, das groß angelegte sprachliche Vielfalt abdeckt, und als wichtiger Fortschritt für globale sprachliche Inklusion

1 Kommentare

 
GN⁺ 2026-03-22
Hacker-News-Kommentare
  • Ich hatte den Eindruck, dass die Übersetzungsqualität von Meta im Vergleich zu anderen Diensten deutlich schlechter ist.
    Besonders bei weniger bekannten Sprachen fällt das noch stärker auf.
    Google Translate ist als Standard okay, aber LLM-basierte Übersetzung ist beim Kontextverständnis und bei der Vermittlung kultureller Nuancen deutlich besser.
    Ich lebe in Kambodscha und vergleiche deshalb häufig die Qualität von Khmer-Übersetzungen.

    • Grüße aus Siem Reap! Schön, einen anderen kambodschanischen Tech-Enthusiasten zu treffen.
      Meiner Erfahrung nach ist die Facebook-Übersetzung bei langen Sätzen natürlicher als Google.
      Khmer ist eine kontextabhängige und ausschweifende Sprache, daher dürften LLMs sehr hilfreich sein.
      Umgekehrt sagen Einheimische, dass Übersetzungen aus dem Englischen ins Khmer förmlich und roboterhaft klingen, was interessant ist.
    • Kagi Translate ist wirklich hervorragend.
      Ich finde, die mehrsprachige Unterstützung ist einer der coolsten Vorteile von LLMs.
    • Es ist interessant, dass LLMs bei Khmer-Übersetzungen besser sind als Google.
      Ich frage mich, warum Google intern nicht Gemini verwendet, vielleicht wegen Halluzinationsproblemen.
      Ich würde gern einen quantitativen Test sehen, der mehrere LLMs und Übersetzungs-APIs vergleicht.
    • Die chinesische Übersetzung ist auch nicht gut.
    • Hinweis auf einen Tippfehler (they're)
  • Sie sagen, dass 1600 Sprachen übersetzt werden können, aber schon im ersten Satz des englischen Abstracts stimmt nicht einmal die Subjekt-Verb-Kongruenz.
    Es wird behauptet, dass durch das NLLB-(No Language Left Behind)-Projekt hochwertige Übersetzungen für 200 Sprachen erreicht wurden.

  • Ich habe ein Startup gegründet, das etwas Ähnliches macht — 6k.ai
    Wir konzentrieren uns auf Datensammlung für ressourcenarme Sprachen.
    Wenn man sich Datensätze wie Common Crawl, finepdfs und fineweb ansieht, dann gibt es (1) kaum qualitativ gute Daten und (2) die Verarbeitung ist viel zu grob.
    Zum Beispiel klassifiziert finepdfs jede PDF-Seite als eine einzelne Sprache, obwohl es in Wirklichkeit viele Sprachpaar-Daten gibt.

    • Ich forsche ebenfalls zu ressourcenarmen Sprachen, besonders zu Maya-Sprachen.
      Ich habe Material auf wikilangs.org, omneitylabs.com und in einem zugehörigen Blogbeitrag veröffentlicht.
      Der größte Engpass ist nicht das Sammeln von Texten, sondern die Genauigkeit der Spracherkennung.
      In Datensätzen wie Common Crawl oder Fineweb ist die Sprachtrennung oft unklar.
      Ich habe in Fineweb 2 an Verbesserungen rund um meine Muttersprache gearbeitet; vielleicht könnte das Anregungen liefern.
      Ähnliche Probleme wiederholen sich in vielen Regionen, daher würde ich später gern einmal zusammenarbeiten.
    • Auch Common Crawl arbeitet seit anderthalb Jahren an einem Projekt für ressourcenarme Sprachen; das ist wirklich ein schwieriges Problem.
    • Mehrere staatliche Stellen untersuchen dieses Problem ebenfalls.
      Ich frage mich, ob du dir solche öffentlichen Datensätze schon angesehen hast und welche Sprachen du priorisierst.
  • Ich habe lange gebraucht, um den Download-Link für die Modellgewichte zu finden.
    Wenn es Open Weights sind, frage ich mich, warum es keinen direkt zugänglichen Link gibt.

    • Bei diesem Modell wird nicht erwähnt, dass es Open Weights sind (das frühere NLLB war öffentlich).
      Stattdessen sind Leaderboard und Evaluierungsdatensätze öffentlich.
      Im Paper heißt es nur: „Unsere Übersetzungsmodelle wurden auf frei verfügbaren Modellen aufgebaut.“
  • Es ist 2026, und ich verstehe nicht, warum es immer noch keine automatische Transkription von Sprachnachrichten gibt.

  • Sie sagen, dass 1600 Sprachen übersetzt werden können, aber nicht einmal eine grundlegende Absatzgliederung ist vorhanden.

    • Ein Paper-Abstract wird regelgemäß ohnehin als ein einziger Absatz geschrieben.
  • 1600 Sprachen sind viele, aber bis man es „Omni“ nennen kann, ist es noch ein weiter Weg.
    Die Gesamtzahl der Sprachen wird gewöhnlich auf 4.000 bis 8.000 geschätzt, und die ersten 1.000 Sprachen abzudecken ist am schwierigsten.

    • Im Marketing muss man Wörter wie „Frontier“ oder „Edge“ verwenden, damit es nach Profi klingt.
  • Frühere Forschung (Lauscher 2020) sprach vom Fluch der Mehrsprachigkeit, bei dem die Übersetzungsqualität mit wachsender Zahl an Sprachen sinkt.
    Meta scheint das jedoch überwunden zu haben.
    Laut Abstract wurden Verbesserungen der Trainingsdatenqualität und neue Evaluierungstools eingeführt.
    Außerdem wird behauptet, dass OMT-LLaMA bei der Textgenerierungsqualität besser sei als bestehende Modelle.

  • Interessant ist auch der von Meta vorgestellte BOUQuET-Benchmark.
    Das ist eine Open-Initiative zur sprachübergreifenden Bewertung von Übersetzungsqualität.
    huggingface.co/spaces/facebook/bouquet

  • Seit dem AI-Boom sind Übersetzungen in MS-Dokumentationen furchtbar geworden.
    Zum Beispiel wird try/catch ins Deutsche als „versuchen/fangen“ übersetzt.

    • Solche Übersetzungen haben eher negativen Wert.
      Besonders im Unternehmensumfeld ist das noch lästiger, weil sich die Locale-Einstellung oft nicht einfach ändern lässt.
      Auch grundlegende Fehler wie die Übersetzung von „shortly“ als „short“ kommen häufig vor.