EuroLLM: In Europa entwickeltes LLM mit Unterstützung für 24 offizielle EU-Sprachen

(eurollm.io)

3 Punkte von GN⁺ 2025-10-29 | 1 Kommentare | Auf WhatsApp teilen

EuroLLM ist ein gemeinsam von europäischen Forschungseinrichtungen entwickeltes Large Language Model (LLM) mit Unterstützung für 24 offizielle EU-Sprachen und zielt auf europäische AI-Souveränität und technologische Eigenständigkeit ab
Das 9B-Parameter-Modell wurde mit mehr als 4 Billionen Tokens in 35 Sprachen trainiert und zeigt Stärken bei Sprachaufgaben wie Frage-Antwort, Zusammenfassung und Übersetzung
EuroLLM 9B Base wurde für Fine-Tuning veröffentlicht, während EuroLLM 9B Instruct als Version mit dialogorientierter Instruktionsausführung auf Hugging Face verfügbar ist
Am Projekt sind wichtige europäische Institutionen wie Unbabel, University of Edinburgh, Técnico Lisboa, Naver Labs Europe beteiligt; das Training erfolgte auf dem MareNostrum 5 Supercomputer
Angekündigt sind eine multimodale Erweiterung (Bild und Sprache) sowie eine vollständige Open-Source-Freigabepolitik; Ziel ist es, sich als zentrale Infrastruktur des europäischen AI-Innovationsökosystems zu etablieren

Überblick über EuroLLM

EuroLLM ist ein in Europa entwickeltes Large Language Model (lokales LLM) und unterstützt alle 24 offiziellen EU-Sprachen
- Es ist als AI-Modell in Form öffentlicher Infrastruktur konzipiert, das Bürgern, Unternehmen und Forschenden in Europa ohne Sprachbarrieren zur Verfügung steht
Die Entwicklung wird von Horizon Europe, dem European Research Council und EuroHPC der Europäischen Union unterstützt
- Das Training wurde auf dem MareNostrum 5 Supercomputer durchgeführt

Technische Merkmale

EuroLLM 9B: 9 Milliarden Parameter, trainiert mit Daten aus 35 Sprachen und 4 Billionen Tokens
- Das Base-Modell ist für Fine-Tuning durch Nutzer gedacht, das Instruct-Modell verfügt über dialogorientierte Instruktionsausführung
Hauptfunktionen:
- Optimiert für mehrsprachige Natural-Language-Processing-Leistung bei Frage-Antwort, Zusammenfassung und Übersetzung
- Multimodale Erweiterung geplant — künftig sollen Funktionen zum Verstehen von Bildern und Sprache hinzukommen
- Durch die Open-Source-Veröffentlichung frei nutzbar für Forschende, Institutionen und die breite Öffentlichkeit

Beteiligte Institutionen und Kooperationsnetzwerk

Beteiligte Institutionen:
- Unbabel, Instituto Superior Técnico, University of Edinburgh, Université Paris-Saclay, Aveni.ai, Sorbonne University, Naver Labs Europe, University of Amsterdam
Wichtige Forschende:
- André Martins (Unbabel, Professor an der Technischen Hochschule Lissabon) — Experte für Machine Learning und Natural Language Processing
- Alexandra Birch (Aveni.ai, Professorin in Edinburgh) — führend in der Forschung zu mehrsprachiger Übersetzung und ethischer AI
- Pierre Colombo (Université Paris-Saclay) — forscht zu AI-Sicherheit und rechtlichen AI-Anwendungen

Mission und Vision

Das Ziel von EuroLLM ist die Sicherung europäischer AI-Souveränität und die Förderung des Fortschritts mehrsprachiger Technologien
- Durch ein eigenständig in Europa entwickeltes LLM soll ein innovationsförderndes Flywheel geschaffen werden
- Forschende und Unternehmen sollen dabei unterstützt werden, auf Basis eines europäischen AI-Modells neue Services und Forschung auszubauen
Europa soll seine technologische Führungsrolle auf Basis sprachlicher Vielfalt stärken und
den Aufbau eines eigenständigen Innovationsmodells im globalen AI-Ökosystem vorantreiben

1 Kommentare

GN⁺ 2025-10-29

Hacker-News-Kommentare

Die Europäische Union hat insgesamt 24 Amtssprachen: Bulgarisch, Kroatisch, Tschechisch, Dänisch, Niederländisch, Englisch, Estnisch, Finnisch, Französisch, Deutsch, Griechisch, Ungarisch, Irisch, Italienisch, Lettisch, Litauisch, Maltesisch, Polnisch, Portugiesisch, Rumänisch, Slowakisch, Slowenisch, Spanisch und Schwedisch
Maltesisch ist die einzige afroasiatische Sprache, und Ungarisch, Finnisch und Estnisch gehören zur uralischen Sprachfamilie. Der Rest gehört zur indoeuropäischen Sprachfamilie; Griechisch ist hellenisch, Irisch gehört zur keltischen Sprachfamilie
- Genau genommen ist Maltesisch eine semitische Sprache. Siehe Wikipedia
- Bei der niederländischen Parlamentswahl morgen schlagen zwei Parteien vor, Friesisch zur Liste der Amtssprachen hinzuzufügen. Zugehöriger Artikel
  Das könnte ein Retraining des Modells erforderlich machen
- Ich kann Maltesisch lesen, schreiben und sprechen. Wenn jemand Fragen zur Sprache hat, nur zu
- Litauisch und Lettisch gehören zur baltischen Sprachfamilie. Sie sind nicht mit den slawischen Sprachen verwandt
- Laut dem Paper ist das Modell nicht nur auf diese 24 Sprachen beschränkt. Es umfasst auch Arabisch, Katalanisch, Chinesisch, Hindi, Japanisch, Koreanisch, Norwegisch, Russisch, Türkisch, Ukrainisch usw. PDF des Papers
  Dass die Herkunft der Trainingsdaten so detailliert behandelt wird, scheint der wichtigste Beitrag dieser Arbeit zu sein
Europäische Entscheidungsträger scheinen überhaupt nicht zu wissen, wie man technologieintensive Industrien fördert. Ein Subventionsansatz nach dem Muster „Sieger auswählen“ wird offensichtlich scheitern. Auch die Diskussion über den Zugang zu europäischen Supercomputern ist interessant. Zugehöriger Tweet
- Die EU-Förderverfahren sind zwar kein Spaß, aber Levels wirkt auch etwas selbstüberschätzend. Als Influencer ist er gut in der Monetarisierung, aber einen werbefinanzierten Browser-Game-Dienst auf staatlich geförderten Supercomputern laufen zu lassen, halte ich nicht für angemessen
- Wirklich wichtig ist, dass Europa ein AI-Startup-freundliches Umfeld schafft. Weniger Regulierung und steuerliche Anreize sollten Priorität haben.
  Aber die größte Hürde für europäische Unternehmen ist in der Praxis nicht Regulierung, sondern der Zugang zu Kapital.
  China hat trotz noch strengerer Regulierung eine florierende Softwareindustrie aufgebaut. In Korea war es ähnlich, begünstigt durch Protektionismus.
  Europa sollte eher mehr technologischen Protektionismus lernen. Pieter Levels ist letztlich nur ein Influencer und kein ernsthafter Gründer
- Ich frage mich, welche Ergebnisse eine solche „Siegerauswahlstrategie“ in der Praxis tatsächlich hervorbringt
- Ich bezweifle, dass das eigentliche Ziel solcher Politik wirklich die „Auswahl von Siegern“ ist, und nicht eher die Stärkung von Gründerkompetenzen und ein wirtschaftlicher Impuls.
  In den USA gibt es viele Gründer mit FAANG-Hintergrund, in Europa fehlt ein solches Ökosystem.
  Selbst wenn ein Supercomputer-Projekt scheitert, könnten sekundäre wirtschaftliche Effekte das eigentliche Ziel sein
- Die Leute sind ihm gegenüber viel zu nachsichtig. Viele wissen vermutlich nicht einmal, wer „levelsio“ ist; ich frage mich, warum alle so tun, als müssten sie ihn kennen
Im Titel fehlt „(2024)“. Das 9B-Modell wurde bereits im Dezember letzten Jahres veröffentlicht. Offizielle Seite
Am EuroLLM-Team sind große europäische Einrichtungen wie Unbabel, Instituto Tecnico Lisbon, University of Edinburgh und Naver Labs beteiligt.
Europa betreibt über EuroHPC JU bereits ein öffentliches Supercomputer-Netzwerk, und laut eigener Aussage begann die Modellentwicklung sofort nach Erhalt des Zugangs. Offizielle Story
Im Grunde wurden damit Rechenressourcen für physikalische Simulationen wiederverwendet
Unterstützen nicht ohnehin die meisten Frontier-Modelle mehrere Sprachen? Ich denke nicht, dass man Sprachunterstützung eigens hervorheben muss
- Der entscheidende Punkt ist aber, dass dieses Modell mit offiziellen EU-Daten trainiert wurde
- Es geht nicht nur darum, ob Beispiele in einer Sprache vorhanden sind, sondern um den Datenanteil je Sprache. Weil der englische Anteil überwältigend groß ist, fällt die Leistung in anderen Sprachen ab
- Die Trainingsweise ist unterschiedlich. Bei Japanisch ist die Leistung wegen Tokenisierungsproblemen oft schwächer
- In anderen Sprachen als Englisch klingt vieles, als wäre es unnatürlich übersetzt. Französische Nutzer weisen oft auf holprige oder fehlerhafte Sätze hin
- Europäische Regierungen verfügen über umfangreiche digitale Materialien und Kulturdaten. Solche kulturellen Unterschiede könnten auch die Werte eines Modells beeinflussen
Schade, dass der tatsächlich verwendete Korpus nicht veröffentlicht wurde. Bei kleineren Sprachen wie Irisch dürfte er größtenteils auf juristischen Dokumenten beruhen, während umgangssprachliche Daten fast fehlen werden.
Es wäre interessant, sprachspezifische Bewertungen durch Muttersprachler zu sehen.
LLMs könnten sich positiv auf solche bedrohten Sprachen auswirken, aber vorher bestehen auch Risiken (z. B. der Fall der schottisch-gälischen Wikipedia).
Trotzdem halte ich es insgesamt für einen guten Versuch
EuroLLM-9B ist ein im Dezember 2024 veröffentlichtes Modell und liegt mit 17,6 % nach MMLU-Pro nur leicht über Zufallsniveau.
Eine Vergleichstabelle mit anderen EU-Modellen gibt es hier
Ich frage mich, warum nur die USA und China wirklich starke Modelle hervorbringen. Abgesehen von Frankreichs Mistral gibt es in Europa kaum Modelle. In Indien, Japan und Korea sieht es ähnlich aus
- Das überrascht nicht. Europa fällt bei der technologischen Wettbewerbsfähigkeit seit langem zurück.
  Die Bevölkerung ist 1,3-mal so groß wie die der USA, das BIP liegt bei 75 %, aber die Tech-Industrie ist nur ein Bruchteil der US-amerikanischen.
  Die sieben größten US-Big-Tech-Unternehmen sind 20-mal größer als die sieben größten europäischen Unternehmen und erzielen den zehnfachen Umsatz. Referenzlink
- Europa hat einen geringen Zugang zu Kapital und einen fragmentierten Markt.
  Deshalb ist man auf akademisch geprägte Förderprogramme wie Horizon angewiesen, aber solche Kooperationen führen selten zu marktfähigen Produkten
- Für das Training von Frontier-Modellen braucht man eine enorme Kapitalbasis. Nur die USA und China können Milliardenbeträge mobilisieren
- Die EU hat ein 900-seitiges KI-Gesetz geschrieben und sich dafür selbst gefeiert, während China bereits vorher ein zweiseitiges Gesetz eingeführt hatte
- Tatsächlich ist der kommerzielle Wert solcher Modelle bislang nicht belegt. Die meisten werden durch Staatsaufträge oder Investorengelder am Leben gehalten
Um das EuroLLM-9B-Modell auf Hugging Face herunterzuladen, muss man der Weitergabe von Kontaktdaten zustimmen. Ich frage mich, ob solche Anforderungen üblich sind
- Das habe ich auch schon bei einigen Modellen gesehen. Zum Beispiel hat Llama 3.1-8B-Instruct ein ähnliches Verfahren
- Ja, das ist ein ziemlich gängiger Prozess
Es ist interessant, dass das 9B-Modell Aufmerksamkeit bekommt. Aber das vor zwei Monaten veröffentlichte TildeOpen-30B-Modell (mit Unterstützung für 19 europäische Sprachen) wurde fast gar nicht erwähnt. Modellseite
Die Grundleistung ist zwar niedrig, aber es ist ein offenes Modell mit großem Fine-Tuning-Potenzial

EuroLLM: In Europa entwickeltes LLM mit Unterstützung für 24 offizielle EU-Sprachen

Überblick über EuroLLM

Technische Merkmale

Beteiligte Institutionen und Kooperationsnetzwerk

Mission und Vision

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare