- EuroLLM ist ein gemeinsam von europäischen Forschungseinrichtungen entwickeltes Large Language Model (LLM) mit Unterstützung für 24 offizielle EU-Sprachen und zielt auf europäische AI-Souveränität und technologische Eigenständigkeit ab
- Das 9B-Parameter-Modell wurde mit mehr als 4 Billionen Tokens in 35 Sprachen trainiert und zeigt Stärken bei Sprachaufgaben wie Frage-Antwort, Zusammenfassung und Übersetzung
- EuroLLM 9B Base wurde für Fine-Tuning veröffentlicht, während EuroLLM 9B Instruct als Version mit dialogorientierter Instruktionsausführung auf Hugging Face verfügbar ist
- Am Projekt sind wichtige europäische Institutionen wie Unbabel, University of Edinburgh, Técnico Lisboa, Naver Labs Europe beteiligt; das Training erfolgte auf dem MareNostrum 5 Supercomputer
- Angekündigt sind eine multimodale Erweiterung (Bild und Sprache) sowie eine vollständige Open-Source-Freigabepolitik; Ziel ist es, sich als zentrale Infrastruktur des europäischen AI-Innovationsökosystems zu etablieren
Überblick über EuroLLM
- EuroLLM ist ein in Europa entwickeltes Large Language Model (lokales LLM) und unterstützt alle 24 offiziellen EU-Sprachen
- Es ist als AI-Modell in Form öffentlicher Infrastruktur konzipiert, das Bürgern, Unternehmen und Forschenden in Europa ohne Sprachbarrieren zur Verfügung steht
- Die Entwicklung wird von Horizon Europe, dem European Research Council und EuroHPC der Europäischen Union unterstützt
- Das Training wurde auf dem MareNostrum 5 Supercomputer durchgeführt
Technische Merkmale
- EuroLLM 9B: 9 Milliarden Parameter, trainiert mit Daten aus 35 Sprachen und 4 Billionen Tokens
- Das Base-Modell ist für Fine-Tuning durch Nutzer gedacht, das Instruct-Modell verfügt über dialogorientierte Instruktionsausführung
- Hauptfunktionen:
- Optimiert für mehrsprachige Natural-Language-Processing-Leistung bei Frage-Antwort, Zusammenfassung und Übersetzung
- Multimodale Erweiterung geplant — künftig sollen Funktionen zum Verstehen von Bildern und Sprache hinzukommen
- Durch die Open-Source-Veröffentlichung frei nutzbar für Forschende, Institutionen und die breite Öffentlichkeit
Beteiligte Institutionen und Kooperationsnetzwerk
- Beteiligte Institutionen:
- Unbabel, Instituto Superior Técnico, University of Edinburgh, Université Paris-Saclay, Aveni.ai, Sorbonne University, Naver Labs Europe, University of Amsterdam
- Wichtige Forschende:
- André Martins (Unbabel, Professor an der Technischen Hochschule Lissabon) — Experte für Machine Learning und Natural Language Processing
- Alexandra Birch (Aveni.ai, Professorin in Edinburgh) — führend in der Forschung zu mehrsprachiger Übersetzung und ethischer AI
- Pierre Colombo (Université Paris-Saclay) — forscht zu AI-Sicherheit und rechtlichen AI-Anwendungen
Mission und Vision
- Das Ziel von EuroLLM ist die Sicherung europäischer AI-Souveränität und die Förderung des Fortschritts mehrsprachiger Technologien
- Durch ein eigenständig in Europa entwickeltes LLM soll ein innovationsförderndes Flywheel geschaffen werden
- Forschende und Unternehmen sollen dabei unterstützt werden, auf Basis eines europäischen AI-Modells neue Services und Forschung auszubauen
- Europa soll seine technologische Führungsrolle auf Basis sprachlicher Vielfalt stärken und
den Aufbau eines eigenständigen Innovationsmodells im globalen AI-Ökosystem vorantreiben
1 Kommentare
Hacker-News-Kommentare
Die Europäische Union hat insgesamt 24 Amtssprachen: Bulgarisch, Kroatisch, Tschechisch, Dänisch, Niederländisch, Englisch, Estnisch, Finnisch, Französisch, Deutsch, Griechisch, Ungarisch, Irisch, Italienisch, Lettisch, Litauisch, Maltesisch, Polnisch, Portugiesisch, Rumänisch, Slowakisch, Slowenisch, Spanisch und Schwedisch
Maltesisch ist die einzige afroasiatische Sprache, und Ungarisch, Finnisch und Estnisch gehören zur uralischen Sprachfamilie. Der Rest gehört zur indoeuropäischen Sprachfamilie; Griechisch ist hellenisch, Irisch gehört zur keltischen Sprachfamilie
Das könnte ein Retraining des Modells erforderlich machen
Dass die Herkunft der Trainingsdaten so detailliert behandelt wird, scheint der wichtigste Beitrag dieser Arbeit zu sein
Europäische Entscheidungsträger scheinen überhaupt nicht zu wissen, wie man technologieintensive Industrien fördert. Ein Subventionsansatz nach dem Muster „Sieger auswählen“ wird offensichtlich scheitern. Auch die Diskussion über den Zugang zu europäischen Supercomputern ist interessant. Zugehöriger Tweet
Aber die größte Hürde für europäische Unternehmen ist in der Praxis nicht Regulierung, sondern der Zugang zu Kapital.
China hat trotz noch strengerer Regulierung eine florierende Softwareindustrie aufgebaut. In Korea war es ähnlich, begünstigt durch Protektionismus.
Europa sollte eher mehr technologischen Protektionismus lernen. Pieter Levels ist letztlich nur ein Influencer und kein ernsthafter Gründer
In den USA gibt es viele Gründer mit FAANG-Hintergrund, in Europa fehlt ein solches Ökosystem.
Selbst wenn ein Supercomputer-Projekt scheitert, könnten sekundäre wirtschaftliche Effekte das eigentliche Ziel sein
Im Titel fehlt „(2024)“. Das 9B-Modell wurde bereits im Dezember letzten Jahres veröffentlicht. Offizielle Seite
Am EuroLLM-Team sind große europäische Einrichtungen wie Unbabel, Instituto Tecnico Lisbon, University of Edinburgh und Naver Labs beteiligt.
Europa betreibt über EuroHPC JU bereits ein öffentliches Supercomputer-Netzwerk, und laut eigener Aussage begann die Modellentwicklung sofort nach Erhalt des Zugangs. Offizielle Story
Im Grunde wurden damit Rechenressourcen für physikalische Simulationen wiederverwendet
Unterstützen nicht ohnehin die meisten Frontier-Modelle mehrere Sprachen? Ich denke nicht, dass man Sprachunterstützung eigens hervorheben muss
Schade, dass der tatsächlich verwendete Korpus nicht veröffentlicht wurde. Bei kleineren Sprachen wie Irisch dürfte er größtenteils auf juristischen Dokumenten beruhen, während umgangssprachliche Daten fast fehlen werden.
Es wäre interessant, sprachspezifische Bewertungen durch Muttersprachler zu sehen.
LLMs könnten sich positiv auf solche bedrohten Sprachen auswirken, aber vorher bestehen auch Risiken (z. B. der Fall der schottisch-gälischen Wikipedia).
Trotzdem halte ich es insgesamt für einen guten Versuch
EuroLLM-9B ist ein im Dezember 2024 veröffentlichtes Modell und liegt mit 17,6 % nach MMLU-Pro nur leicht über Zufallsniveau.
Eine Vergleichstabelle mit anderen EU-Modellen gibt es hier
Ich frage mich, warum nur die USA und China wirklich starke Modelle hervorbringen. Abgesehen von Frankreichs Mistral gibt es in Europa kaum Modelle. In Indien, Japan und Korea sieht es ähnlich aus
Die Bevölkerung ist 1,3-mal so groß wie die der USA, das BIP liegt bei 75 %, aber die Tech-Industrie ist nur ein Bruchteil der US-amerikanischen.
Die sieben größten US-Big-Tech-Unternehmen sind 20-mal größer als die sieben größten europäischen Unternehmen und erzielen den zehnfachen Umsatz. Referenzlink
Deshalb ist man auf akademisch geprägte Förderprogramme wie Horizon angewiesen, aber solche Kooperationen führen selten zu marktfähigen Produkten
Um das EuroLLM-9B-Modell auf Hugging Face herunterzuladen, muss man der Weitergabe von Kontaktdaten zustimmen. Ich frage mich, ob solche Anforderungen üblich sind
Es ist interessant, dass das 9B-Modell Aufmerksamkeit bekommt. Aber das vor zwei Monaten veröffentlichte TildeOpen-30B-Modell (mit Unterstützung für 19 europäische Sprachen) wurde fast gar nicht erwähnt. Modellseite
Die Grundleistung ist zwar niedrig, aber es ist ein offenes Modell mit großem Fine-Tuning-Potenzial