ETH Zurich und EPFL wollen ein auf öffentlicher Infrastruktur entwickeltes LLM veröffentlichen

(ethz.ch)

2 Punkte von GN⁺ 2025-07-12 | 1 Kommentare | Auf WhatsApp teilen

Ein großes Sprachmodell (LLM), das unter Federführung von ETH Zurich und EPFL vollständig offen auf öffentlicher Infrastruktur entwickelt wurde, soll in Kürze erscheinen
Das Modell legt den Schwerpunkt auf Transparenz, mehrsprachige Leistung und breite Zugänglichkeit und kann dadurch in Wissenschaft, Verwaltung und Privatwirtschaft vielseitig eingesetzt werden
Quellcode und Gewichte sowie die Trainingsdaten werden offengelegt, und der gesamte Prozess ist auf Reproduzierbarkeit ausgelegt, um offene Forschung und die Einhaltung regulatorischer Vorgaben zu fördern
Es wurde auf dem neuesten Supercomputer Alps (CSCS) mit umweltfreundlicher Energie trainiert und zielt auf Größe, hohe Leistung und einen verantwortungsvollen Umgang mit Daten ab
Das LLM soll gegen Ende des Sommers unter der Apache-2.0-Lizenz veröffentlicht werden und voraussichtlich weltweit Innovation und Forschung voranbringen

Internationale Zusammenarbeit und Hintergrund für den Aufbau eines offenen LLM

Beim in Genf veranstalteten International Open-Source LLM Builders Summit kamen rund 50 Organisationen aus den Bereichen globales Open-Source-LLM und vertrauenswürdige KI zusammen
Die von den AI-Zentren von EPFL und ETH Zurich ausgerichtete Veranstaltung war ein wichtiger Impuls für die Belebung des Ökosystems offener Basismodelle und die Zusammenarbeit
Offene LLMs werden zunehmend als Alternative zu kommerziellen Systemen wahrgenommen, die in den USA, China und anderswo nicht öffentlich entwickelt werden

Merkmale und Veröffentlichungsplan des neuen öffentlichen LLM

In Zusammenarbeit von Forschenden der EPFL, der ETH Zurich und weiterer Schweizer Hochschulen sowie Ingenieurinnen und Ingenieuren des CSCS soll bald ein vollständig offenes, öffentlich entwickeltes LLM erscheinen
Es befindet sich derzeit in der abschließenden Testphase und soll unter einer offenen Lizenz zum Download bereitgestellt werden
Zu den zentralen Werten des Modells zählen Transparenz, mehrsprachige Leistung und breite Zugänglichkeit

Prinzipien vollständiger Offenheit und Transparenz

Sowohl der Quellcode als auch die Gewichte des Modells sollen veröffentlicht werden
Auch die Trainingsdaten werden transparent offengelegt und reproduzierbar aufbereitet, um die Einführung in Wissenschaft, Verwaltung, Bildung und Privatwirtschaft zu unterstützen
Dieser Ansatz soll Innovation fördern und Verantwortlichkeit stärken

Einschätzungen von Fachleuten

Imanol Schlag, Forscher am ETH AI Center, betont, dass vollständig offene Modelle unverzichtbar für vertrauenswürdige Anwendungen und die Weiterentwicklung der Forschung zu KI-Risiken und -Chancen seien
Ein transparenter Prozess erleichtert zudem die Einhaltung regulatorischer Vorgaben

Mehrsprachiges Design

Eines der Kernmerkmale des Modells ist die Unterstützung von mehr als 1.000 Sprachen
Professor Antoine Bosselut erklärte, man habe sich von Anfang an auf umfassende mehrsprachige Unterstützung konzentriert
Das Grundtraining erfolgte mit einem großen Datensatz aus mehr als 1.500 Sprachen (60 % Englisch, 40 % Nicht-Englisch) sowie mit Code- und Mathematikdaten
Dadurch spiegelt das Modell Inhalte aus verschiedenen Sprachen und Kulturen weltweit wider und bietet eine hohe globale Einsetzbarkeit

Skalierbarkeit und Inklusivität

Das Modell soll in zwei Größen veröffentlicht werden: 8 Milliarden (8B) und 70 Milliarden (70B) Parameter
- Die 70B-Version gehört zu den leistungsstärksten vollständig offenen Modellen der Welt
Es wurde mit mehr als 15 Billionen hochwertigen Tokens (kleine Texteinheiten) trainiert und erreicht dadurch hohe Zuverlässigkeit und breite Einsetzbarkeit

Verantwortungsvolle Datennutzung

Die Entwicklung erfolgt unter Einhaltung der Transparenzpflichten nach schweizerischem Datenschutzrecht, Urheberrecht und dem EU AI Act
Jüngste Forschung zeigt, dass die Beachtung von Opt-outs beim Web-Crawling (Robots Exclusion Standard) die Leistung von LLMs kaum beeinträchtigt

Entwicklung auf Supercomputer-Basis und Nachhaltigkeit

Das Training des Modells findet auf dem Alps-Supercomputer des CSCS in Lugano statt
- Ausgestattet mit 10.000 NVIDIA Grace Hopper Superchips, einer KI-Infrastruktur auf Spitzenniveau
- Effizientes Training mit zu 100 % CO2-neutralem Strom möglich
Die erfolgreiche Umsetzung von Alps wurde durch eine 15-jährige strategische Zusammenarbeit mit NVIDIA und HPE/Cray ermöglicht
Alps spielt eine Schlüsselrolle bei der Erfüllung der Anforderungen großer KI-Workloads, darunter das Pretraining komplexer LLMs
Professor Thomas Schulthess betonte, dass die gemeinsamen Anstrengungen öffentlicher Forschungseinrichtungen und der Industrie zeigen, wie souveräne KI-Infrastruktur und offene Innovation Wissenschaft und Gesellschaft weltweit zugutekommen

Offener Zugang und globale Nutzung

Das LLM soll gegen Ende des Sommers unter der Apache-2.0-Lizenz veröffentlicht werden
Zusammen mit dem Modell werden Dokumentationen zu Architektur, Trainingsmethoden und Nutzungsrichtlinien bereitgestellt, um transparente Wiederverwendung und Weiterentwicklung zu unterstützen
Professor Antoine Bosselut sagte, er hoffe, dass öffentliche Forschende bei der Weiterentwicklung offener Modelle eine führende Rolle übernehmen und unterschiedliche Organisationen darauf aufbauend eigene Anwendungen entwickeln
Professor Martin Jaggi erklärte, dass vollständige Offenheit ein wichtiger Faktor sei, um durch die Schweiz, Europa und internationale Zusammenarbeit Innovation zu fördern und Spitzenkräfte anzuziehen

1 Kommentare

GN⁺ 2025-07-12

Hacker-News-Kommentare

Ich bin gespannt auf die Ergebnisse. Soweit ich weiß, trainieren oder finetunen ETH und EPFL eher ältere Versionen statt der neuesten LLaMA-Modelle, daher könnten sie gegenüber der SOTA-Performance etwas zurückliegen. Aber ich denke, der wichtigste Punkt ist, dass ETH und EPFL Erfahrung mit großskaligem Training aufbauen. Soweit ich gehört habe, kämpft der neu aufgebaute AI-Cluster in der Anfangsphase noch mit vielen Kinderkrankheiten. Leute unterschätzen oft, wie schwierig es in dieser Größenordnung ist, Modelle auf eigener Infrastruktur zu trainieren. Zur Einordnung: Ich bin in der Schweiz geboren und habe an der ETH studiert. An Köpfchen mangelt es nicht, aber Erfahrung mit großskaligem Training ist noch begrenzt. Außerdem denke ich persönlich, dass viel von der „Magie“ bei LLMs in Wirklichkeit aus der Infrastruktur kommt.
- Tatsächlich kommt viel von der Magie aus den Datensätzen, besonders aus SFT und anderen Finetuning-/RLHF-Daten. Genau das war in der Praxis oft der Unterschied zwischen Modellen, die Menschen tatsächlich nutzen, und solchen, die sie nicht nutzen. Dem Punkt mit der Erfahrung stimme ich voll zu, und ich halte den Aufbau von Infrastruktur für einen zentralen Teil einer souveränen LLM-Lieferkette. Aber auch den Daten sollte von Anfang an genug Aufmerksamkeit gewidmet werden, damit das Modell am Ende wirklich brauchbar wird.
- Um ein SOTA-LLM zu trainieren, wird auch die Infrastruktur ziemlich komplex. Viele glauben, man müsse nur die Architektur und Datensätze hochladen und etwas wie Ray verwenden, dann sei alles erledigt. In Wirklichkeit braucht es aber unglaublich viele Bausteine: Datensatzdesign, Aufbau von Evaluierungs-Pipelines, Trainingsmethoden, maximale Hardware-Auslastung, Latenzen zwischen Nodes, Fehlerbehebung und Recovery und vieles mehr. Trotzdem ist es gut, wenn in diesem Bereich mehr Akteure dazukommen.
- Ich habe aus der Formulierung „from scratch“ geschlossen, dass es um Pretraining und nicht um Finetuning geht. Falls jemand das anders sieht, würde mich das interessieren. Und mich würde auch interessieren, ob sie mit einer allgemeinen Llama-Architektur arbeiten. Auf die Benchmark-Ergebnisse bin ich gespannt.
Der Satz, dass die Beachtung von opt-outs beim Web-Crawling kaum Leistungseinbußen verursacht, freut mich sehr.
- Selbst wenn es laut Trainingsmetriken keinen Leistungsabfall gibt, kann es aus Sicht der Endnutzer am Ende trotzdem anders aussehen. Nutzer und Website-Besitzer verfolgen grundlegend unterschiedliche Ziele. Nutzer wollen Antworten und Inhalte, Website-Besitzer wollen Werbung oder zusätzliche Verkäufe. Am Ende kann man oft nur eine der beiden Seiten zufriedenstellen.
Ich frage mich, ob das hier ein neuer Maßstab für Transparenz bei Datensätzen ist. Falls das klappt, wäre das ein wichtiger Fortschritt. Allerdings wäre es lustiger gewesen, die Maschine AIps (AI Petaflops Supercomputer) zu nennen.
- Das OLMo-Modell des Allen Institute for Artificial Intelligence ist ebenfalls vollständig offen. OLMo is fully open AI2 vertritt die Auffassung, dass echte Offenheit bedeutet, Daten, Modell und Code offenzulegen. Mehr zu OLMo
- Soweit ich weiß, ist auch Smollm ein vollständig offenes Modell.
Offene Trainingsdaten sind das entscheidende Unterscheidungsmerkmal. Ich frage mich, ob dies das erste wirklich offene Dataset in dieser Größenordnung ist. Frühere Versuche wie The Pile waren ebenfalls wertvoll, hatten aber ihre Grenzen. Ich bin auch gespannt, wie die Reproduzierbarkeit des Trainings sichergestellt werden soll.
- Die Formulierung „Das Modell wird vollständig offen sein: Quellcode und Gewichte werden veröffentlicht, die Trainingsdaten sind transparent und reproduzierbar“ legt für mich nahe, dass der Schwerpunkt eher auf „reproduzierbar“ liegt als darauf, dass der komplette Trainingsdatensatz offengelegt wird. Vermutlich könnten Referenzen wie Listen der tatsächlich fürs Training verwendeten Seiten-URLs veröffentlicht werden, aber nicht unbedingt deren Inhalte selbst.
- Genau, da spielen weiterhin die klassischen Copyright-Fragen hinein, daher wird es das wohl nicht einfach als fertig paketiertes Dataset geben.
Genau das ist mit „Demokratisierung von AI“ gemeint.
Die Pressemitteilung geht sehr ausführlich darauf ein, wie das Ganze gebaut wurde, liefert aber fast keine Informationen dazu, welche Fähigkeiten es im Vergleich zu anderen offenen Modellen tatsächlich hat.
- Bei Universitäten ist es natürlich, sich auf das „Wie wurde es gebaut?“ zu konzentrieren, weil das Vermitteln genau dieses Aspekts ein zentraler Teil ihres Bildungsauftrags ist.
- Dort heißt es, das Modell werde in zwei Versionen veröffentlicht, 8B (8 Milliarden) und 70B (70 Milliarden), und die 70B-Version werde eines der leistungsfähigsten offenen Modelle der Welt sein; eine Veröffentlichung unter der Apache-2.0-Lizenz sei für Ende dieses Sommers geplant. Im September werden wir ja sehen, wie es tatsächlich aussieht.
Als Schweizer macht es mich stolz, diese Nachricht ganz oben auf HN zu sehen. Diese beiden Hochschulen haben viele Gründer, Forscher und Ingenieure von Weltrang hervorgebracht und standen doch immer etwas im Schatten der USA. Aber dank hervorragender öffentlicher Infrastruktur, Bildung und politischer Stabilität (+ Neutralität) könnten sie im Bereich offener LLMs eine besondere Chance haben.
Im Artikel heißt es: „Offene LLMs werden zunehmend als vertrauenswürdige Alternative wahrgenommen, während die meisten kommerziellen Systeme in den USA oder China hinter verschlossenen Türen entwickelt werden.“ Unternehmen, die heute große LLMs bauen, haben wegen Monetarisierung durch Abos, Produktwerbung usw. sogar Anreize, die Qualität zu verschlechtern. Manche sind bereits politisch voreingenommen. Wenn Europa über eine Zusammenarbeit von Wissenschaft und Staat Such- und AI-Dienste im öffentlichen Interesse anbieten und sich dabei stärker an den Nutzern orientieren würde, wäre das sehr bedeutsam.
- Allerdings ist schon das Bereitstellen solcher Dienste an sich komplex. Selbst wenn man ein gutes Modell trainiert, wird das eigentliche Serving weiterhin privatwirtschaftlich erfolgen. Damit bleibt der Monetarisierungsdruck grundsätzlich bestehen. Bei AI könnte diese Tendenz wegen der hohen Betriebskosten sogar noch stärker sein. Am Ende gilt: Wenn der Dienst kostenlos ist, wird der Nutzer zum Produkt, also muss aktiv Wert aus ihm gezogen werden, damit Gewinn übrig bleibt.
Ich will das auch möglichst bald in der Praxis testen.
Ich frage mich, warum so etwas schon vor dem eigentlichen Release auf diese Weise angekündigt wird. Ich finde, man sollte da offen sprechen.
- Diese Ankündigung erfolgte beim International Open-Source LLM Builders Summit, der diese Woche in der Schweiz stattfand. Da ist es aus meiner Sicht nicht besonders ungewöhnlich, Zeitplan und Vorhaben zu teilen.
- Es könnte um Funding gehen. Und es hat auch Bedeutung, europäischen Nutzern ein in Europa öffentlich entwickeltes LLM einzuprägen, also zumindest keines aus den USA oder China. (Vielleicht ist das schon wieder zu logisch, um in Brüssel genehmigt zu werden.)
- In der Schweiz ist es ein Klischee, dass man Dinge sehr gemächlich angeht.

ETH Zurich und EPFL wollen ein auf öffentlicher Infrastruktur entwickeltes LLM veröffentlichen

Internationale Zusammenarbeit und Hintergrund für den Aufbau eines offenen LLM

Merkmale und Veröffentlichungsplan des neuen öffentlichen LLM

Prinzipien vollständiger Offenheit und Transparenz

Einschätzungen von Fachleuten

Mehrsprachiges Design

Skalierbarkeit und Inklusivität

Verantwortungsvolle Datennutzung

Entwicklung auf Supercomputer-Basis und Nachhaltigkeit

Offener Zugang und globale Nutzung

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare