- Ein großes Sprachmodell (LLM), das unter Federführung von ETH Zurich und EPFL vollständig offen auf öffentlicher Infrastruktur entwickelt wurde, soll in Kürze erscheinen
- Das Modell legt den Schwerpunkt auf Transparenz, mehrsprachige Leistung und breite Zugänglichkeit und kann dadurch in Wissenschaft, Verwaltung und Privatwirtschaft vielseitig eingesetzt werden
- Quellcode und Gewichte sowie die Trainingsdaten werden offengelegt, und der gesamte Prozess ist auf Reproduzierbarkeit ausgelegt, um offene Forschung und die Einhaltung regulatorischer Vorgaben zu fördern
- Es wurde auf dem neuesten Supercomputer Alps (CSCS) mit umweltfreundlicher Energie trainiert und zielt auf Größe, hohe Leistung und einen verantwortungsvollen Umgang mit Daten ab
- Das LLM soll gegen Ende des Sommers unter der Apache-2.0-Lizenz veröffentlicht werden und voraussichtlich weltweit Innovation und Forschung voranbringen
Internationale Zusammenarbeit und Hintergrund für den Aufbau eines offenen LLM
- Beim in Genf veranstalteten International Open-Source LLM Builders Summit kamen rund 50 Organisationen aus den Bereichen globales Open-Source-LLM und vertrauenswürdige KI zusammen
- Die von den AI-Zentren von EPFL und ETH Zurich ausgerichtete Veranstaltung war ein wichtiger Impuls für die Belebung des Ökosystems offener Basismodelle und die Zusammenarbeit
- Offene LLMs werden zunehmend als Alternative zu kommerziellen Systemen wahrgenommen, die in den USA, China und anderswo nicht öffentlich entwickelt werden
Merkmale und Veröffentlichungsplan des neuen öffentlichen LLM
- In Zusammenarbeit von Forschenden der EPFL, der ETH Zurich und weiterer Schweizer Hochschulen sowie Ingenieurinnen und Ingenieuren des CSCS soll bald ein vollständig offenes, öffentlich entwickeltes LLM erscheinen
- Es befindet sich derzeit in der abschließenden Testphase und soll unter einer offenen Lizenz zum Download bereitgestellt werden
- Zu den zentralen Werten des Modells zählen Transparenz, mehrsprachige Leistung und breite Zugänglichkeit
Prinzipien vollständiger Offenheit und Transparenz
- Sowohl der Quellcode als auch die Gewichte des Modells sollen veröffentlicht werden
- Auch die Trainingsdaten werden transparent offengelegt und reproduzierbar aufbereitet, um die Einführung in Wissenschaft, Verwaltung, Bildung und Privatwirtschaft zu unterstützen
- Dieser Ansatz soll Innovation fördern und Verantwortlichkeit stärken
Einschätzungen von Fachleuten
- Imanol Schlag, Forscher am ETH AI Center, betont, dass vollständig offene Modelle unverzichtbar für vertrauenswürdige Anwendungen und die Weiterentwicklung der Forschung zu KI-Risiken und -Chancen seien
- Ein transparenter Prozess erleichtert zudem die Einhaltung regulatorischer Vorgaben
Mehrsprachiges Design
- Eines der Kernmerkmale des Modells ist die Unterstützung von mehr als 1.000 Sprachen
- Professor Antoine Bosselut erklärte, man habe sich von Anfang an auf umfassende mehrsprachige Unterstützung konzentriert
- Das Grundtraining erfolgte mit einem großen Datensatz aus mehr als 1.500 Sprachen (60 % Englisch, 40 % Nicht-Englisch) sowie mit Code- und Mathematikdaten
- Dadurch spiegelt das Modell Inhalte aus verschiedenen Sprachen und Kulturen weltweit wider und bietet eine hohe globale Einsetzbarkeit
Skalierbarkeit und Inklusivität
- Das Modell soll in zwei Größen veröffentlicht werden: 8 Milliarden (8B) und 70 Milliarden (70B) Parameter
- Die 70B-Version gehört zu den leistungsstärksten vollständig offenen Modellen der Welt
- Es wurde mit mehr als 15 Billionen hochwertigen Tokens (kleine Texteinheiten) trainiert und erreicht dadurch hohe Zuverlässigkeit und breite Einsetzbarkeit
Verantwortungsvolle Datennutzung
- Die Entwicklung erfolgt unter Einhaltung der Transparenzpflichten nach schweizerischem Datenschutzrecht, Urheberrecht und dem EU AI Act
- Jüngste Forschung zeigt, dass die Beachtung von Opt-outs beim Web-Crawling (Robots Exclusion Standard) die Leistung von LLMs kaum beeinträchtigt
Entwicklung auf Supercomputer-Basis und Nachhaltigkeit
- Das Training des Modells findet auf dem Alps-Supercomputer des CSCS in Lugano statt
- Ausgestattet mit 10.000 NVIDIA Grace Hopper Superchips, einer KI-Infrastruktur auf Spitzenniveau
- Effizientes Training mit zu 100 % CO2-neutralem Strom möglich
- Die erfolgreiche Umsetzung von Alps wurde durch eine 15-jährige strategische Zusammenarbeit mit NVIDIA und HPE/Cray ermöglicht
- Alps spielt eine Schlüsselrolle bei der Erfüllung der Anforderungen großer KI-Workloads, darunter das Pretraining komplexer LLMs
- Professor Thomas Schulthess betonte, dass die gemeinsamen Anstrengungen öffentlicher Forschungseinrichtungen und der Industrie zeigen, wie souveräne KI-Infrastruktur und offene Innovation Wissenschaft und Gesellschaft weltweit zugutekommen
Offener Zugang und globale Nutzung
- Das LLM soll gegen Ende des Sommers unter der Apache-2.0-Lizenz veröffentlicht werden
- Zusammen mit dem Modell werden Dokumentationen zu Architektur, Trainingsmethoden und Nutzungsrichtlinien bereitgestellt, um transparente Wiederverwendung und Weiterentwicklung zu unterstützen
- Professor Antoine Bosselut sagte, er hoffe, dass öffentliche Forschende bei der Weiterentwicklung offener Modelle eine führende Rolle übernehmen und unterschiedliche Organisationen darauf aufbauend eigene Anwendungen entwickeln
- Professor Martin Jaggi erklärte, dass vollständige Offenheit ein wichtiger Faktor sei, um durch die Schweiz, Europa und internationale Zusammenarbeit Innovation zu fördern und Spitzenkräfte anzuziehen
1 Kommentare
Hacker-News-Kommentare
Ich bin gespannt auf die Ergebnisse. Soweit ich weiß, trainieren oder finetunen ETH und EPFL eher ältere Versionen statt der neuesten LLaMA-Modelle, daher könnten sie gegenüber der SOTA-Performance etwas zurückliegen. Aber ich denke, der wichtigste Punkt ist, dass ETH und EPFL Erfahrung mit großskaligem Training aufbauen. Soweit ich gehört habe, kämpft der neu aufgebaute AI-Cluster in der Anfangsphase noch mit vielen Kinderkrankheiten. Leute unterschätzen oft, wie schwierig es in dieser Größenordnung ist, Modelle auf eigener Infrastruktur zu trainieren.<br>Zur Einordnung: Ich bin in der Schweiz geboren und habe an der ETH studiert. An Köpfchen mangelt es nicht, aber Erfahrung mit großskaligem Training ist noch begrenzt. Außerdem denke ich persönlich, dass viel von der „Magie“ bei LLMs in Wirklichkeit aus der Infrastruktur kommt.
Tatsächlich kommt viel von der Magie aus den Datensätzen, besonders aus SFT und anderen Finetuning-/RLHF-Daten. Genau das war in der Praxis oft der Unterschied zwischen Modellen, die Menschen tatsächlich nutzen, und solchen, die sie nicht nutzen. Dem Punkt mit der Erfahrung stimme ich voll zu, und ich halte den Aufbau von Infrastruktur für einen zentralen Teil einer souveränen LLM-Lieferkette. Aber auch den Daten sollte von Anfang an genug Aufmerksamkeit gewidmet werden, damit das Modell am Ende wirklich brauchbar wird.
Um ein SOTA-LLM zu trainieren, wird auch die Infrastruktur ziemlich komplex. Viele glauben, man müsse nur die Architektur und Datensätze hochladen und etwas wie Ray verwenden, dann sei alles erledigt. In Wirklichkeit braucht es aber unglaublich viele Bausteine: Datensatzdesign, Aufbau von Evaluierungs-Pipelines, Trainingsmethoden, maximale Hardware-Auslastung, Latenzen zwischen Nodes, Fehlerbehebung und Recovery und vieles mehr. Trotzdem ist es gut, wenn in diesem Bereich mehr Akteure dazukommen.
Ich habe aus der Formulierung „from scratch“ geschlossen, dass es um Pretraining und nicht um Finetuning geht. Falls jemand das anders sieht, würde mich das interessieren. Und mich würde auch interessieren, ob sie mit einer allgemeinen Llama-Architektur arbeiten. Auf die Benchmark-Ergebnisse bin ich gespannt.
Der Satz, dass <i>die Beachtung von opt-outs beim Web-Crawling kaum Leistungseinbußen verursacht</i>, freut mich sehr.
Ich frage mich, ob das hier ein neuer Maßstab für Transparenz bei Datensätzen ist. Falls das klappt, wäre das ein wichtiger Fortschritt. Allerdings wäre es lustiger gewesen, die Maschine AIps (AI Petaflops Supercomputer) zu nennen.
Das OLMo-Modell des Allen Institute for Artificial Intelligence ist ebenfalls vollständig offen.<br><i>OLMo is fully open</i><br>AI2 vertritt die Auffassung, dass echte Offenheit bedeutet, Daten, Modell und Code offenzulegen.<br>Mehr zu OLMo
Soweit ich weiß, ist auch Smollm ein vollständig offenes Modell.
Offene Trainingsdaten sind das entscheidende Unterscheidungsmerkmal. Ich frage mich, ob dies das erste wirklich offene Dataset in dieser Größenordnung ist. Frühere Versuche wie The Pile waren ebenfalls wertvoll, hatten aber ihre Grenzen. Ich bin auch gespannt, wie die Reproduzierbarkeit des Trainings sichergestellt werden soll.
Die Formulierung „Das Modell wird vollständig offen sein: Quellcode und Gewichte werden veröffentlicht, die Trainingsdaten sind transparent und reproduzierbar“ legt für mich nahe, dass der Schwerpunkt eher auf „reproduzierbar“ liegt als darauf, dass der komplette Trainingsdatensatz offengelegt wird. Vermutlich könnten Referenzen wie Listen der tatsächlich fürs Training verwendeten Seiten-URLs veröffentlicht werden, aber nicht unbedingt deren Inhalte selbst.
Genau, da spielen weiterhin die klassischen Copyright-Fragen hinein, daher wird es das wohl nicht einfach als fertig paketiertes Dataset geben.
Genau das ist mit „Demokratisierung von AI“ gemeint.
Die Pressemitteilung geht sehr ausführlich darauf ein, wie das Ganze gebaut wurde, liefert aber fast keine Informationen dazu, welche Fähigkeiten es im Vergleich zu anderen offenen Modellen tatsächlich hat.
Bei Universitäten ist es natürlich, sich auf das „Wie wurde es gebaut?“ zu konzentrieren, weil das Vermitteln genau dieses Aspekts ein zentraler Teil ihres Bildungsauftrags ist.
Dort heißt es, <i>das Modell werde in zwei Versionen veröffentlicht, 8B (8 Milliarden) und 70B (70 Milliarden), und die 70B-Version werde eines der leistungsfähigsten offenen Modelle der Welt sein; eine Veröffentlichung unter der Apache-2.0-Lizenz sei für Ende dieses Sommers geplant</i>. Im September werden wir ja sehen, wie es tatsächlich aussieht.
Als Schweizer macht es mich stolz, diese Nachricht ganz oben auf HN zu sehen. Diese beiden Hochschulen haben viele Gründer, Forscher und Ingenieure von Weltrang hervorgebracht und standen doch immer etwas im Schatten der USA. Aber dank hervorragender öffentlicher Infrastruktur, Bildung und politischer Stabilität (+ Neutralität) könnten sie im Bereich offener LLMs eine besondere Chance haben.
Im Artikel heißt es:<br>„Offene LLMs werden zunehmend als vertrauenswürdige Alternative wahrgenommen, während die meisten kommerziellen Systeme in den USA oder China hinter verschlossenen Türen entwickelt werden.“<br>Unternehmen, die heute große LLMs bauen, haben wegen Monetarisierung durch Abos, Produktwerbung usw. sogar Anreize, die Qualität zu verschlechtern. Manche sind bereits politisch voreingenommen. Wenn Europa über eine Zusammenarbeit von Wissenschaft und Staat Such- und AI-Dienste im öffentlichen Interesse anbieten und sich dabei stärker an den Nutzern orientieren würde, wäre das sehr bedeutsam.
Ich will das auch möglichst bald in der Praxis testen.
Ich frage mich, warum so etwas schon vor dem eigentlichen Release auf diese Weise angekündigt wird. Ich finde, man sollte da offen sprechen.
Diese Ankündigung erfolgte beim International Open-Source LLM Builders Summit, der diese Woche in der Schweiz stattfand. Da ist es aus meiner Sicht nicht besonders ungewöhnlich, Zeitplan und Vorhaben zu teilen.
Es könnte um Funding gehen. Und es hat auch Bedeutung, europäischen Nutzern ein in Europa öffentlich entwickeltes LLM einzuprägen, also zumindest keines aus den USA oder China. (Vielleicht ist das schon wieder zu logisch, um in Brüssel genehmigt zu werden.)
In der Schweiz ist es ein Klischee, dass man Dinge sehr gemächlich angeht.