- Das Schweizer KI-Ökosystem hat mit Blick auf souveräne KI sein eigenes Foundation Model Apertus vorgestellt und stellt die Zusammenarbeit von EPFL, ETH Zurich und CSCS in den Vordergrund
- Das zentrale Unterscheidungsmerkmal sind offene Gewichte, offene Daten und offene Wissenschaft; Trainingsdaten, Code, Gewichte, Methodik und Alignment-Prinzipien werden dokumentiert, um die Reproduzierbarkeit zu betonen
- In Bezug auf Regulierung und Vertrauen werden die Anforderungen des EU AI Act berücksichtigt, darunter die Beachtung von Opt-out, die Entfernung von PII und Maßnahmen zur Vermeidung von Memorization
- Bei einer Größe von 8B und 70B Parametern soll die Leistung mit führenden offenen Modellen derselben Klasse konkurrieren können; trainiert wurde von Anfang an in mehr als 1000 Sprachen
- Swisscom ist als strategischer Partner beteiligt; künftige Releases, Forschung und Community-Neuigkeiten sollen über einen Newsletter folgen
Entwicklungsträger und Umfang der Veröffentlichung
- Apertus ist ein Foundation Model, das von der Swiss AI Initiative entwickelt wurde
- Die Swiss AI Initiative ist eine Zusammenarbeit von EPFL, ETH Zurich und CSCS
- Der Veröffentlichungsumfang umfasst Trainingsdaten, Code, Gewichte, Methodik und Alignment-Prinzipien
- Die veröffentlichten Elemente sollen dokumentiert und reproduzierbar sein
- Apertus unterstreicht seinen Charakter als offenes Modell mit dem Satz: „In der KI ist Open gleich Source“
Umgang mit Regulierung und Modelleigenschaften
- Das Modell wurde so aufgebaut, dass es die Anforderungen des EU AI Act erfüllt
- Opt-out wird respektiert
- PII wird entfernt
- Memorization wird verhindert
- Bei 8B und 70B Parametern wird eine Leistung beansprucht, die mit führenden offenen Modellen derselben Größenklasse konkurrieren kann
- Mehrsprachige Unterstützung ist von Beginn an enthalten; trainiert wurde in mehr als 1000 Sprachen
Partnerschaften und Community-Neuigkeiten
- Swisscom ist strategischer Partner der Swiss AI Initiative
- Der Newsletter informiert über Apertus-Releases, Forschung des Teams und Neuigkeiten aus der Community
1 Kommentare
Hacker-News-Kommentare
Als vollständig offene LLMs gibt es auch OLMo 3.1 von Allen AI und K2 Think V2 von MBZUAI; beide haben die komplette Trainingspipeline und die Datensätze offengelegt
Nvidia Nemotron ist ebenfalls ein offen trainiertes Quellmodell, aber ein Teil des Datensatzes ist proprietär
Um einen Kommentar von lambda zu zitieren: Die Nemotron-Modelle sind im Allgemeinen stärker als Olmo und K2 Think V2 (gemessen an den Benchmarks von Artificial Analysis), und die Datensätze überschneiden sich stark. Mehrere Datensätze wurden aus denselben Quellen nur mit unterschiedlichem Filtering erstellt, und auch Olmo und K2 Think V2 haben einige Nemotron-Datensätze verwendet
Nemotron ist ein modernes und ziemlich leistungsfähiges LLM, und selbst das 122b-Modell ist in den meisten Benchmarks stärker als Deepseek R1 (671b-Modell); kürzlich ist außerdem das 550b Ultra erschienen
https://news.ycombinator.com/item?id=48492439
Wenn sich die Unternehmen an der Spitze für diesen Ansatz entschieden hätten, wäre der Start viel langsamer gewesen, aber 2035 stünden wir vermutlich deutlich weiter als heute. Stattdessen sind wir jetzt an einem Punkt, an dem ein großer Teil der Gesellschaft hofft, dass AI scheitert
Die Idee gefällt mir, und die Notwendigkeit, dass sich alle außerhalb der USA mit technologischer Souveränität beschäftigen, ist noch größer geworden. Die USA sind nämlich kein sicherer Ort mehr, um Daten zu speichern
Allerdings wirkt Apertus so, als bewege es sich mit der Geschwindigkeit eines Komitees, daher erwarte ich nicht, dass daraus ein konkurrenzfähiges Modell entsteht. Mit aktuellen Modellen kann es wohl kaum mithalten; vielleicht mit Modellen von vor einem Jahr, aber selbst das scheint bisher nicht gelungen zu sein
Persönlich gefällt mir der Datenschutzansatz der EU, aber ich frage mich, ob dabei andere Regionen oder Schutzmechanismen gemeint sind, die Daten wirklich „sicher“ halten könnten
Ich denke auch hier passt die Linux-Analogie nicht. Das hier ist größer als das und eine direkte Bedrohung für kommerzielle AI-Labore und deren Geschäftsmodell
Diese Labore verwerten seit Jahren dieselben grundlegenden Papers immer wieder, und das Ende scheint nahe zu sein
Künftig könnten Open-Source-, offene Daten- und offene Recipe-Modelle im Zentrum stehen, und irgendwann könnten nicht nur Inferenz, sondern auch Training per BitTorrent-artigem Crowdsourcing organisiert werden
Zum Schluss noch: Chinesische Modelle (GLM, Deepseek, MiMax) funktionieren ebenfalls wirklich gut, und Nutzer solcher Modelle würden sagen, dass sie OpenAI/Anthropic/Gemini überhaupt nicht vermissen. Dann ist das ein guter Grund zu sagen, dass man mit solchen offenen Modellen auch chinesische Modelle nicht besonders vermissen würde
Für ein Modell, das behauptet, sich auf viele Sprachen zu konzentrieren, ist es bei einfachen Fragen wie „Wie sagt man X auf Sprache Y?“ oder „Wie konjugiert man Verb X in Sprache Y?“ ziemlich instabil
Es halluziniert ständig Wörter, die nicht existieren, und selbst nach Korrekturen erfindet es neue Unwahrheiten
Ich vermute nicht, dass viel Trainingsmaterial mit Sprachlabels eingeflossen ist
„Wie sagt man X auf Sprache Y?“ ist eine andere Aufgabe als X tatsächlich auf Sprache Y zu sagen
Ihr Instruction-Modell sieht wie ein Llama3.1-Finetuning vom letzten Jahr aus. Ich frage mich, ob es beim neuen Modell Fortschritte gibt
Meine letzte Hoffnung für souveräne AI liegt bei chinesischen offenen Modellen
Wenn du Modelle auf diese Weise mischen willst, schau dir https://github.com/deepbluedynamics/nemesis8 an
Das mit Abstand einflussreichste Ergebnis des Apretus-Projekts sind eindeutig die Menschen. Um einen einprägsamen Satz von Dominique Paul(https://www.thisiscrispin.com/) zu zitieren: Was die meisten übersehen, ist, dass dieses Team nicht wie fast alle anderen LLM-Anbieter schon zum vierten Mal dasselbe tut und auch kein Team ist, das aus früheren eigenen Erfahrungen lernen konnte
Wenn dieses Team noch einmal ein Modell trainieren würde, könnten die Kosten meiner Meinung nach auf ein Viertel sinken und die Ergebnisse deutlich besser werden
Die Lizenz ist ziemlich interessant, aber ich weiß nicht, wer diesem Ansatz langfristig folgen wird
Die Trainingsdaten und das Apertus-LLM können Informationen enthalten oder erzeugen, die identifizierbare Personen direkt oder indirekt betreffen (personenbezogene Daten). Nutzer verarbeiten personenbezogene Daten als eigenständige Verantwortliche gemäß den anwendbaren Datenschutzgesetzen
SNAI wird als Entwickler des Apertus-LLM regelmäßig eine Datei mit Hashwerten zum Download bereitstellen, in der eingegangene Datenschutz-Löschanträge berücksichtigt sind, und Nutzer können diese als Output-Filter anwenden. So lassen sich personenbezogene Daten aus Modell-Ausgaben entfernen, und SNAI empfiehlt nachdrücklich, diesen Output-Filter alle 6 Monate nach der Veröffentlichung des Modells herunterzuladen und anzuwenden
Die frühere Version dieses Modells war ziemlich schlecht, behauptete aber, das Urheberrecht einzuhalten. Als ich es selbst getestet habe, stellte sich heraus, dass auch das nicht stimmte, und deshalb halte ich es für völlig nutzlos
Vollständig offenes Modell: offene Gewichte + offene Daten + vollständige Trainingsdetails einschließlich aller Daten und Training-Recipes
Ich frage mich, wie die Community über souveräne AI denkt, die von Staaten auf der ganzen Welt finanziert wird
Warum wird „souverän“ so betont? Reicht offen nicht aus?