1 Punkte von GN⁺ 4 시간 전 | 1 Kommentare | Auf WhatsApp teilen
  • Das Schweizer KI-Ökosystem hat mit Blick auf souveräne KI sein eigenes Foundation Model Apertus vorgestellt und stellt die Zusammenarbeit von EPFL, ETH Zurich und CSCS in den Vordergrund
  • Das zentrale Unterscheidungsmerkmal sind offene Gewichte, offene Daten und offene Wissenschaft; Trainingsdaten, Code, Gewichte, Methodik und Alignment-Prinzipien werden dokumentiert, um die Reproduzierbarkeit zu betonen
  • In Bezug auf Regulierung und Vertrauen werden die Anforderungen des EU AI Act berücksichtigt, darunter die Beachtung von Opt-out, die Entfernung von PII und Maßnahmen zur Vermeidung von Memorization
  • Bei einer Größe von 8B und 70B Parametern soll die Leistung mit führenden offenen Modellen derselben Klasse konkurrieren können; trainiert wurde von Anfang an in mehr als 1000 Sprachen
  • Swisscom ist als strategischer Partner beteiligt; künftige Releases, Forschung und Community-Neuigkeiten sollen über einen Newsletter folgen

Entwicklungsträger und Umfang der Veröffentlichung

  • Apertus ist ein Foundation Model, das von der Swiss AI Initiative entwickelt wurde
  • Der Veröffentlichungsumfang umfasst Trainingsdaten, Code, Gewichte, Methodik und Alignment-Prinzipien
  • Die veröffentlichten Elemente sollen dokumentiert und reproduzierbar sein
  • Apertus unterstreicht seinen Charakter als offenes Modell mit dem Satz: „In der KI ist Open gleich Source“

Umgang mit Regulierung und Modelleigenschaften

  • Das Modell wurde so aufgebaut, dass es die Anforderungen des EU AI Act erfüllt
    • Opt-out wird respektiert
    • PII wird entfernt
    • Memorization wird verhindert
  • Bei 8B und 70B Parametern wird eine Leistung beansprucht, die mit führenden offenen Modellen derselben Größenklasse konkurrieren kann
  • Mehrsprachige Unterstützung ist von Beginn an enthalten; trainiert wurde in mehr als 1000 Sprachen

Partnerschaften und Community-Neuigkeiten

  • Swisscom ist strategischer Partner der Swiss AI Initiative
  • Der Newsletter informiert über Apertus-Releases, Forschung des Teams und Neuigkeiten aus der Community

1 Kommentare

 
GN⁺ 4 시간 전
Hacker-News-Kommentare
  • Als vollständig offene LLMs gibt es auch OLMo 3.1 von Allen AI und K2 Think V2 von MBZUAI; beide haben die komplette Trainingspipeline und die Datensätze offengelegt
    Nvidia Nemotron ist ebenfalls ein offen trainiertes Quellmodell, aber ein Teil des Datensatzes ist proprietär
    Um einen Kommentar von lambda zu zitieren: Die Nemotron-Modelle sind im Allgemeinen stärker als Olmo und K2 Think V2 (gemessen an den Benchmarks von Artificial Analysis), und die Datensätze überschneiden sich stark. Mehrere Datensätze wurden aus denselben Quellen nur mit unterschiedlichem Filtering erstellt, und auch Olmo und K2 Think V2 haben einige Nemotron-Datensätze verwendet
    Nemotron ist ein modernes und ziemlich leistungsfähiges LLM, und selbst das 122b-Modell ist in den meisten Benchmarks stärker als Deepseek R1 (671b-Modell); kürzlich ist außerdem das 550b Ultra erschienen
    https://news.ycombinator.com/item?id=48492439

    • Allen AI bekommt bei Weitem nicht genug Aufmerksamkeit. Ich finde, generative AI hätte von Anfang an so aufgebaut werden sollen
      Wenn sich die Unternehmen an der Spitze für diesen Ansatz entschieden hätten, wäre der Start viel langsamer gewesen, aber 2035 stünden wir vermutlich deutlich weiter als heute. Stattdessen sind wir jetzt an einem Punkt, an dem ein großer Teil der Gesellschaft hofft, dass AI scheitert
    • Ich überlege, Nemotron noch einmal auszuprobieren. Gestern habe ich bei OpenRouter das neueste Modell getestet, und es war nicht besonders gut, sogar schlechter als StepFun
  • Die Idee gefällt mir, und die Notwendigkeit, dass sich alle außerhalb der USA mit technologischer Souveränität beschäftigen, ist noch größer geworden. Die USA sind nämlich kein sicherer Ort mehr, um Daten zu speichern
    Allerdings wirkt Apertus so, als bewege es sich mit der Geschwindigkeit eines Komitees, daher erwarte ich nicht, dass daraus ein konkurrenzfähiges Modell entsteht. Mit aktuellen Modellen kann es wohl kaum mithalten; vielleicht mit Modellen von vor einem Jahr, aber selbst das scheint bisher nicht gelungen zu sein

    • Der Aussage „Die USA sind kein sicherer Ort mehr, um Daten zu speichern“ stimme ich zu, aber ich frage mich, warum andere Länder ein besserer Daten-Zufluchtsort sein sollten
      Persönlich gefällt mir der Datenschutzansatz der EU, aber ich frage mich, ob dabei andere Regionen oder Schutzmechanismen gemeint sind, die Daten wirklich „sicher“ halten könnten
  • Ich denke auch hier passt die Linux-Analogie nicht. Das hier ist größer als das und eine direkte Bedrohung für kommerzielle AI-Labore und deren Geschäftsmodell
    Diese Labore verwerten seit Jahren dieselben grundlegenden Papers immer wieder, und das Ende scheint nahe zu sein
    Künftig könnten Open-Source-, offene Daten- und offene Recipe-Modelle im Zentrum stehen, und irgendwann könnten nicht nur Inferenz, sondern auch Training per BitTorrent-artigem Crowdsourcing organisiert werden
    Zum Schluss noch: Chinesische Modelle (GLM, Deepseek, MiMax) funktionieren ebenfalls wirklich gut, und Nutzer solcher Modelle würden sagen, dass sie OpenAI/Anthropic/Gemini überhaupt nicht vermissen. Dann ist das ein guter Grund zu sagen, dass man mit solchen offenen Modellen auch chinesische Modelle nicht besonders vermissen würde

  • Für ein Modell, das behauptet, sich auf viele Sprachen zu konzentrieren, ist es bei einfachen Fragen wie „Wie sagt man X auf Sprache Y?“ oder „Wie konjugiert man Verb X in Sprache Y?“ ziemlich instabil
    Es halluziniert ständig Wörter, die nicht existieren, und selbst nach Korrekturen erfindet es neue Unwahrheiten

    • Wahrscheinlich kann es oft nicht erkennen, auf welche Sprache sich ein bestimmtes Wortbündel bezieht
      Ich vermute nicht, dass viel Trainingsmaterial mit Sprachlabels eingeflossen ist
      „Wie sagt man X auf Sprache Y?“ ist eine andere Aufgabe als X tatsächlich auf Sprache Y zu sagen
  • Ihr Instruction-Modell sieht wie ein Llama3.1-Finetuning vom letzten Jahr aus. Ich frage mich, ob es beim neuen Modell Fortschritte gibt
    Meine letzte Hoffnung für souveräne AI liegt bei chinesischen offenen Modellen

    • Souveräne AI bedeutet nicht, nur ein einziges Modell zu verwenden. Es geht darum, für eine Aufgabe das passende Modell einzusetzen und mehrere Modelle gemeinsam über eine Lösung diskutieren zu lassen, bevor eine Antwort erzeugt wird
      Wenn du Modelle auf diese Weise mischen willst, schau dir https://github.com/deepbluedynamics/nemesis8 an
  • Das mit Abstand einflussreichste Ergebnis des Apretus-Projekts sind eindeutig die Menschen. Um einen einprägsamen Satz von Dominique Paul(https://www.thisiscrispin.com/) zu zitieren: Was die meisten übersehen, ist, dass dieses Team nicht wie fast alle anderen LLM-Anbieter schon zum vierten Mal dasselbe tut und auch kein Team ist, das aus früheren eigenen Erfahrungen lernen konnte
    Wenn dieses Team noch einmal ein Modell trainieren würde, könnten die Kosten meiner Meinung nach auf ein Viertel sinken und die Ergebnisse deutlich besser werden

  • Die Lizenz ist ziemlich interessant, aber ich weiß nicht, wer diesem Ansatz langfristig folgen wird
    Die Trainingsdaten und das Apertus-LLM können Informationen enthalten oder erzeugen, die identifizierbare Personen direkt oder indirekt betreffen (personenbezogene Daten). Nutzer verarbeiten personenbezogene Daten als eigenständige Verantwortliche gemäß den anwendbaren Datenschutzgesetzen
    SNAI wird als Entwickler des Apertus-LLM regelmäßig eine Datei mit Hashwerten zum Download bereitstellen, in der eingegangene Datenschutz-Löschanträge berücksichtigt sind, und Nutzer können diese als Output-Filter anwenden. So lassen sich personenbezogene Daten aus Modell-Ausgaben entfernen, und SNAI empfiehlt nachdrücklich, diesen Output-Filter alle 6 Monate nach der Veröffentlichung des Modells herunterzuladen und anzuwenden

  • Die frühere Version dieses Modells war ziemlich schlecht, behauptete aber, das Urheberrecht einzuhalten. Als ich es selbst getestet habe, stellte sich heraus, dass auch das nicht stimmte, und deshalb halte ich es für völlig nutzlos

    • Solange die folgende Bedingung stimmt, leistet diese Veröffentlichung einen größeren Beitrag zur Wissenschaft insgesamt als die meisten Modelle, die „hinter verschlossenen Türen“ trainiert wurden
      Vollständig offenes Modell: offene Gewichte + offene Daten + vollständige Trainingsdetails einschließlich aller Daten und Training-Recipes
    • Es verwendet fineweb, das von Common Crawl abgeleitet ist, und Common Crawl hat Webseiten ohne Erlaubnis gecrawlt
    • Mich würde interessieren, wie du das getestet hast. Kannst du das erklären? Hattest du eine Menge einzelner Tatsachen, die urheberrechtlich geschützt sein müssten, und hast geprüft, ob das Modell somehow das gesamte Werk wortwörtlich erzeugt?
  • Ich frage mich, wie die Community über souveräne AI denkt, die von Staaten auf der ganzen Welt finanziert wird
    Warum wird „souverän“ so betont? Reicht offen nicht aus?