Wenn man ein Modell nicht reproduzieren kann, ist es nicht Open Source

xguru · 2024-01-22T10:27:01+09:00

Die Open-Source-AI-Revolution hat noch nicht stattgefunden Natürlich gibt es beeindruckende Open-Weight-Modelle, und denjenigen, die ihre Gewichte veröffentlichen, gebührt Dank, aber wenn man ein Modell nicht reproduzieren kann, ist es kein echtes Open Source Man stelle sich vor, unter Linux würde nur ein Binärpaket ohne Codebasis veröffentlicht. Oder man stelle sich vor, die Codebasis würde veröffentlicht, aber nicht der Compiler, mit dem das Binärpaket erstellt wurde. Genau das ist die heutige Situation Das hat mehrere Nachteile Man kann nicht wieder zum Projekt beitragen Das Projekt profitiert nicht von der OSS-Feedbackschleife Es ist schwer zu überprüfen, ob das Modell keine Backdoors hat (z. B. latente Agenten) Es lässt sich nicht überprüfen, ob Daten- und Inhaltsfilter mit den Unternehmensrichtlinien übereinstimmen Man ist darauf angewiesen, dass das Unternehmen das Modell aktualisiert Ein echtes Open-Source-LLM-Projekt, bei dem vom Codebestand bis zur Datenpipeline alles offengelegt ist, kann viel Wert und Kreativität schaffen und die Sicherheit verbessern Allerdings ist es nicht trivial, Gewichte zu reproduzieren, weil das nicht so einfach ist wie Code zu kompilieren. Man braucht Rechenleistung und Know-how. Und Beiträge zu prüfen ist schwierig, weil man ihre Auswirkungen auf die Leistung erst beim nächsten Training erkennen kann Aber Personen oder Gruppen mit ausreichend Motivation können diese Details herausarbeiten, und auch wenn es möglicherweise ganz anders aussieht als bestehendes OSS, sind genau diese neuen Herausforderungen der Grund, warum dieser Bereich spannend ist

(twitter.com/amasad)

15 Punkte von xguru 2024-01-22 | 3 Kommentare | Auf WhatsApp teilen

Die Open-Source-AI-Revolution hat noch nicht stattgefunden
Natürlich gibt es beeindruckende Open-Weight-Modelle, und denjenigen, die ihre Gewichte veröffentlichen, gebührt Dank, aber wenn man ein Modell nicht reproduzieren kann, ist es kein echtes Open Source
Man stelle sich vor, unter Linux würde nur ein Binärpaket ohne Codebasis veröffentlicht. Oder man stelle sich vor, die Codebasis würde veröffentlicht, aber nicht der Compiler, mit dem das Binärpaket erstellt wurde. Genau das ist die heutige Situation
Das hat mehrere Nachteile
- Man kann nicht wieder zum Projekt beitragen
- Das Projekt profitiert nicht von der OSS-Feedbackschleife
- Es ist schwer zu überprüfen, ob das Modell keine Backdoors hat (z. B. latente Agenten)
- Es lässt sich nicht überprüfen, ob Daten- und Inhaltsfilter mit den Unternehmensrichtlinien übereinstimmen
- Man ist darauf angewiesen, dass das Unternehmen das Modell aktualisiert
Ein echtes Open-Source-LLM-Projekt, bei dem vom Codebestand bis zur Datenpipeline alles offengelegt ist, kann viel Wert und Kreativität schaffen und die Sicherheit verbessern
- Allerdings ist es nicht trivial, Gewichte zu reproduzieren, weil das nicht so einfach ist wie Code zu kompilieren. Man braucht Rechenleistung und Know-how.
- Und Beiträge zu prüfen ist schwierig, weil man ihre Auswirkungen auf die Leistung erst beim nächsten Training erkennen kann
Aber Personen oder Gruppen mit ausreichend Motivation können diese Details herausarbeiten, und auch wenn es möglicherweise ganz anders aussieht als bestehendes OSS, sind genau diese neuen Herausforderungen der Grund, warum dieser Bereich spannend ist

3 Kommentare

coyai 2024-02-07

Stimmt,

GitHub und Hugging Face sind schon seit Langem keine wirklich offenen Open-Source-Repositories mehr, sondern zu Marketing-Plattformen verkommen.
Einige Modelle stellen nicht einmal lauffähige Binärdateien bereit (https://github.com/AIGCDesignGroup/ReplaceAnything)
Wenn nur eine Online-Demo angeboten wird und das Ganze lediglich dazu dient, eine Marketing-Demo der eigenen Technologie zu veröffentlichen – was soll daran eine Open-Source-Plattform sein?
Auch GitHub und Hugging Face werden am Ende zu Müll-Sites, auf denen wie früher bei sozialen Netzwerken Fälschungen und Murks wuchern.

Deshalb wird Open Source inzwischen zu einem Mythos oder einer Urban Legend. Tatsächlich gibt es auf diesen Sites fast keine Open-Source-Modelle im eigentlichen Sinn, die sich vollständig reproduzieren lassen. Das meiste ist ein Marketing-Stunt.

cosine20 2024-01-29

Ich kann das zwar nachvollziehen, aber ... bei den Modellen, die heutzutage erscheinen, sind die für das Training nötige Rechenleistung und Zeit für normale Einzelpersonen so schwer aufzubringen, dass ich nicht genau weiß, wie das aussehen soll.
Was die Offenlegung des Datensatzes angeht, kann ich dem allerdings auch etwas zustimmen.

xguru 2024-01-22

Hacker-News-Kommentare

Stell dir vor, Linux würde nur Binärdateien ohne Codebasis oder nur die Codebasis ohne Compiler veröffentlichen. Genau in dieser Situation befinden wir uns gerade.
- Das ist eine gute Analogie, die die Probleme mit aktuellen „Open-Source-Modellen“ erklärt. Durch diesen Vergleich wird das Problem solcher Open-Source-Modelle deutlich.
Nehmen wir das Beispiel CERN: Dort werden verschiedene experimentelle Daten unter der CC0-Lizenz veröffentlicht. Das sind nicht bloß kleine Datensätze, sondern große Mengen wie die vollständigen Daten des ersten Runs von LHCb.
- CERN veröffentlicht die Daten nicht einfach und überlässt sie dann sich selbst, sondern stellt auch Analyseleitfäden und die nötigen Tools bereit, darunter ROOT, das größtenteils Open Source ist. Dadurch kann jeder etwas Neues entdecken oder bestehende Experimentanalysen erweitern. Diese offenen Daten und Tools erfüllen die Bedingungen für Reproduzierbarkeit, auch wenn die Daten nicht direkt neu erzeugt werden müssen. Theoretisch könnte man den LHC neu bauen, aber das würde sehr viel Personal, Geld und Zeit erfordern. Im Gegensatz dazu kann man bei Open-Source-Modellen die Gewichte durch erneutes Training erhalten, aber die Kosten für die Beschaffung der Daten und die Reproduktion der Gewichte sind in der Regel enorm. Man sollte auch bedenken, dass CERN keine Rohdaten veröffentlicht, die größtenteils aus Rauschen bestehen, sondern stärker aufbereitete Versionen. Es ist zwar schwierig, riesige Rohdatenmengen herunterzuladen, aber um etwas wie ein Large Language Model (LLM) zu trainieren, könnte der vollständige Datensatz nötig sein, was oft eigene Probleme wie Urheberrechtsfragen mit sich bringt.
Die Veröffentlichung des Datensatzes ist das größte Problem. Dann werden Menschen und Unternehmen klagen und behaupten, ihre Urheberrechte seien verletzt worden.
- Wenn der Datensatz urheberrechtlich geschützte Inhalte enthält, könnten Rechteinhaber tatsächlich klagen. Es würde mich nicht überraschen, wenn ein Modell den gesamten Datensatz von Z-Library oder Google Books enthalten hätte.
Die Open Source Initiative hat im vergangenen Jahr eine Reihe durchgeführt, in der die Ansichten verschiedener Stakeholder dazu gesammelt wurden, ob AI Open Source ist.
- Ich habe an einer Sitzung teilgenommen, die den ganzen Nachmittag bei All Things Open lief. Ich empfehle, sich die bereits laufende Diskussion zu diesem Thema anzusehen. Das ist ein sehr viel nuancierteres Problem, als es in einen Tweet passt.
Den Begriff „Open Source“ auf AI-Modelle anzuwenden, ist komplizierter als bei Software. Viele sehen Reproduzierbarkeit als Kriterium dafür, etwas als Open Source zu betrachten.
- Bei AI-Modellen werden oft das Modell selbst, der Datensatz und das Trainingsrezept, etwa Prozess und Hyperparameter, als eine Art Quellcode betrachtet. Damit kann man, sofern man über genügend Rechenleistung verfügt, das Modell trainieren und die Gewichte erhalten.
Mit Open Core ist es genauso – wenn du es nicht in deiner eigenen Infrastruktur hosten kannst, ist es keine echte Open-Source-Software.
- Wenn es sich nicht in der eigenen Infrastruktur hosten lässt, gilt es nicht als echte Open-Source-Software.
„Das Projekt profitiert nicht von der OSS-Feedback-Schleife.“ Weil man keinen PR mit Trainingsdaten einreichen kann, der ein bestimmtes Problem behebt, etwa einen Bugfix, glaube ich nicht, dass man hier viel Feedback-Schleife sehen wird.
- „Es ist schwer zu verifizieren, dass das Modell keine Backdoor enthält.“ Angesichts der Größe des Datensatzes und der Intransparenz des Trainingsprozesses wird es nur sehr wenige Menschen geben, die überhaupt erkennen könnten, ob die Trainingsdaten eine Backdoor enthalten.
- „Es ist schwer, Daten- und Content-Filter zu verifizieren und sicherzustellen, dass sie mit den Unternehmensrichtlinien übereinstimmen.“ Unternehmensrichtlinien lassen sich auch ohne Zugriff auf die Trainingsdaten auf die Modellausgabe anwenden. Es stellt sich die Frage, ob wirklich jedes Unternehmen Eingabedaten filtern und ein eigenes Modell trainieren muss.
- „Man wird vom Unternehmen abhängig, wenn das Modell aktualisiert werden muss.“ Angesichts der heutigen Kosten ist das für die meisten Menschen ohnehin bereits der Fall.
- „Ein echtes Open-Source-LLM-Projekt, bei dem alles von der Codebasis bis zur Datenpipeline offen ist, könnte viel Wert und Kreativität freisetzen und die Sicherheit verbessern.“ Bei LLMs bin ich insgesamt skeptisch, dass das stimmt. Vielmehr könnte es die Angriffsfläche für böswillige Akteure vergrößern.
„Die bevorzugte Form des Werks für Änderungen an dem Werk ist der ‚Source Code‘.“
- Zitat aus GPLv3
- Interessanterweise werden bei diesem AI/ML-Modell die Gewichte zwar aus dem Trainingssatz abgeleitet, aber für Änderungen ist kein Zugriff auf den ursprünglichen Trainingssatz erforderlich. Es gibt viele Tutorials dazu, wie man Fine-Tuning ohne Zugriff auf den ursprünglichen Trainingssatz durchführt.
Ich stimme nicht zu, und die Analogie passt nicht. Die Dinge, die er auflistet, kann man mit einem trainierten Modell tun. Die Daten zu besitzen ist praktisch ein Problem, das niemanden interessiert. Bei Open-/Freier-Software geht es darum, Freiheiten auszuüben, und wenn man Modellgewichte und Code hat, kann man all diese Freiheiten ausüben.
Gibt es ein wirkliches Open-Source-LLM, bei dem alle Trainingsdaten öffentlich verfügbar sind (unter kompatiblen Lizenzen) und die Trainingssoftware ein bitidentisches Modell reproduzieren kann?
- Ist das Training nichtdeterministisch? Mir ist bekannt, dass die Ausgabe von LLMs absichtlich nichtdeterministisch ist.

Wenn man ein Modell nicht reproduzieren kann, ist es nicht Open Source

Verwandte Beiträge

3 Kommentare

Hacker-News-Kommentare