Ein wirklich offenes LLM: Hello OLMo ist da

(blog.allenai.org)

7 Punkte von GN⁺ 2024-04-09 | 1 Kommentare | Auf WhatsApp teilen

AI2 hat das Modell OLMo 7B veröffentlicht. Es handelt sich um ein Large Language Model im wirklich offenen Sinne von Open Source, bei dem sowohl die Vortrainingsdaten als auch der Trainingscode offengelegt wurden.
- Dadurch können Forschende und Entwickler gemeinsam die Wissenschaft rund um Sprachmodelle voranbringen, indem sie die besten offenen Modelle nutzen.
- Yann LeCun, KI-Wissenschaftler bei Meta, sagte, dass die Open-Source-Community die Zukunft der KI am schnellsten und effektivsten aufbauen könne.
Zentrale Merkmale des OLMo-Frameworks:
- Vollständige Vortrainingsdaten: Es nutzt den Datensatz Dolma von AI2, einschließlich des Codes zur Erzeugung der Trainingsdaten.
- Trainingscode und Modellgewichte: Bereitgestellt werden vollständige Modellgewichte, Inferenzcode, Trainingsmetriken und Trainingslogs für vier Modellvarianten im 7B-Maßstab.
- Evaluierung: Unter dem Projekt Catwalk werden mehr als 500 Checkpoints sowie Evaluierungscode und weitere für die Entwicklung verwendete Evaluierungswerkzeuge offengelegt.
Mit OLMo können KI-Forschende und Entwickler Folgendes erwarten:
- Präzisere Analysen: Auf Basis vollständiger Einblicke in die Trainingsdaten können sie schneller arbeiten.
- Geringere CO2-Emissionen: Durch die Offenlegung des gesamten Trainings- und Evaluierungsökosystems lässt sich doppelte Entwicklungsarbeit reduzieren.
- Nachhaltige Ergebnisse: Durch die Veröffentlichung von Modell und Datensatz können andere aus früheren Modellen lernen und darauf aufbauen.
Die Entwicklung von OLMo wurde durch die Zusammenarbeit mit AMD, CSC (Lumi Supercomputer), der University of Washington, Databricks und weiteren möglich.

Die Meinung von GN⁺

Dass zur Verbesserung der Transparenz von KI-Modellen auch Trainingsdaten und Code veröffentlicht wurden, scheint von großer Bedeutung zu sein. Allerdings könnten Probleme wie Datenbias bestehen, weshalb auch eine entsprechende Prüfung nötig erscheint.
Die Belebung des Open-Source-Ökosystems für Sprachmodelle dürfte die technologische Entwicklung beschleunigen. Es bleibt jedoch abzuwarten, welche Ergebnisse im Wettbewerb mit den geschlossenen KI-Modellen großer IT-Konzerne erzielt werden können.
Um die enormen Rechenressourcen für die KI-Entwicklung zu sichern, scheint die Zusammenarbeit mit verschiedenen Institutionen äußerst wichtig zu sein. Das könnte ein gutes Vorbild für Kooperationsmodelle zwischen Wissenschaft und Industrie sein.
Es wird erwartet, dass OLMo die wissenschaftliche Erforschung der Funktionsweise von Sprachmodellen belebt. Das könnte zur Entwicklung sichererer und vertrauenswürdigerer KI führen.

1 Kommentare

GN⁺ 2024-04-09

Hacker-News-Kommentare

Bei der Nutzung des LLM muss dem Autor mitgeteilt werden, zu welchem Zweck es verwendet wird. Das ist in der Lizenz festgelegt.
Wenn man Derivate erstellt, muss man bei AI2 einen Derivative Impact Report einreichen oder ähnliche Informationen schriftlich bereitstellen. AI2 kann diese Informationen öffentlich machen.
Über den Verwendungszweck von Derivaten muss transparent informiert werden.
Der Derivative Impact Report dient nicht dazu, Offenlegungen in gutem Glauben zu bestrafen. Wird in diesem Zusammenhang Klage eingereicht, endet der Vertrag sofort.
Es ist eines der wirklich Open-Source-Modelle. Die meisten veröffentlichen nur die Gewichte, dieses hier ist dagegen end-to-end offen.
Überraschend, dass ein Vergleich mit Mistral 7b nicht erwähnt wird.
"The Pile" scheint nicht in den Trainingsdaten enthalten zu sein. Rechtlich könnte es solider sein als andere "offene" LLMs.
Was bedeutet die auf den Datensatz angewandte Risikoklassifizierung tatsächlich? Auf der Lizenzseite wird das nicht ausreichend erklärt. Bedeutet das das Risiko, dass er lizenzrechtlich nicht kompatibel für die Nutzung als Trainingsdatensatz ist?
Trotz der kleinen Größe ist es überraschend schnell.
Ist das eines der ersten bemerkenswerten LLMs, das erfolgreich auf AMD-GPUs trainiert wurde? Ich frage mich, wie reibungslos der Prozess war und ob es Schwierigkeiten gab.
Bei diesem Modell und ähnlichen Modellen tritt bei der Inferenz das Problem der "wiederholten Tokens" auf. Das passiert häufig, wenn das Kontextfenster in der Mitte lang ist.
Es wirkt so, als würde das Training in einer Art lokalem Minimum hängen bleiben. Die Temperatur scheint Einfluss zu haben, löst das Problem aber nicht vollständig.
Schade, dass im Blogpost keine Vergleichstabelle enthalten ist.
Für mich persönlich ist dies das interessanteste LLM. Es ist ein mächtiges Werkzeug, das die Suche ersetzen und sogar Recherche durchführen kann, um eine endgültige Antwort zu liefern. Geschlossene Modelle wie die von OpenAI oder Anthropic lassen sich nicht auditieren.
Es gab reale Fälle, in denen Bias in LLMs eingebracht wurde (z. B. historisch ungenaue Bildgenerierung durch den geheimen Meta-Prompt von Google Gemini).
Mir gefällt der Ansatz von AI2. Nicht nur die Gewichte, sondern auch der Trainings-Sourcecode, die Daten, Evaluierungswerkzeuge usw. werden alle unter einer Apache-Lizenz geteilt.
Open-Weight-Modelle wie Llama holen gegenüber geschlossenen Modellen wie denen von OpenAI auf. Hoffentlich entwickeln sich auch wirklich offene Modelle wie OLMo weiter.
Hoffentlich wird die Entwicklung von Open-Source-AI nicht durch Regulierung blockiert. Sie könnte künftig ein gesellschaftliches Medium der Meinungsäußerung werden, daher wäre Regulierung vergleichbar mit einer Einschränkung der Meinungsfreiheit. Weniger Wettbewerbsdruck würde Innovation schaden.
Der Beitrag ist von vor 2 Monaten.

Ein wirklich offenes LLM: Hello OLMo ist da

Die Meinung von GN⁺

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare