Ein wirklich offenes LLM: Hello OLMo ist da
(blog.allenai.org)-
AI2 hat das Modell OLMo 7B veröffentlicht. Es handelt sich um ein Large Language Model im wirklich offenen Sinne von Open Source, bei dem sowohl die Vortrainingsdaten als auch der Trainingscode offengelegt wurden.
- Dadurch können Forschende und Entwickler gemeinsam die Wissenschaft rund um Sprachmodelle voranbringen, indem sie die besten offenen Modelle nutzen.
- Yann LeCun, KI-Wissenschaftler bei Meta, sagte, dass die Open-Source-Community die Zukunft der KI am schnellsten und effektivsten aufbauen könne.
-
Zentrale Merkmale des OLMo-Frameworks:
- Vollständige Vortrainingsdaten: Es nutzt den Datensatz Dolma von AI2, einschließlich des Codes zur Erzeugung der Trainingsdaten.
- Trainingscode und Modellgewichte: Bereitgestellt werden vollständige Modellgewichte, Inferenzcode, Trainingsmetriken und Trainingslogs für vier Modellvarianten im 7B-Maßstab.
- Evaluierung: Unter dem Projekt Catwalk werden mehr als 500 Checkpoints sowie Evaluierungscode und weitere für die Entwicklung verwendete Evaluierungswerkzeuge offengelegt.
-
Mit OLMo können KI-Forschende und Entwickler Folgendes erwarten:
- Präzisere Analysen: Auf Basis vollständiger Einblicke in die Trainingsdaten können sie schneller arbeiten.
- Geringere CO2-Emissionen: Durch die Offenlegung des gesamten Trainings- und Evaluierungsökosystems lässt sich doppelte Entwicklungsarbeit reduzieren.
- Nachhaltige Ergebnisse: Durch die Veröffentlichung von Modell und Datensatz können andere aus früheren Modellen lernen und darauf aufbauen.
-
Die Entwicklung von OLMo wurde durch die Zusammenarbeit mit AMD, CSC (Lumi Supercomputer), der University of Washington, Databricks und weiteren möglich.
Die Meinung von GN⁺
- Dass zur Verbesserung der Transparenz von KI-Modellen auch Trainingsdaten und Code veröffentlicht wurden, scheint von großer Bedeutung zu sein. Allerdings könnten Probleme wie Datenbias bestehen, weshalb auch eine entsprechende Prüfung nötig erscheint.
- Die Belebung des Open-Source-Ökosystems für Sprachmodelle dürfte die technologische Entwicklung beschleunigen. Es bleibt jedoch abzuwarten, welche Ergebnisse im Wettbewerb mit den geschlossenen KI-Modellen großer IT-Konzerne erzielt werden können.
- Um die enormen Rechenressourcen für die KI-Entwicklung zu sichern, scheint die Zusammenarbeit mit verschiedenen Institutionen äußerst wichtig zu sein. Das könnte ein gutes Vorbild für Kooperationsmodelle zwischen Wissenschaft und Industrie sein.
- Es wird erwartet, dass OLMo die wissenschaftliche Erforschung der Funktionsweise von Sprachmodellen belebt. Das könnte zur Entwicklung sichererer und vertrauenswürdigerer KI führen.
1 Kommentare
Hacker-News-Kommentare