IBM und NASA entwickeln Sprachmodelle für einen besseren Zugang zu wissenschaftlichem Wissen

(research.ibm.com)

4 Punkte von GN⁺ 2024-03-15 | Noch keine Kommentare. | Auf WhatsApp teilen

IBM und NASA entwickeln Sprachmodelle zur Verbesserung des Zugangs zu wissenschaftlichem Wissen

IBM und NASA haben eine neue Zusammenarbeit begonnen, um mithilfe wissenschaftlicher Literatur effiziente Sprachmodelle zu entwickeln.
Diese auf der Transformer-Architektur basierenden Modelle können für verschiedene Anwendungen eingesetzt werden, darunter Klassifikation, Entitätsextraktion, Fragebeantwortung und Information Retrieval.
Sie erreichen in verschiedenen Fachgebieten eine hohe Leistung und können schnell antworten; zum Nutzen der wissenschaftlichen und akademischen Community werden sie als Open Source auf Hugging Face veröffentlicht.

Transformer-basierte Sprachmodelle, darunter BERT, RoBERTa sowie IBMs Modellfamilien Slate und Granite, sind für Aufgaben des Natural Language Understanding von zentraler Bedeutung.
Diese Modelle beruhen auf einem statistischen Verständnis der Funktionsweise von Sprache und werden durch die Masked-Language-Modeling-Aufgabe trainiert, bei der verdeckte Wörter wiederhergestellt werden, um Sätze zu rekonstruieren.
Tokenizer, die Wörter in vom Modell nutzbare Einheiten zerlegen, spielen eine wichtige Rolle beim Erlernen eines umfangreichen Wortschatzes.

IBM und NASA trainierten die Modelle auf 60 Milliarden Token aus einem Korpus von Daten aus Astrophysik, Planetenwissenschaften, Geowissenschaften, Sonnenphysik sowie biologischen und physikalischen Wissenschaften.
Im Gegensatz zu allgemeinen Tokenizern kann der eigens entwickelte spezialisierte Tokenizer wissenschaftliche Begriffe wie "axes" und "polycrystalline" erkennen.
Von den 50.000 Token, die das Modell verarbeitet, ist mehr als die Hälfte im Vergleich zum RoBERTa-Modell von Hugging Face einzigartig.

Das IBM-NASA-Modell, das mit domänenspezifischem Vokabular trainiert wurde, übertrifft das offene RoBERTa-Modell im beliebten BLURB-Benchmark zur Bewertung biomedizinischer Aufgaben um 5 %.
Im internen wissenschaftlichen Fragebeantwortungs-Benchmark zeigt es eine Verbesserung des F1-Scores um 2,4 %, im internen Test zur Entitätserkennung in den Geowissenschaften eine Verbesserung um 5,5 %.

Die trainierten Encoder-Modelle können für viele nicht-generative Sprachaufgaben feinabgestimmt werden und informationsreiche Embeddings für die Dokumentensuche erzeugen.

Unter Verwendung von rund 268 Millionen Textpaaren zeigen diese Modelle hervorragende Leistung beim Auffinden relevanter Passagen in einem von der NASA kuratierten Testset mit etwa 400 Fragen.
Dank spezialisierter Trainingsdaten, angepasster Tokenizer und der Trainingsmethodik wurden deutliche Verbesserungen des Modells erreicht.

Entsprechend der Verpflichtung von IBM und NASA zu transparenter KI sind beide Modelle auf Hugging Face verfügbar.
Das Encoder-Modell kann für Anwendungen im Raumfahrtbereich weiter feinabgestimmt werden, und das Retrieval-Modell kann für Information-Retrieval-Anwendungen für RAG genutzt werden.

Diese Zusammenarbeit dürfte erheblich dazu beitragen, den Zugang zu wissenschaftlichem Wissen zu verbessern. Insbesondere die Entwicklung von Sprachmodellen, die Fachterminologie aus wissenschaftlichen Bereichen verstehen und verarbeiten können, wird für Forschende sehr nützlich sein.
Dass die Modelle als Open Source bereitgestellt werden und damit verschiedenen Forschenden und Entwickler:innen die Möglichkeit geben, sie frei zu nutzen und zu verbessern, kann zur Demokratisierung der KI-Forschung beitragen.
Um solche fortschrittlichen Modelle effektiv zu nutzen, könnten jedoch ausreichende Rechenressourcen und Fachwissen im AI Modeling erforderlich sein. Für einige Forschende oder Institutionen könnte dies eine Einstiegshürde darstellen.
Bei der Einführung dieser Technologie sollten die Komplexität des Modells, die für das Training benötigte Datenmenge und die Leistungsfähigkeit der Hardware berücksichtigt werden, die dies verarbeiten kann. Die Vorteile dieser Modellwahl liegen in einem tieferen Verständnis wissenschaftlicher Literatur und einer schnelleren Informationssuche, erfordern jedoch Kosten- und Ressourceneinsatz.