Magma – Ein Foundation Model für multimodale KI-Agenten
(microsoft.github.io)- Magma ist das erste Foundation Model, das multimodale Eingaben interpretieren und mit seiner Umgebung verknüpfen kann, wodurch es komplexe Interaktionen in virtuellen und realen Welten verarbeiten kann.
- Es beschränkt sich nicht auf einfaches Bild- und Videoverständnis, sondern erzeugt zielgerichtete visuelle Planung und Ausführung, um verschiedene Aufgaben von KI-Agenten zu bewältigen.
- Es erreicht State-of-the-Art-Leistung bei verschiedenen multimodalen Aufgaben wie UI-Navigation, Robotermanipulation sowie Bild- und Videoverständnis (insbesondere räumliches Verständnis und Schlussfolgern).
- Skalierbares Vortraining: Durch das Lernen mit unlabelten Videodaten zusammen mit bestehenden Agentendaten verfügt es über starke Generalisierungsleistung und eignet sich für reale Anwendungen.
- Code, Modell und eine Demo zur UI-Navigation sollen im MSR Forum (2025.02.25) veröffentlicht werden.
Ziel von Magma
- Sprachliche und räumlich-zeitliche Intelligenz:
- Die Fähigkeit, Bilder und Videos präzise zu verstehen und darauf aufbauend Ziele in Aktionspläne und Ausführung umzusetzen.
- Betrieb in digitalen und physischen Umgebungen:
- Kann sowohl Web-Navigation (UI-Bedienung) als auch Robotermanipulation ausführen.
- Eine KI, die sich wie ein Mensch frei zwischen digitalen und physischen Umgebungen bewegen kann.
- Dafür wurde Magma mit einem neuen Trainingsdatensatz auf Basis von unlabelten Videodaten und bestehenden Agentendaten sowie einem Vortrainings-Framework, das Text, Bilder und Aktionen integriert lernt, trainiert.
Magmas Vortrainingsansatz
- Magma wird mit zwei zentralen Ansätzen trainiert.
- 1️⃣ Nutzung großer heterogener Trainingsdaten
- Neben bestehenden multimodalen Daten, UI-Navigationsdaten und Daten zur Robotermanipulation werden auch große Mengen unlabelter Videodaten gesammelt und für das Training genutzt.
- Kamerabewegungen werden entfernt, und reale Aktionsdaten werden extrahiert, damit das Modell langfristige Aktionsvorhersage und Planung lernen kann.
- 2️⃣ Definition integrierter Vortrainingsziele
- Text und Aktionen unterscheiden sich grundsätzlich, und ihre effektive Verknüpfung ist die zentrale Herausforderung.
- Durch die Einführung neuer Lernmethoden wie Set-of-Mark und Trace-of-Mark wird eine starke Alignment-Struktur zwischen Text, Bild und Aktion aufgebaut.
- Set-of-Mark (SoM): Ermöglicht eine effektive Aktionsverankerung in Bildern und sagt numerische Markierungen für anklickbare Buttons oder Roboterarme in UI-Screenshots, bei der Robotermanipulation und in menschlichen Videos voraus.
- Trace-of-Mark (ToM): Liefert Supervision für Robotermanipulation und menschliche Aktionen, sodass das Modell die zeitliche Videodynamik versteht und zukünftige Zustände vor der Ausführung von Aktionen vorhersagt.
Verwendung des Modells
Direkte Nutzung (ohne Fine-tuning möglich)
Magma wurde für Forschungszwecke entwickelt und kann auf folgende Weise verwendet werden.
- Textgenerierung auf Basis von Bildern/Videos: Auf Grundlage der eingegebenen Bilder und Texte können Beschreibungen und Antworten erzeugt werden.
- Visuelle Planung (Visual Planning): Kann zukünftige Aktionspfade zur Zielerreichung vorhersagen, etwa für das Bewegen von Objekten.
- Agentenfunktionen:
- UI-Navigation: Zum Beispiel die Vorhersage von UI-Aktionen wie „Auf die Suchtaste klicken“.
- Robotermanipulation: Vorhersage von 7-DoF-Manipulationen des Roboters.
Downstream-Aufgaben (mit Fine-tuning)
Magma kann für bestimmte Aufgaben zusätzlich trainiert werden.
- Bild-Captioning und QA: Training nach dem Ansatz bestehender multimodaler Large Language Models (LLMs), um räumliches Verständnis und Schlussfolgern zu stärken.
- Video-Captioning und QA: Kann das zeitliche Verständnis und Schlussfolgern für Videodaten verbessern.
- UI-Navigation: Kann für Web- und mobile UI-Navigationsaufgaben optimiert werden, um hohe Leistung zu erreichen.
- Robotermanipulation: Durch zusätzliches Training für die Robotersteuerung zeigt es eine Leistung, die bestehende Robotermanipulationsmodelle wie OpenVLA übertrifft.
Bias, Risiken, Einschränkungen
- Dieses Modell wurde nicht für alle Downstream-Aufgaben entwickelt.
- Vor dem Einsatz in bestimmten Anwendungsfällen müssen Genauigkeit, Sicherheit und Fairness bewertet und angepasst werden.
- Insbesondere in Hochrisikoszenarien müssen geltende Gesetze und Vorschriften eingehalten werden.
1 Kommentare
Hacker-News-Kommentare