Magma – Ein Foundation Model für multimodale KI-Agenten

(microsoft.github.io)

3 Punkte von GN⁺ 2025-02-21 | 1 Kommentare | Auf WhatsApp teilen

Magma ist das erste Foundation Model, das multimodale Eingaben interpretieren und mit seiner Umgebung verknüpfen kann, wodurch es komplexe Interaktionen in virtuellen und realen Welten verarbeiten kann.
Es beschränkt sich nicht auf einfaches Bild- und Videoverständnis, sondern erzeugt zielgerichtete visuelle Planung und Ausführung, um verschiedene Aufgaben von KI-Agenten zu bewältigen.
Es erreicht State-of-the-Art-Leistung bei verschiedenen multimodalen Aufgaben wie UI-Navigation, Robotermanipulation sowie Bild- und Videoverständnis (insbesondere räumliches Verständnis und Schlussfolgern).
Skalierbares Vortraining: Durch das Lernen mit unlabelten Videodaten zusammen mit bestehenden Agentendaten verfügt es über starke Generalisierungsleistung und eignet sich für reale Anwendungen.
Code, Modell und eine Demo zur UI-Navigation sollen im MSR Forum (2025.02.25) veröffentlicht werden.

Ziel von Magma

Sprachliche und räumlich-zeitliche Intelligenz:
- Die Fähigkeit, Bilder und Videos präzise zu verstehen und darauf aufbauend Ziele in Aktionspläne und Ausführung umzusetzen.
Betrieb in digitalen und physischen Umgebungen:
- Kann sowohl Web-Navigation (UI-Bedienung) als auch Robotermanipulation ausführen.
- Eine KI, die sich wie ein Mensch frei zwischen digitalen und physischen Umgebungen bewegen kann.
Dafür wurde Magma mit einem neuen Trainingsdatensatz auf Basis von unlabelten Videodaten und bestehenden Agentendaten sowie einem Vortrainings-Framework, das Text, Bilder und Aktionen integriert lernt, trainiert.

Magmas Vortrainingsansatz

Magma wird mit zwei zentralen Ansätzen trainiert.
1️⃣ Nutzung großer heterogener Trainingsdaten
- Neben bestehenden multimodalen Daten, UI-Navigationsdaten und Daten zur Robotermanipulation werden auch große Mengen unlabelter Videodaten gesammelt und für das Training genutzt.
- Kamerabewegungen werden entfernt, und reale Aktionsdaten werden extrahiert, damit das Modell langfristige Aktionsvorhersage und Planung lernen kann.
2️⃣ Definition integrierter Vortrainingsziele
- Text und Aktionen unterscheiden sich grundsätzlich, und ihre effektive Verknüpfung ist die zentrale Herausforderung.
- Durch die Einführung neuer Lernmethoden wie Set-of-Mark und Trace-of-Mark wird eine starke Alignment-Struktur zwischen Text, Bild und Aktion aufgebaut.
  - Set-of-Mark (SoM): Ermöglicht eine effektive Aktionsverankerung in Bildern und sagt numerische Markierungen für anklickbare Buttons oder Roboterarme in UI-Screenshots, bei der Robotermanipulation und in menschlichen Videos voraus.
  - Trace-of-Mark (ToM): Liefert Supervision für Robotermanipulation und menschliche Aktionen, sodass das Modell die zeitliche Videodynamik versteht und zukünftige Zustände vor der Ausführung von Aktionen vorhersagt.

Verwendung des Modells

Direkte Nutzung (ohne Fine-tuning möglich)

Magma wurde für Forschungszwecke entwickelt und kann auf folgende Weise verwendet werden.

Textgenerierung auf Basis von Bildern/Videos: Auf Grundlage der eingegebenen Bilder und Texte können Beschreibungen und Antworten erzeugt werden.
Visuelle Planung (Visual Planning): Kann zukünftige Aktionspfade zur Zielerreichung vorhersagen, etwa für das Bewegen von Objekten.
Agentenfunktionen:
- UI-Navigation: Zum Beispiel die Vorhersage von UI-Aktionen wie „Auf die Suchtaste klicken“.
- Robotermanipulation: Vorhersage von 7-DoF-Manipulationen des Roboters.

Downstream-Aufgaben (mit Fine-tuning)

Magma kann für bestimmte Aufgaben zusätzlich trainiert werden.

Bild-Captioning und QA: Training nach dem Ansatz bestehender multimodaler Large Language Models (LLMs), um räumliches Verständnis und Schlussfolgern zu stärken.
Video-Captioning und QA: Kann das zeitliche Verständnis und Schlussfolgern für Videodaten verbessern.
UI-Navigation: Kann für Web- und mobile UI-Navigationsaufgaben optimiert werden, um hohe Leistung zu erreichen.
Robotermanipulation: Durch zusätzliches Training für die Robotersteuerung zeigt es eine Leistung, die bestehende Robotermanipulationsmodelle wie OpenVLA übertrifft.

Bias, Risiken, Einschränkungen

Dieses Modell wurde nicht für alle Downstream-Aufgaben entwickelt.
Vor dem Einsatz in bestimmten Anwendungsfällen müssen Genauigkeit, Sicherheit und Fairness bewertet und angepasst werden.
Insbesondere in Hochrisikoszenarien müssen geltende Gesetze und Vorschriften eingehalten werden.

1 Kommentare

GN⁺ 2025-02-21

Hacker-News-Kommentare

Vielen Dank für das Interesse am Magma-Projekt. Wir werden den Code für Inferenz, Training, Evaluation und Datenvorverarbeitung schrittweise veröffentlichen und bis nächsten Dienstag damit fertig sein
Das Entwicklungstempo multimodaler Agenten ist beeindruckend. OpenVLA wurde im Juni 2024 veröffentlicht und war damals State of the Art. Acht Monate später stieg die Erfolgsquote bei Aufgaben wie „Pick Place Hotdog Sausage“ von 2/10 auf 6/10
Industrieroboter sind effizient, weil sie menschliches Verhalten nicht nachahmen. Deshalb ist schwer zu verstehen, welchen Sinn der Vorschlag hat, Robotern menschliches Verhalten beizubringen. Haushaltsroboter werden effiziente Werkzeuge brauchen. Es werden neue Maschinen nötig sein, die sich von den heute verwendeten Waschmaschinen, Öfen und Geschirrspülern unterscheiden
Die multimodalen Fähigkeiten, insbesondere die Vorhersage der nächsten Handlung, sind beeindruckend. Ich beobachte auf GitHub, ob diese Funktion als Open Source veröffentlicht wird. Ich frage mich, warum der Name Magma gewählt wurde
Wirklich ein interessantes Modell. Ich freue mich darauf, es auszuprobieren. Was ich allerdings möchte, ist ein multimodales Agentenmodell, das Embeddings für humanoide Steuerungsmodelle wie Meta motivo erzeugen kann. Meta motivo ist ein Spielzeugmodell, das mit einem SMPL-Skelett trainiert wurde und wegen fehlender Finger nur eingeschränkt nutzbar ist. Man hätte weiterentwickelte Modelle wie SMPL-X verwenden können, aber es fehlt an offenen Bewegungsdaten mit präzisen Fingerbewegungen, wodurch sich nur schwer leistungsfähige Manipulationsmodelle trainieren lassen
Die meisten bestehenden Bewegungsdatensätze stammen aus akademischen Motion-Capture-Setups und konzentrieren sich nicht auf Manipulationsaufgaben. Ich glaube, dass Fortschritte bei 3D HPE aus 2D-Videos diese Lücke schließen werden. Wenn man Zugang zu Tausenden Stunden Video hat, kann man einen großen Bewegungsdatensatz aufbauen, der vielfältige reale Interaktionen abdeckt
Das würde die zwei Komponenten ermöglichen, die nötig sind, um ein Agentenmodell zu trainieren, das Embeddings erzeugt, die von Steuerungsmodellen gelesen werden können und Hand- sowie Fingergelenkbewegungen präzise modellieren. Angesichts der schnellen Fortschritte bei SoTA-3D-HPE aus 2D-Videos und der enormen Menge an Online-Videos erwarte ich, dass wir in naher Zukunft humanoide Roboter mit guten Manipulationsfähigkeiten sehen werden
In dem Video, in dem ein Becher gereinigt wird, tut die Person so, als würde sie den Becher waschen, wirkt aber, als wolle sie ihre Hand nicht nass machen. Ich frage mich, wann das Modell solche Feinheiten erfassen kann
Ich frage mich, warum multimodale Modelle nicht flexibel Bilder erzeugen. Es scheint, als würden sie das an ein anderes Modell zur Bildgenerierung weiterreichen. Sie wissen nicht wirklich gut, was in den von ihnen erzeugten Bildern enthalten ist, und können die Bilder bearbeiten
Multimodale Agenten sind dafür berüchtigt, bei langfristigen Aufgaben zu scheitern. Ich frage mich, wie Magma dabei abschneidet
Ich frage mich, ob es unter den multimodalen Modellen welche gibt, die mit Reasoning trainiert wurden
Ich frage mich, ob es Forschung zu inkrementellem Training gibt. Das könnte bei Robotern als Alternative zu RAG eingesetzt werden