- SIMA 2 mit integriertem Gemini-Modell entwickelt sich über das bloße Befolgen von Sprachbefehlen hinaus zu einem KI-Agenten für virtuelle 3D-Umgebungen, der die Ziele der Nutzer versteht, selbst denkt und interagiert
- Im Unterschied zur Vorgängerversion, die mehr als 600 sprachbasierte Aktionen ausführen konnte, verfügt es über Schlussfolgern, Dialog und Selbstverbesserung und zeigt dadurch auch in neuen Spielen zielgerichtetes Verhalten
- Auch in nicht trainierten Spielen wie MineDojo und ASKA zeigt es eine hohe Generalisierungsleistung und erreicht Aufgabenerfüllungsraten nahe am menschlichen Niveau
- Durch eine Selbstverbesserungsschleife wird eine Struktur umgesetzt, in der das System auch ohne menschliche Daten selbst Erfahrungen sammelt und seine Leistung verbessert
- Diese Fortschritte schaffen die Grundlage für Anwendungen in allgemeiner verkörperter Intelligenz (embodied intelligence) und der Robotik
Überblick über SIMA 2
- SIMA 2 ist ein von Google DeepMind entwickelter Gemini-basierter KI-Agent, ein System, das in virtuellen 3D-Umgebungen gemeinsam mit Menschen spielt und lernt
- Die erste Version von SIMA konzentrierte sich darauf, Sprachbefehle in Handlungen zu übersetzen; SIMA 2 ergänzt dies nun um Zielschlussfolgerung, Dialog und Selbstverbesserung
- Das Modell zeigt Fortschritte auf dem Weg zu AGI (Artificial General Intelligence) und hat große Bedeutung für Robotik und Forschung zu verkörperter KI
Reasoning (Schlussfolgern)
- SIMA 1 konnte mehr als 600 Befehle wie „nach links drehen“ oder „die Leiter hinaufklettern“ ausführen, arbeitete dabei jedoch durch Beobachtung und Steuerung des Bildschirms ohne Zugriff auf interne Spielmechaniken
- SIMA 2 integriert das Gemini-Modell und kann dadurch über die bloße Ausführung einfacher Befehle hinaus Ziele verstehen und logisch denken
- Die Trainingsdaten bestehen aus einer Mischung aus Videos menschlicher Demonstrationen und von Gemini erzeugten Labels; der Agent kann seine Handlungspläne und Schritte erklären
- In Tests empfanden Nutzer die Interaktion mit SIMA 2 nicht als Befehlserteilung, sondern als Zusammenarbeit; Training und Evaluierung fanden in verschiedenen Spielumgebungen statt
- Dank der Schlussfolgerungs-Engine von Gemini wird in komplexen 3D-Umgebungen eine verkörperte KI umgesetzt, in der Wahrnehmung, Verständnis und Handlung integriert sind
Generalization (Generalisierungsleistung)
- Durch die Gemini-Integration wurde die Fähigkeit verbessert, komplexe und nuancierte Anweisungen zu verstehen und auszuführen
- Auch in nicht trainierten Spielen wie ASKA und MineDojo zeigt das System hohe Erfolgsraten und erreicht Aufgabenerfüllungsraten nahe dem menschlichen Niveau
- Es verfügt über Konzepttransfer, etwa indem das Konzept „mining“ auf „harvesting“ in einem anderen Spiel übertragen wird
- Es kann mehrsprachige und Emoji-basierte Anweisungen verstehen sowie multimodale Eingaben (z. B. Bilder) verarbeiten
- In Kombination mit Genie 3 bewahrt es auch in neu generierten virtuellen Welten Orientierungssinn und zielgerichtetes Verhalten und beweist damit hohe Anpassungsfähigkeit
Self-Improvement (Selbstverbesserung)
- SIMA 2 verbessert seine Leistung ohne menschliches Eingreifen durch eine selbstgesteuerte Lernschleife
- Gemini liefert anfängliche Aufgaben und Belohnungsschätzungen
- Auf dieser Basis baut SIMA 2 eine eigene Erfahrungsdatenbank auf und nutzt sie für weiteres Lernen
- Auch fehlgeschlagene Aufgaben werden selbstständig wiederholt gelernt und verbessert; Lernen in neuen Spielen ohne menschliche Demonstrationen ist möglich
- Auch in der Genie-3-Umgebung wird die Selbstverbesserung wiederholt, wobei Leistungssteigerungen durch Lernen über mehrere Generationen hinweg bestätigt wurden
- Diese Struktur zeigt das Potenzial für eine Weiterentwicklung zu verkörperter KI mit kontinuierlichem Selbstlernen
Future Directions (Zukünftige Richtungen)
- SIMA 2 dient in verschiedenen Spielumgebungen als Prüfstand für allgemeine Intelligenz, die komplexes Schlussfolgern und selbstgesteuertes Lernen ausführt
- Als Grenzen werden die Ausführung langfristiger Aufgaben, mehrstufiges Schlussfolgern, kurze Gedächtnisspanne und die Verarbeitung visueller Komplexität genannt
- Durch die Kombination von Daten aus mehreren Welten und den Schlussfolgerungsfähigkeiten von Gemini wurde es jedoch als allgemeiner Agent validiert, der Funktionen mehrerer spezialisierter Systeme integriert
- Die erworbenen Fähigkeiten in Erkundung, Werkzeugnutzung und kooperativer Ausführung bilden eine zentrale Grundlage für die spätere Ausweitung auf physische Roboter-KI
Responsible Development (Verantwortungsvolle Entwicklung)
- SIMA 2 ist auf menschzentrierte Interaktion ausgerichtet, und Kerntechnologien wie die Selbstverbesserungsfunktion werden verantwortungsvoll entwickelt
- In Zusammenarbeit mit dem Responsible Development & Innovation Team von Google DeepMind wurden Sicherheitsprüfungen von Anfang an durchgeführt
- Derzeit liegt es als begrenzte Research Preview vor; ein früher Zugang wird nur Teilen der Wissenschaft und einigen Spieleentwicklern gewährt
- Über diesen Ansatz werden Feedback und Risikobewertungen gesammelt, mit dem Ziel einer verantwortungsvollen technologischen Weiterentwicklung
1 Kommentare
Hacker-News-Kommentare
Dass AI Videospiele spielt, ist cool, aber das wirklich Erstaunliche an SIMA 2 ist, dass es die Maus direkt steuert und den Bildschirm mit mehr als 30 Bildern pro Sekunde liest
Die heutigen Computer-Steuerungsagenten sind viel zu langsam, das hier ist ein völlig anderes Niveau. Ich frage mich, wie die interne Architektur aufgebaut ist
So etwas, das Befehle wie „Chrome öffnen“, „zu xyz.com gehen“, „auf Login klicken“ auf Bildschirmebene ausführt
Die Lücke zwischen High-Level- und Low-Level-Steuerung bei Robotern wird immer kleiner
Auf Basis von Tausenden Stunden aufgabenspezifischer Trainingsdaten werden Roboter gerade darauf trainiert, in bestimmten Kontexten bestimmte Aufgaben auszuführen
Man steuert Roboter dabei mit niedrigstufigen Befehlen wie „die Spülmaschine ausräumen“, „meine Bewegungen nachmachen“ oder „an der Schnur ziehen“
Wenn so etwas mit einem High-Level-Steuerungsagenten wie SIMA 2 kombiniert wird, könnten nützliche Roboter für die reale Welt entstehen
Ich frage mich, warum solche Eingaben niedrigstufig sein sollen und wie sie mit einem High-Level-Steuerungsagenten wie SIMA 2 zusammenwirken
Ist die Struktur so, dass SIMA 2 einen Befehl wie „die Spülmaschine ausräumen“ in tatsächliche Tasteneingaben oder Interface-Manipulationen umsetzt?
Das erinnert mich an Ted Chiangs Kurzgeschichte „The Lifecycle of Software Objects“
Der nächste Schritt wäre vielleicht, diese Digient-AI in den Figure 03-Roboter zu setzen
Tatsächlich hat im Butter-Bench-Experiment ein allgemeines LLM einen Saugroboter gesteuert,
und als der Akku leer wurde, hinterließ es emotionale Logs mit so etwas wie „Docking-Angst“ und geriet in Panik. Lustig, aber ein interessantes Ergebnis
Interessant ist die Erklärung, dass SIMA 2 mit Gemini-basiertem Feedback nach und nach komplexere Aufgaben ausführen kann
Es nutzt eigene Erfahrungsdaten für das Training der nächsten Version, also wirkt es wie eine selbstverbessernde Struktur
Ist SIMA eine Agentenschicht, die auf Gemini läuft?
Ich frage mich, ob diese Technologie am Ende E-Sport ruinieren könnte
Wenn AI schneller reagiert als Menschen und nicht ermüdet, könnten Spiele wie MMOs oder FPS am Ende von AI überflutet werden
Gute AI könnte vielmehr repetitive Arbeit reduzieren und ein neues Spielgenre eröffnen, in dem sich Spieler auf strategische Entscheidungen konzentrieren
Ähnlich dürfte der Spaß auch erhalten bleiben, wenn sich ein Mensch-gegen-AI-Szenario entwickelt
Am Ende wird die Nutzung von AI gesellschaftlich als Hilfsmittel wahrgenommen werden, ähnlich wie Cheats oder Skripte
In FPS würde das zu sehr auffallen, aber in rundenbasierten Spielen oder MMORPGs mit geringerem Hand-Auge-Koordinationsanteil ist die Unterscheidung schwierig
Eher sind subtile Cheats wie ESP die größere Bedrohung für den E-Sport
Ich will intelligentere Spiele
So eine Struktur wie bei Survival-Games: Am Anfang sammelt man Holz und Steine, und mit wachsender Technologie wechselt man dann zur Automatisierung
NPCs bauen Ressourcen ab, beschaffen Nahrung und Verteidigung, damit man größere Ziele erreichen kann
Der Spieler genießt die Fantasie, der „große Boss“ zu sein, der smarten Charakteren Befehle erteilt
Das ist ein intelligentes Bot-System, das mit LLMs wie GPT-4 oder Gemini in Minecraft Ressourcen sammelt, baut und kooperiert
Könnte es erkennen, dass Eisen knapp ist, und dadurch motiviert werden?
Wenn das Ziel einfach nur „das Spiel durchspielen“ ist, würde es vielleicht direkt nur den Enderdrachen jagen
Nur eben statt „das Haus dekorieren“ eher in der Variante „Erze für eine Schicksalswaffe abbauen“
Ich wünschte, Google würde zu seiner früheren offenen Forschungskultur zurückkehren
In letzter Zeit neigt das Unternehmen dazu, Experimente unter Verschluss zu halten und nur Pressemitteilungen zu veröffentlichen
Es wäre schön, wenn sie Dinge als Open Source veröffentlichen und nur dann schließen würden, wenn es wirklich nötig ist
Ihre Forschung ist so beeindruckend, dass man umso mehr selbst direkt mitmachen möchte
Das ist zwar ein Forschungsprojekt, aber ich frage mich, was als Nächstes kommt
Lässt sich das Gelernte aus virtuellen Welten auf reale Roboter übertragen?
Oder muss man in der Realität separat trainieren?
Braucht man außerdem nicht noch ausgefeiltere Simulationswelten, um die Unterschiede zur realen Physik in Spielen zu überwinden?
Wenn hochpräzise Weltmodelle verfügbar sind, könnte man Roboter darin trainieren und auf die Realität generalisieren
Im Moment wird dafür erst die Grundlage geschaffen
Im Demo-Video bei 0:52 ist ein Grammatikfehler zu sehen, deshalb kommt der Verdacht auf, dass die Annotationen nachträglich bearbeitet wurden
Hat Google hier wieder zu Marketingzwecken übertrieben?
zu einem Imperativ wie „Zum Tomatenhaus gehen“ umformuliert
Trotzdem wirkt die Y-Achse des Diagramms viel vernünftiger als bei anderen Benchmarks zuletzt
In der Kurzfassung wurde das weggelassen, im Kontext ist dieser Ausdruck aber enthalten
Es wäre schön, wenn solche Technik lokal als Spielhilfe-Agent laufen würde
Wenn sie repetitive Arbeit übernimmt, könnte man ein Spiel vielleicht länger genießen
Selbst wenn sie nicht perfekt ist, könnte genau das sogar Spaß machen
Jetzt kann man dann wohl auch lästige Dinge wie Gedichte, Bilder oder Spiele delegieren
Wenn AI übernimmt, verliert man am Ende das Interesse. Spiele sind schließlich als Balance aus Arbeit und Belohnung entworfen
Es hat anhand von Koordinaten Blöcke abgebaut, aber wenn man nicht auf den Bildschirm geschaut hat, ist es auch mal in eine Monstergrube gefallen. Es war ein völlig „blinder Bot“