Google SIMA 2 – ein Agent, der in virtuellen 3D-Welten mit dir spielt, denkt und lernt

(deepmind.google)

1 Punkte von GN⁺ 2025-11-14 | 1 Kommentare | Auf WhatsApp teilen

SIMA 2 mit integriertem Gemini-Modell entwickelt sich über das bloße Befolgen von Sprachbefehlen hinaus zu einem KI-Agenten für virtuelle 3D-Umgebungen, der die Ziele der Nutzer versteht, selbst denkt und interagiert
Im Unterschied zur Vorgängerversion, die mehr als 600 sprachbasierte Aktionen ausführen konnte, verfügt es über Schlussfolgern, Dialog und Selbstverbesserung und zeigt dadurch auch in neuen Spielen zielgerichtetes Verhalten
Auch in nicht trainierten Spielen wie MineDojo und ASKA zeigt es eine hohe Generalisierungsleistung und erreicht Aufgabenerfüllungsraten nahe am menschlichen Niveau
Durch eine Selbstverbesserungsschleife wird eine Struktur umgesetzt, in der das System auch ohne menschliche Daten selbst Erfahrungen sammelt und seine Leistung verbessert
Diese Fortschritte schaffen die Grundlage für Anwendungen in allgemeiner verkörperter Intelligenz (embodied intelligence) und der Robotik

Überblick über SIMA 2

SIMA 2 ist ein von Google DeepMind entwickelter Gemini-basierter KI-Agent, ein System, das in virtuellen 3D-Umgebungen gemeinsam mit Menschen spielt und lernt
Die erste Version von SIMA konzentrierte sich darauf, Sprachbefehle in Handlungen zu übersetzen; SIMA 2 ergänzt dies nun um Zielschlussfolgerung, Dialog und Selbstverbesserung
Das Modell zeigt Fortschritte auf dem Weg zu AGI (Artificial General Intelligence) und hat große Bedeutung für Robotik und Forschung zu verkörperter KI

Reasoning (Schlussfolgern)

SIMA 1 konnte mehr als 600 Befehle wie „nach links drehen“ oder „die Leiter hinaufklettern“ ausführen, arbeitete dabei jedoch durch Beobachtung und Steuerung des Bildschirms ohne Zugriff auf interne Spielmechaniken
SIMA 2 integriert das Gemini-Modell und kann dadurch über die bloße Ausführung einfacher Befehle hinaus Ziele verstehen und logisch denken
Die Trainingsdaten bestehen aus einer Mischung aus Videos menschlicher Demonstrationen und von Gemini erzeugten Labels; der Agent kann seine Handlungspläne und Schritte erklären
In Tests empfanden Nutzer die Interaktion mit SIMA 2 nicht als Befehlserteilung, sondern als Zusammenarbeit; Training und Evaluierung fanden in verschiedenen Spielumgebungen statt
Dank der Schlussfolgerungs-Engine von Gemini wird in komplexen 3D-Umgebungen eine verkörperte KI umgesetzt, in der Wahrnehmung, Verständnis und Handlung integriert sind

Generalization (Generalisierungsleistung)

Durch die Gemini-Integration wurde die Fähigkeit verbessert, komplexe und nuancierte Anweisungen zu verstehen und auszuführen
Auch in nicht trainierten Spielen wie ASKA und MineDojo zeigt das System hohe Erfolgsraten und erreicht Aufgabenerfüllungsraten nahe dem menschlichen Niveau
Es verfügt über Konzepttransfer, etwa indem das Konzept „mining“ auf „harvesting“ in einem anderen Spiel übertragen wird
Es kann mehrsprachige und Emoji-basierte Anweisungen verstehen sowie multimodale Eingaben (z. B. Bilder) verarbeiten
In Kombination mit Genie 3 bewahrt es auch in neu generierten virtuellen Welten Orientierungssinn und zielgerichtetes Verhalten und beweist damit hohe Anpassungsfähigkeit

Self-Improvement (Selbstverbesserung)

SIMA 2 verbessert seine Leistung ohne menschliches Eingreifen durch eine selbstgesteuerte Lernschleife
- Gemini liefert anfängliche Aufgaben und Belohnungsschätzungen
- Auf dieser Basis baut SIMA 2 eine eigene Erfahrungsdatenbank auf und nutzt sie für weiteres Lernen
Auch fehlgeschlagene Aufgaben werden selbstständig wiederholt gelernt und verbessert; Lernen in neuen Spielen ohne menschliche Demonstrationen ist möglich
Auch in der Genie-3-Umgebung wird die Selbstverbesserung wiederholt, wobei Leistungssteigerungen durch Lernen über mehrere Generationen hinweg bestätigt wurden
Diese Struktur zeigt das Potenzial für eine Weiterentwicklung zu verkörperter KI mit kontinuierlichem Selbstlernen

Future Directions (Zukünftige Richtungen)

SIMA 2 dient in verschiedenen Spielumgebungen als Prüfstand für allgemeine Intelligenz, die komplexes Schlussfolgern und selbstgesteuertes Lernen ausführt
Als Grenzen werden die Ausführung langfristiger Aufgaben, mehrstufiges Schlussfolgern, kurze Gedächtnisspanne und die Verarbeitung visueller Komplexität genannt
Durch die Kombination von Daten aus mehreren Welten und den Schlussfolgerungsfähigkeiten von Gemini wurde es jedoch als allgemeiner Agent validiert, der Funktionen mehrerer spezialisierter Systeme integriert
Die erworbenen Fähigkeiten in Erkundung, Werkzeugnutzung und kooperativer Ausführung bilden eine zentrale Grundlage für die spätere Ausweitung auf physische Roboter-KI

Responsible Development (Verantwortungsvolle Entwicklung)

SIMA 2 ist auf menschzentrierte Interaktion ausgerichtet, und Kerntechnologien wie die Selbstverbesserungsfunktion werden verantwortungsvoll entwickelt
In Zusammenarbeit mit dem Responsible Development & Innovation Team von Google DeepMind wurden Sicherheitsprüfungen von Anfang an durchgeführt
Derzeit liegt es als begrenzte Research Preview vor; ein früher Zugang wird nur Teilen der Wissenschaft und einigen Spieleentwicklern gewährt
Über diesen Ansatz werden Feedback und Risikobewertungen gesammelt, mit dem Ziel einer verantwortungsvollen technologischen Weiterentwicklung

1 Kommentare

GN⁺ 2025-11-14

Hacker-News-Kommentare

Dass AI Videospiele spielt, ist cool, aber das wirklich Erstaunliche an SIMA 2 ist, dass es die Maus direkt steuert und den Bildschirm mit mehr als 30 Bildern pro Sekunde liest
Die heutigen Computer-Steuerungsagenten sind viel zu langsam, das hier ist ein völlig anderes Niveau. Ich frage mich, wie die interne Architektur aufgebaut ist
- Noch cooler ist, dass Menschen in der heutigen Welt überhaupt noch von etwas begeistert sein können. AI ersetzt ja alles, was wir bisher gemacht haben
- Ich brauche dringend einen AI-Agenten, der mein Smartphone für mich bedient
  So etwas, das Befehle wie „Chrome öffnen“, „zu xyz.com gehen“, „auf Login klicken“ auf Bildschirmebene ausführt
- Es steuert die Maus direkt?
- Können Maschinen nicht auch framegenau Spiele spielen?
- Mit Pythons dxcam und der Windows Hook API zum Empfangen von HID-Nachrichten müsste das möglich sein
Die Lücke zwischen High-Level- und Low-Level-Steuerung bei Robotern wird immer kleiner
Auf Basis von Tausenden Stunden aufgabenspezifischer Trainingsdaten werden Roboter gerade darauf trainiert, in bestimmten Kontexten bestimmte Aufgaben auszuführen
Man steuert Roboter dabei mit niedrigstufigen Befehlen wie „die Spülmaschine ausräumen“, „meine Bewegungen nachmachen“ oder „an der Schnur ziehen“
Wenn so etwas mit einem High-Level-Steuerungsagenten wie SIMA 2 kombiniert wird, könnten nützliche Roboter für die reale Welt entstehen
- Ich forsche an physikbasierter Charakteranimation, und es wirkt nicht so, als würde sich dieses Problem bald einfach durch mehr Daten lösen lassen
- Ich verstehe nicht ganz, was mit „funktioniert wie ein Videospiel“ gemeint ist
  Ich frage mich, warum solche Eingaben niedrigstufig sein sollen und wie sie mit einem High-Level-Steuerungsagenten wie SIMA 2 zusammenwirken
  Ist die Struktur so, dass SIMA 2 einen Befehl wie „die Spülmaschine ausräumen“ in tatsächliche Tasteneingaben oder Interface-Manipulationen umsetzt?
Das erinnert mich an Ted Chiangs Kurzgeschichte „The Lifecycle of Software Objects“
Der nächste Schritt wäre vielleicht, diese Digient-AI in den Figure 03-Roboter zu setzen
- Google wird wahrscheinlich ein separates AI-System speziell für die Robotersteuerung trainieren
  Tatsächlich hat im Butter-Bench-Experiment ein allgemeines LLM einen Saugroboter gesteuert,
  und als der Akku leer wurde, hinterließ es emotionale Logs mit so etwas wie „Docking-Angst“ und geriet in Panik. Lustig, aber ein interessantes Ergebnis
Interessant ist die Erklärung, dass SIMA 2 mit Gemini-basiertem Feedback nach und nach komplexere Aufgaben ausführen kann
Es nutzt eigene Erfahrungsdaten für das Training der nächsten Version, also wirkt es wie eine selbstverbessernde Struktur
Ist SIMA eine Agentenschicht, die auf Gemini läuft?
- Für mich klingt es auch so. Es wirkt, als wären die beiden Systeme über eine Textschnittstelle verbunden
Ich frage mich, ob diese Technologie am Ende E-Sport ruinieren könnte
Wenn AI schneller reagiert als Menschen und nicht ermüdet, könnten Spiele wie MMOs oder FPS am Ende von AI überflutet werden
- Sport ist letztlich nur eine Menge von Regeln. Entscheidend ist, Betrug zu verhindern
  Gute AI könnte vielmehr repetitive Arbeit reduzieren und ein neues Spielgenre eröffnen, in dem sich Spieler auf strategische Entscheidungen konzentrieren
- Im Schach ist AI den Menschen schon überlegen, und trotzdem bleibt es unterhaltsam
  Ähnlich dürfte der Spaß auch erhalten bleiben, wenn sich ein Mensch-gegen-AI-Szenario entwickelt
- Wenn AI anfangs Menschen schlägt, wird das Schlagzeilen machen, aber bald wird der Neuheitseffekt verschwinden
  Am Ende wird die Nutzung von AI gesellschaftlich als Hilfsmittel wahrgenommen werden, ähnlich wie Cheats oder Skripte
- Früher hat in World of Warcraft ein mit Reinforcement Learning gebauter Druiden-Bot in 2v2-Matches alle Menschen besiegt
  In FPS würde das zu sehr auffallen, aber in rundenbasierten Spielen oder MMORPGs mit geringerem Hand-Auge-Koordinationsanteil ist die Unterscheidung schwierig
  Eher sind subtile Cheats wie ESP die größere Bedrohung für den E-Sport
- Letztlich könnten MMOs so kaputtgehen wie Online-Poker
Ich will intelligentere Spiele
So eine Struktur wie bei Survival-Games: Am Anfang sammelt man Holz und Steine, und mit wachsender Technologie wechselt man dann zur Automatisierung
NPCs bauen Ressourcen ab, beschaffen Nahrung und Verteidigung, damit man größere Ziele erreichen kann
Der Spieler genießt die Fantasie, der „große Boss“ zu sein, der smarten Charakteren Befehle erteilt
- Es gibt das Open-Source-Framework Mindcraft
  Das ist ein intelligentes Bot-System, das mit LLMs wie GPT-4 oder Gemini in Minecraft Ressourcen sammelt, baut und kooperiert
- Ich frage mich, ob SIMA 2 in Minecraft selbstständig Iron Farms oder Handelshallen lernen könnte
  Könnte es erkennen, dass Eisen knapp ist, und dadurch motiviert werden?
  Wenn das Ziel einfach nur „das Spiel durchspielen“ ist, würde es vielleicht direkt nur den Enderdrachen jagen
- Im Grunde wäre das wie The Sims spielen
  Nur eben statt „das Haus dekorieren“ eher in der Variante „Erze für eine Schicksalswaffe abbauen“
Ich wünschte, Google würde zu seiner früheren offenen Forschungskultur zurückkehren
In letzter Zeit neigt das Unternehmen dazu, Experimente unter Verschluss zu halten und nur Pressemitteilungen zu veröffentlichen
Es wäre schön, wenn sie Dinge als Open Source veröffentlichen und nur dann schließen würden, wenn es wirklich nötig ist
Ihre Forschung ist so beeindruckend, dass man umso mehr selbst direkt mitmachen möchte
- Sehe ich genauso. Ich würde es gern selbst ausprobieren
- Dreamer v3 wurde veröffentlicht, kommt v4 wohl auch bald?
Das ist zwar ein Forschungsprojekt, aber ich frage mich, was als Nächstes kommt
Lässt sich das Gelernte aus virtuellen Welten auf reale Roboter übertragen?
Oder muss man in der Realität separat trainieren?
Braucht man außerdem nicht noch ausgefeiltere Simulationswelten, um die Unterschiede zur realen Physik in Spielen zu überwinden?
- Das Ziel ist, die Lernweise aus virtuellen Welten auf die reale Welt anzuwenden
  Wenn hochpräzise Weltmodelle verfügbar sind, könnte man Roboter darin trainieren und auf die Realität generalisieren
  Im Moment wird dafür erst die Grundlage geschaffen
- Das nennt man in der Robotik das sim2real-Problem. Lohnt sich, dazu nachzulesen
Im Demo-Video bei 0:52 ist ein Grammatikfehler zu sehen, deshalb kommt der Verdacht auf, dass die Annotationen nachträglich bearbeitet wurden
Hat Google hier wieder zu Marketingzwecken übertrieben?
- Vermutlich wurde die Ingame-Zeile „Go to the house that looks like a ripe tomato!“
  zu einem Imperativ wie „Zum Tomatenhaus gehen“ umformuliert
  Trotzdem wirkt die Y-Achse des Diagramms viel vernünftiger als bei anderen Benchmarks zuletzt
- Tatsächlich sieht man direkt vor der Szene, dass der Nutzer „ripe tomato“ eingibt
  In der Kurzfassung wurde das weggelassen, im Kontext ist dieser Ausdruck aber enthalten
Es wäre schön, wenn solche Technik lokal als Spielhilfe-Agent laufen würde
Wenn sie repetitive Arbeit übernimmt, könnte man ein Spiel vielleicht länger genießen
Selbst wenn sie nicht perfekt ist, könnte genau das sogar Spaß machen
- Wenn AI stattdessen für mich spielt, könnte ich die Zeit eher für echte Arbeit wie Putzen oder Wäschewaschen nutzen
  Jetzt kann man dann wohl auch lästige Dinge wie Gedichte, Bilder oder Spiele delegieren
- Ein Spiel spielen zu lassen, weil es keinen Spaß macht, ist seltsam. Der Kern von Spielen ist, sie selbst zu spielen
- Wie bei „Skeeball → Virtual Skeeball → Virtual Virtual Skeeball“
  Wenn AI übernimmt, verliert man am Ende das Interesse. Spiele sind schließlich als Balance aus Arbeit und Belohnung entworfen
- Wenn man repetitive Arbeit delegieren muss, ist das schlechtes Gamedesign
- Ich habe in Terraria auch schon mit AutoHotkey ein automatisches Mining-Skript gebaut
  Es hat anhand von Koordinaten Blöcke abgebaut, aber wenn man nicht auf den Bildschirm geschaut hat, ist es auch mal in eine Monstergrube gefallen. Es war ein völlig „blinder Bot“

Google SIMA 2 – ein Agent, der in virtuellen 3D-Welten mit dir spielt, denkt und lernt

Überblick über SIMA 2

Reasoning (Schlussfolgern)

Generalization (Generalisierungsleistung)

Self-Improvement (Selbstverbesserung)

Future Directions (Zukünftige Richtungen)

Responsible Development (Verantwortungsvolle Entwicklung)

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare