1 Punkte von GN⁺ 2025-11-14 | 1 Kommentare | Auf WhatsApp teilen
  • SIMA 2 mit integriertem Gemini-Modell entwickelt sich über das bloße Befolgen von Sprachbefehlen hinaus zu einem KI-Agenten für virtuelle 3D-Umgebungen, der die Ziele der Nutzer versteht, selbst denkt und interagiert
  • Im Unterschied zur Vorgängerversion, die mehr als 600 sprachbasierte Aktionen ausführen konnte, verfügt es über Schlussfolgern, Dialog und Selbstverbesserung und zeigt dadurch auch in neuen Spielen zielgerichtetes Verhalten
  • Auch in nicht trainierten Spielen wie MineDojo und ASKA zeigt es eine hohe Generalisierungsleistung und erreicht Aufgabenerfüllungsraten nahe am menschlichen Niveau
  • Durch eine Selbstverbesserungsschleife wird eine Struktur umgesetzt, in der das System auch ohne menschliche Daten selbst Erfahrungen sammelt und seine Leistung verbessert
  • Diese Fortschritte schaffen die Grundlage für Anwendungen in allgemeiner verkörperter Intelligenz (embodied intelligence) und der Robotik

Überblick über SIMA 2

  • SIMA 2 ist ein von Google DeepMind entwickelter Gemini-basierter KI-Agent, ein System, das in virtuellen 3D-Umgebungen gemeinsam mit Menschen spielt und lernt
  • Die erste Version von SIMA konzentrierte sich darauf, Sprachbefehle in Handlungen zu übersetzen; SIMA 2 ergänzt dies nun um Zielschlussfolgerung, Dialog und Selbstverbesserung
  • Das Modell zeigt Fortschritte auf dem Weg zu AGI (Artificial General Intelligence) und hat große Bedeutung für Robotik und Forschung zu verkörperter KI

Reasoning (Schlussfolgern)

  • SIMA 1 konnte mehr als 600 Befehle wie „nach links drehen“ oder „die Leiter hinaufklettern“ ausführen, arbeitete dabei jedoch durch Beobachtung und Steuerung des Bildschirms ohne Zugriff auf interne Spielmechaniken
  • SIMA 2 integriert das Gemini-Modell und kann dadurch über die bloße Ausführung einfacher Befehle hinaus Ziele verstehen und logisch denken
  • Die Trainingsdaten bestehen aus einer Mischung aus Videos menschlicher Demonstrationen und von Gemini erzeugten Labels; der Agent kann seine Handlungspläne und Schritte erklären
  • In Tests empfanden Nutzer die Interaktion mit SIMA 2 nicht als Befehlserteilung, sondern als Zusammenarbeit; Training und Evaluierung fanden in verschiedenen Spielumgebungen statt
  • Dank der Schlussfolgerungs-Engine von Gemini wird in komplexen 3D-Umgebungen eine verkörperte KI umgesetzt, in der Wahrnehmung, Verständnis und Handlung integriert sind

Generalization (Generalisierungsleistung)

  • Durch die Gemini-Integration wurde die Fähigkeit verbessert, komplexe und nuancierte Anweisungen zu verstehen und auszuführen
  • Auch in nicht trainierten Spielen wie ASKA und MineDojo zeigt das System hohe Erfolgsraten und erreicht Aufgabenerfüllungsraten nahe dem menschlichen Niveau
  • Es verfügt über Konzepttransfer, etwa indem das Konzept „mining“ auf „harvesting“ in einem anderen Spiel übertragen wird
  • Es kann mehrsprachige und Emoji-basierte Anweisungen verstehen sowie multimodale Eingaben (z. B. Bilder) verarbeiten
  • In Kombination mit Genie 3 bewahrt es auch in neu generierten virtuellen Welten Orientierungssinn und zielgerichtetes Verhalten und beweist damit hohe Anpassungsfähigkeit

Self-Improvement (Selbstverbesserung)

  • SIMA 2 verbessert seine Leistung ohne menschliches Eingreifen durch eine selbstgesteuerte Lernschleife
    • Gemini liefert anfängliche Aufgaben und Belohnungsschätzungen
    • Auf dieser Basis baut SIMA 2 eine eigene Erfahrungsdatenbank auf und nutzt sie für weiteres Lernen
  • Auch fehlgeschlagene Aufgaben werden selbstständig wiederholt gelernt und verbessert; Lernen in neuen Spielen ohne menschliche Demonstrationen ist möglich
  • Auch in der Genie-3-Umgebung wird die Selbstverbesserung wiederholt, wobei Leistungssteigerungen durch Lernen über mehrere Generationen hinweg bestätigt wurden
  • Diese Struktur zeigt das Potenzial für eine Weiterentwicklung zu verkörperter KI mit kontinuierlichem Selbstlernen

Future Directions (Zukünftige Richtungen)

  • SIMA 2 dient in verschiedenen Spielumgebungen als Prüfstand für allgemeine Intelligenz, die komplexes Schlussfolgern und selbstgesteuertes Lernen ausführt
  • Als Grenzen werden die Ausführung langfristiger Aufgaben, mehrstufiges Schlussfolgern, kurze Gedächtnisspanne und die Verarbeitung visueller Komplexität genannt
  • Durch die Kombination von Daten aus mehreren Welten und den Schlussfolgerungsfähigkeiten von Gemini wurde es jedoch als allgemeiner Agent validiert, der Funktionen mehrerer spezialisierter Systeme integriert
  • Die erworbenen Fähigkeiten in Erkundung, Werkzeugnutzung und kooperativer Ausführung bilden eine zentrale Grundlage für die spätere Ausweitung auf physische Roboter-KI

Responsible Development (Verantwortungsvolle Entwicklung)

  • SIMA 2 ist auf menschzentrierte Interaktion ausgerichtet, und Kerntechnologien wie die Selbstverbesserungsfunktion werden verantwortungsvoll entwickelt
  • In Zusammenarbeit mit dem Responsible Development & Innovation Team von Google DeepMind wurden Sicherheitsprüfungen von Anfang an durchgeführt
  • Derzeit liegt es als begrenzte Research Preview vor; ein früher Zugang wird nur Teilen der Wissenschaft und einigen Spieleentwicklern gewährt
  • Über diesen Ansatz werden Feedback und Risikobewertungen gesammelt, mit dem Ziel einer verantwortungsvollen technologischen Weiterentwicklung

1 Kommentare

 
GN⁺ 2025-11-14
Hacker-News-Kommentare
  • Dass AI Videospiele spielt, ist cool, aber das wirklich Erstaunliche an SIMA 2 ist, dass es die Maus direkt steuert und den Bildschirm mit mehr als 30 Bildern pro Sekunde liest
    Die heutigen Computer-Steuerungsagenten sind viel zu langsam, das hier ist ein völlig anderes Niveau. Ich frage mich, wie die interne Architektur aufgebaut ist

    • Noch cooler ist, dass Menschen in der heutigen Welt überhaupt noch von etwas begeistert sein können. AI ersetzt ja alles, was wir bisher gemacht haben
    • Ich brauche dringend einen AI-Agenten, der mein Smartphone für mich bedient
      So etwas, das Befehle wie „Chrome öffnen“, „zu xyz.com gehen“, „auf Login klicken“ auf Bildschirmebene ausführt
    • Es steuert die Maus direkt?
    • Können Maschinen nicht auch framegenau Spiele spielen?
    • Mit Pythons dxcam und der Windows Hook API zum Empfangen von HID-Nachrichten müsste das möglich sein
  • Die Lücke zwischen High-Level- und Low-Level-Steuerung bei Robotern wird immer kleiner
    Auf Basis von Tausenden Stunden aufgabenspezifischer Trainingsdaten werden Roboter gerade darauf trainiert, in bestimmten Kontexten bestimmte Aufgaben auszuführen
    Man steuert Roboter dabei mit niedrigstufigen Befehlen wie „die Spülmaschine ausräumen“, „meine Bewegungen nachmachen“ oder „an der Schnur ziehen“
    Wenn so etwas mit einem High-Level-Steuerungsagenten wie SIMA 2 kombiniert wird, könnten nützliche Roboter für die reale Welt entstehen

    • Ich forsche an physikbasierter Charakteranimation, und es wirkt nicht so, als würde sich dieses Problem bald einfach durch mehr Daten lösen lassen
    • Ich verstehe nicht ganz, was mit „funktioniert wie ein Videospiel“ gemeint ist
      Ich frage mich, warum solche Eingaben niedrigstufig sein sollen und wie sie mit einem High-Level-Steuerungsagenten wie SIMA 2 zusammenwirken
      Ist die Struktur so, dass SIMA 2 einen Befehl wie „die Spülmaschine ausräumen“ in tatsächliche Tasteneingaben oder Interface-Manipulationen umsetzt?
  • Das erinnert mich an Ted Chiangs Kurzgeschichte „The Lifecycle of Software Objects“
    Der nächste Schritt wäre vielleicht, diese Digient-AI in den Figure 03-Roboter zu setzen

    • Google wird wahrscheinlich ein separates AI-System speziell für die Robotersteuerung trainieren
      Tatsächlich hat im Butter-Bench-Experiment ein allgemeines LLM einen Saugroboter gesteuert,
      und als der Akku leer wurde, hinterließ es emotionale Logs mit so etwas wie „Docking-Angst“ und geriet in Panik. Lustig, aber ein interessantes Ergebnis
  • Interessant ist die Erklärung, dass SIMA 2 mit Gemini-basiertem Feedback nach und nach komplexere Aufgaben ausführen kann
    Es nutzt eigene Erfahrungsdaten für das Training der nächsten Version, also wirkt es wie eine selbstverbessernde Struktur
    Ist SIMA eine Agentenschicht, die auf Gemini läuft?

    • Für mich klingt es auch so. Es wirkt, als wären die beiden Systeme über eine Textschnittstelle verbunden
  • Ich frage mich, ob diese Technologie am Ende E-Sport ruinieren könnte
    Wenn AI schneller reagiert als Menschen und nicht ermüdet, könnten Spiele wie MMOs oder FPS am Ende von AI überflutet werden

    • Sport ist letztlich nur eine Menge von Regeln. Entscheidend ist, Betrug zu verhindern
      Gute AI könnte vielmehr repetitive Arbeit reduzieren und ein neues Spielgenre eröffnen, in dem sich Spieler auf strategische Entscheidungen konzentrieren
    • Im Schach ist AI den Menschen schon überlegen, und trotzdem bleibt es unterhaltsam
      Ähnlich dürfte der Spaß auch erhalten bleiben, wenn sich ein Mensch-gegen-AI-Szenario entwickelt
    • Wenn AI anfangs Menschen schlägt, wird das Schlagzeilen machen, aber bald wird der Neuheitseffekt verschwinden
      Am Ende wird die Nutzung von AI gesellschaftlich als Hilfsmittel wahrgenommen werden, ähnlich wie Cheats oder Skripte
    • Früher hat in World of Warcraft ein mit Reinforcement Learning gebauter Druiden-Bot in 2v2-Matches alle Menschen besiegt
      In FPS würde das zu sehr auffallen, aber in rundenbasierten Spielen oder MMORPGs mit geringerem Hand-Auge-Koordinationsanteil ist die Unterscheidung schwierig
      Eher sind subtile Cheats wie ESP die größere Bedrohung für den E-Sport
    • Letztlich könnten MMOs so kaputtgehen wie Online-Poker
  • Ich will intelligentere Spiele
    So eine Struktur wie bei Survival-Games: Am Anfang sammelt man Holz und Steine, und mit wachsender Technologie wechselt man dann zur Automatisierung
    NPCs bauen Ressourcen ab, beschaffen Nahrung und Verteidigung, damit man größere Ziele erreichen kann
    Der Spieler genießt die Fantasie, der „große Boss“ zu sein, der smarten Charakteren Befehle erteilt

    • Es gibt das Open-Source-Framework Mindcraft
      Das ist ein intelligentes Bot-System, das mit LLMs wie GPT-4 oder Gemini in Minecraft Ressourcen sammelt, baut und kooperiert
    • Ich frage mich, ob SIMA 2 in Minecraft selbstständig Iron Farms oder Handelshallen lernen könnte
      Könnte es erkennen, dass Eisen knapp ist, und dadurch motiviert werden?
      Wenn das Ziel einfach nur „das Spiel durchspielen“ ist, würde es vielleicht direkt nur den Enderdrachen jagen
    • Im Grunde wäre das wie The Sims spielen
      Nur eben statt „das Haus dekorieren“ eher in der Variante „Erze für eine Schicksalswaffe abbauen“
  • Ich wünschte, Google würde zu seiner früheren offenen Forschungskultur zurückkehren
    In letzter Zeit neigt das Unternehmen dazu, Experimente unter Verschluss zu halten und nur Pressemitteilungen zu veröffentlichen
    Es wäre schön, wenn sie Dinge als Open Source veröffentlichen und nur dann schließen würden, wenn es wirklich nötig ist
    Ihre Forschung ist so beeindruckend, dass man umso mehr selbst direkt mitmachen möchte

    • Sehe ich genauso. Ich würde es gern selbst ausprobieren
    • Dreamer v3 wurde veröffentlicht, kommt v4 wohl auch bald?
  • Das ist zwar ein Forschungsprojekt, aber ich frage mich, was als Nächstes kommt
    Lässt sich das Gelernte aus virtuellen Welten auf reale Roboter übertragen?
    Oder muss man in der Realität separat trainieren?
    Braucht man außerdem nicht noch ausgefeiltere Simulationswelten, um die Unterschiede zur realen Physik in Spielen zu überwinden?

    • Das Ziel ist, die Lernweise aus virtuellen Welten auf die reale Welt anzuwenden
      Wenn hochpräzise Weltmodelle verfügbar sind, könnte man Roboter darin trainieren und auf die Realität generalisieren
      Im Moment wird dafür erst die Grundlage geschaffen
    • Das nennt man in der Robotik das sim2real-Problem. Lohnt sich, dazu nachzulesen
  • Im Demo-Video bei 0:52 ist ein Grammatikfehler zu sehen, deshalb kommt der Verdacht auf, dass die Annotationen nachträglich bearbeitet wurden
    Hat Google hier wieder zu Marketingzwecken übertrieben?

    • Vermutlich wurde die Ingame-Zeile „Go to the house that looks like a ripe tomato!“
      zu einem Imperativ wie „Zum Tomatenhaus gehen“ umformuliert
      Trotzdem wirkt die Y-Achse des Diagramms viel vernünftiger als bei anderen Benchmarks zuletzt
    • Tatsächlich sieht man direkt vor der Szene, dass der Nutzer „ripe tomato“ eingibt
      In der Kurzfassung wurde das weggelassen, im Kontext ist dieser Ausdruck aber enthalten
  • Es wäre schön, wenn solche Technik lokal als Spielhilfe-Agent laufen würde
    Wenn sie repetitive Arbeit übernimmt, könnte man ein Spiel vielleicht länger genießen
    Selbst wenn sie nicht perfekt ist, könnte genau das sogar Spaß machen

    • Wenn AI stattdessen für mich spielt, könnte ich die Zeit eher für echte Arbeit wie Putzen oder Wäschewaschen nutzen
      Jetzt kann man dann wohl auch lästige Dinge wie Gedichte, Bilder oder Spiele delegieren
    • Ein Spiel spielen zu lassen, weil es keinen Spaß macht, ist seltsam. Der Kern von Spielen ist, sie selbst zu spielen
    • Wie bei „Skeeball → Virtual Skeeball → Virtual Virtual Skeeball“
      Wenn AI übernimmt, verliert man am Ende das Interesse. Spiele sind schließlich als Balance aus Arbeit und Belohnung entworfen
    • Wenn man repetitive Arbeit delegieren muss, ist das schlechtes Gamedesign
    • Ich habe in Terraria auch schon mit AutoHotkey ein automatisches Mining-Skript gebaut
      Es hat anhand von Koordinaten Blöcke abgebaut, aber wenn man nicht auf den Bildschirm geschaut hat, ist es auch mal in eine Monstergrube gefallen. Es war ein völlig „blinder Bot“