KI-Agenten mit dem Spiel 'Battleship' beibringen, bessere Fragen zu stellen

(news.mit.edu)

1 Punkte von GN⁺ 2026-06-04 | Noch keine Kommentare. | Auf WhatsApp teilen

Das klassische Deduktionsspiel Battleship wurde in ein natürlichsprachiges Frage-Antwort-Format umgebaut, um ein Testbed zu schaffen, das misst, wie gut KI-Agenten in unsicheren Umgebungen gute Fragen stellen können
Das Spiel läuft mit einer Struktur aus einem Kapitän (captain), der nach den Positionen versteckter Schiffe fragt, und einem Beobachter (spotter), der in Echtzeit antwortet; aus Daten von mehr als 40 Teilnehmenden wurde der Datensatz BattleshipQA erstellt
Auch ohne Vortraining konnten große Modelle wie GPT-5 mit weniger Zügen als Menschen gewinnen, kleine Modelle waren jedoch darin unerfahren, nützliche Fragen zu formulieren, weshalb eine Monte-Carlo-Inferenzstrategie angewandt wurde
Llama 4 Scout stieg vor der Verbesserung von einer Siegquote von 8 % gegen Menschen auf 82 %, übertraf GPT-5 und verursachte dabei nur etwa 1 % der Kosten
Damit wurde gezeigt, dass kleine Modelle große Modelle kosteneffizient übertreffen können; zugleich deutet das Potenzial für Bereiche wissenschaftlicher Entdeckungen an, in denen eine needle-in-a-haystack-Suche nach seltenen Lösungen nötig ist

Forschungshintergrund: Grenzen der Informationssuche von KI-Agenten

Die Erwartungen an KI-Agenten sind 2026 höher denn je, und klar definierte Aufgaben wie Kundenservice oder Softwareentwicklung werden auf Basis von Sprachmodellen (LMs) ausgeführt
In Bereichen wie medizinischer Diagnose oder wissenschaftlicher Entdeckung, in denen in unsicheren Umgebungen ein breiter Lösungsraum durchsucht werden muss, haben LMs Schwierigkeiten
Forschende von MIT CSAIL und Harvard SEAS wählten Battleship, das in der Kognitionswissenschaft zur Untersuchung der menschlichen Informationssuche verwendet wurde, als Test, um Kernprobleme von LMs in risikoreichen Situationen zu analysieren

Das Spiel wurde auf natürliche Sprachfragen und -antworten ausgerichtet neu aufgebaut; eine Person übernimmt die Rolle des Kapitäns, der nach versteckten Schiffen fragt, während ein Teammitglied als Beobachter in Echtzeit antwortet
Mehr als 40 Menschen spielten gemeinsam, und aus den gesammelten Fragen sowie Ja/Nein-Antworten wurde der Datensatz BattleshipQA aufgebaut
Diese Daten dienen als Vergleichsmaßstab beim Test aktueller LMs wie GPT-5 und kleinerer Modelle wie Llama 4 Scout
Auch ohne Vortraining konnten Spitzen-LMs das Spiel mit weniger Zügen als Menschen beenden und damit „gewinnen“, während kleinere Systeme deutlich irrationaler agierten

Das zentrale Problem besteht darin, dass viele Modelle keine nützlichen Fragen erzeugen können
Jedem Modell wurde bei jeder Antwort eine Monte-Carlo-Inferenzstrategie gegeben, die die Wahrscheinlichkeit bewertet, dass eine Option korrekt ist; damit konnten Modelle unabhängig von ihrer Größe normale Spieler schlagen
Das LM behandelt mögliche Vermutungen als einzelne Partikel (particles) und gewichtet nach jeder Antwort des Beobachters die plausibleren Vermutungen stärker
- Es funktioniert wie ein Spielball, der in jeder Runde anschwillt oder schrumpft, und hilft dem Kapitän, dem Beobachter deutlich mehr Information zu entlocken
Llama 4 Scout erreichte als kleines Modell zunächst nur 8 % Siegquote gegen Menschen, kam nach der Verbesserung der Inferenzstrategie jedoch auf 82 %, übertraf GPT-5 und kostete dabei nur rund 1 % so viel

GPT-5 war ein verlässlicher Beobachter, kleinere Systeme neigten jedoch dazu, die Positionen von Schiffen falsch anzugeben
Die Fragen des Kapitäns wurden automatisch in codierte Befehle umgewandelt, damit das Beobachter-LM seine Antworten verifizieren konnte; die durchschnittliche Genauigkeit stieg um 15 %
- Beispiel: „Gibt es in Spalte 1 ein Schiff, das sich über zwei Zeilen erstreckt?“ → Umwandlung in einen Befehl, der den betreffenden Bereich durchsucht und die Breite der Spielsteine bewertet
Als dem Modell mit der Sprache Python, die es besonders gut versteht, klare Anweisungen gegeben wurden, stieg die Trefferquote deutlich
- Das leichte Modell GPT-4o-mini verbesserte sich um etwa 30 %, das große Modell Claude 4 Opus um rund 8 Prozentpunkte
Aufbauend auf dem Erfolg der Auto-Formalization-Strategie, bei der LMs Code erzeugen, um Lösungen zu prüfen, zeigt die Arbeit das Potenzial für bessere Lösungsgenerierung durch verbesserte Such- und Informationssammelfähigkeiten

Dieselbe Methode wurde auch auf Guess Who? angewandt, bei dem aus 100 Optionen die versteckte Figur eingegrenzt und erraten werden muss
Llama 4 Scout stieg von 30 % auf über 72 %, GPT-4o von 62 % auf 90 %, wobei GPT-5 in jedem Spiel die Rolle des Beobachters übernahm
Modelle haben weiterhin Schwierigkeiten, komplexe Fragen besser zu beantworten als Menschen
- GPT-5 kann den durchschnittlichen Battleship-Spieler schlagen und verbessert sich mit der Methode leicht, doch anders als beim Schach sind Expertenspieler für alle Modelle weiterhin schwer zu besiegen

KI-Agenten besitzen Potenzial für needle-in-a-haystack-Suchen nach seltenen Lösungen in riesigen Suchräumen
- Sie könnten als starke Forschungsassistenten bei wissenschaftlichen Aufgaben wie der Identifikation molekularer Strukturen von Verbindungen eingesetzt werden
Collaborative Battleship ist ein vergleichsweise einfaches Testbed; zusätzliche Validierung in komplexen Umgebungen mit deutlich mehr Auswahlmöglichkeiten ist nötig
Geplant sind Studien zur Wirkung der Zusammenarbeit von Mensch und KI, Feinabstimmung auf Basis von Spielsimulationen und fortgeschrittene Inferenzfähigkeiten durch mehr Rechenressourcen
Je autonomer Agenten werden, desto schwieriger werden soziale Probleme wie das Nachverfolgen gemeinsamer Grundlagen, das Auflösen von Missverständnissen und die Anpassung an Partner; als eigentlicher Flaschenhals gilt nicht nur die Berechnung optimaler Fragen, sondern praktische Inferenz, die Antworten bestmöglich ausnutzt