1 Punkte von GN⁺ 4 시간 전 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Das klassische Deduktionsspiel Battleship wurde in ein natürlichsprachiges Frage-Antwort-Format umgebaut, um ein Testbed zu schaffen, das misst, wie gut KI-Agenten in unsicheren Umgebungen gute Fragen stellen können
  • Das Spiel läuft mit einer Struktur aus einem Kapitän (captain), der nach den Positionen versteckter Schiffe fragt, und einem Beobachter (spotter), der in Echtzeit antwortet; aus Daten von mehr als 40 Teilnehmenden wurde der Datensatz BattleshipQA erstellt
  • Auch ohne Vortraining konnten große Modelle wie GPT-5 mit weniger Zügen als Menschen gewinnen, kleine Modelle waren jedoch darin unerfahren, nützliche Fragen zu formulieren, weshalb eine Monte-Carlo-Inferenzstrategie angewandt wurde
  • Llama 4 Scout stieg vor der Verbesserung von einer Siegquote von 8 % gegen Menschen auf 82 %, übertraf GPT-5 und verursachte dabei nur etwa 1 % der Kosten
  • Damit wurde gezeigt, dass kleine Modelle große Modelle kosteneffizient übertreffen können; zugleich deutet das Potenzial für Bereiche wissenschaftlicher Entdeckungen an, in denen eine needle-in-a-haystack-Suche nach seltenen Lösungen nötig ist

Forschungshintergrund: Grenzen der Informationssuche von KI-Agenten

  • Die Erwartungen an KI-Agenten sind 2026 höher denn je, und klar definierte Aufgaben wie Kundenservice oder Softwareentwicklung werden auf Basis von Sprachmodellen (LMs) ausgeführt
  • In Bereichen wie medizinischer Diagnose oder wissenschaftlicher Entdeckung, in denen in unsicheren Umgebungen ein breiter Lösungsraum durchsucht werden muss, haben LMs Schwierigkeiten
  • Forschende von MIT CSAIL und Harvard SEAS wählten Battleship, das in der Kognitionswissenschaft zur Untersuchung der menschlichen Informationssuche verwendet wurde, als Test, um Kernprobleme von LMs in risikoreichen Situationen zu analysieren

Das Collaborative-Battleship-Spiel und der BattleshipQA-Datensatz

  • Das Spiel wurde auf natürliche Sprachfragen und -antworten ausgerichtet neu aufgebaut; eine Person übernimmt die Rolle des Kapitäns, der nach versteckten Schiffen fragt, während ein Teammitglied als Beobachter in Echtzeit antwortet
  • Mehr als 40 Menschen spielten gemeinsam, und aus den gesammelten Fragen sowie Ja/Nein-Antworten wurde der Datensatz BattleshipQA aufgebaut
  • Diese Daten dienen als Vergleichsmaßstab beim Test aktueller LMs wie GPT-5 und kleinerer Modelle wie Llama 4 Scout
  • Auch ohne Vortraining konnten Spitzen-LMs das Spiel mit weniger Zügen als Menschen beenden und damit „gewinnen“, während kleinere Systeme deutlich irrationaler agierten

Bessere Fragen stellen — Monte-Carlo-Inferenzstrategie

  • Das zentrale Problem besteht darin, dass viele Modelle keine nützlichen Fragen erzeugen können
  • Jedem Modell wurde bei jeder Antwort eine Monte-Carlo-Inferenzstrategie gegeben, die die Wahrscheinlichkeit bewertet, dass eine Option korrekt ist; damit konnten Modelle unabhängig von ihrer Größe normale Spieler schlagen
  • Das LM behandelt mögliche Vermutungen als einzelne Partikel (particles) und gewichtet nach jeder Antwort des Beobachters die plausibleren Vermutungen stärker
    • Es funktioniert wie ein Spielball, der in jeder Runde anschwillt oder schrumpft, und hilft dem Kapitän, dem Beobachter deutlich mehr Information zu entlocken
  • Llama 4 Scout erreichte als kleines Modell zunächst nur 8 % Siegquote gegen Menschen, kam nach der Verbesserung der Inferenzstrategie jedoch auf 82 %, übertraf GPT-5 und kostete dabei nur rund 1 % so viel

Genauer antworten — Umwandlung in Python-Code

  • GPT-5 war ein verlässlicher Beobachter, kleinere Systeme neigten jedoch dazu, die Positionen von Schiffen falsch anzugeben
  • Die Fragen des Kapitäns wurden automatisch in codierte Befehle umgewandelt, damit das Beobachter-LM seine Antworten verifizieren konnte; die durchschnittliche Genauigkeit stieg um 15 %
    • Beispiel: „Gibt es in Spalte 1 ein Schiff, das sich über zwei Zeilen erstreckt?“ → Umwandlung in einen Befehl, der den betreffenden Bereich durchsucht und die Breite der Spielsteine bewertet
  • Als dem Modell mit der Sprache Python, die es besonders gut versteht, klare Anweisungen gegeben wurden, stieg die Trefferquote deutlich
    • Das leichte Modell GPT-4o-mini verbesserte sich um etwa 30 %, das große Modell Claude 4 Opus um rund 8 Prozentpunkte
  • Aufbauend auf dem Erfolg der Auto-Formalization-Strategie, bei der LMs Code erzeugen, um Lösungen zu prüfen, zeigt die Arbeit das Potenzial für bessere Lösungsgenerierung durch verbesserte Such- und Informationssammelfähigkeiten

Ausweitung auf andere Spiele — Guess Who?

  • Dieselbe Methode wurde auch auf Guess Who? angewandt, bei dem aus 100 Optionen die versteckte Figur eingegrenzt und erraten werden muss
  • Llama 4 Scout stieg von 30 % auf über 72 %, GPT-4o von 62 % auf 90 %, wobei GPT-5 in jedem Spiel die Rolle des Beobachters übernahm
  • Modelle haben weiterhin Schwierigkeiten, komplexe Fragen besser zu beantworten als Menschen
    • GPT-5 kann den durchschnittlichen Battleship-Spieler schlagen und verbessert sich mit der Methode leicht, doch anders als beim Schach sind Expertenspieler für alle Modelle weiterhin schwer zu besiegen

Offene Aufgaben und künftige Richtung

  • KI-Agenten besitzen Potenzial für needle-in-a-haystack-Suchen nach seltenen Lösungen in riesigen Suchräumen
    • Sie könnten als starke Forschungsassistenten bei wissenschaftlichen Aufgaben wie der Identifikation molekularer Strukturen von Verbindungen eingesetzt werden
  • Collaborative Battleship ist ein vergleichsweise einfaches Testbed; zusätzliche Validierung in komplexen Umgebungen mit deutlich mehr Auswahlmöglichkeiten ist nötig
  • Geplant sind Studien zur Wirkung der Zusammenarbeit von Mensch und KI, Feinabstimmung auf Basis von Spielsimulationen und fortgeschrittene Inferenzfähigkeiten durch mehr Rechenressourcen
  • Je autonomer Agenten werden, desto schwieriger werden soziale Probleme wie das Nachverfolgen gemeinsamer Grundlagen, das Auflösen von Missverständnissen und die Anpassung an Partner; als eigentlicher Flaschenhals gilt nicht nur die Berechnung optimaler Fragen, sondern praktische Inferenz, die Antworten bestmöglich ausnutzt

Noch keine Kommentare.

Noch keine Kommentare.