Informatik > Maschinelles Lernen
- Titel: Adversarial Policies Beat Superhuman Go AIs
- Autoren: Tony T. Wang, Adam Gleave, Tom Tseng, Kellin Pelrine, Nora Belrose, Joseph Miller, Michael D. Dennis, Yawen Duan, Viktor Pogrebniak, Sergey Levine, Stuart Russell
- Einreichungsdatum: 1. November 2022 (v1), letzte Überarbeitung am 13. Juli 2023 (v4)
Zusammenfassung
- Das Team trainierte adversariale Policies für das Top-Go-KI-System KataGo und erreichte damit im Superhuman-Setting eine Gewinnrate von über 97 % gegen KataGo.
- Die adversarialen Policies gewinnen nicht, weil sie Go besser spielen, sondern indem sie KataGo zu gravierenden Fehlern verleiten.
- Der Angriff überträgt sich im Zero-Shot auf andere übermenschliche Go-KIs und ist so gut nachvollziehbar, dass menschliche Experten die übermenschliche KI auch ohne algorithmische Hilfe konsistent schlagen können.
- Die zentrale Schwachstelle bleibt selbst bei KataGo-Agenten bestehen, die adversarial auf solche Angriffe trainiert wurden.
- Die Ergebnisse zeigen, dass selbst übermenschliche KI-Systeme erstaunliche Ausfallmodi aufweisen können.
Zusatzinformationen
- Paper-Status: Angenommen auf ICML 2023
- Thema: Maschinelles Lernen (cs.LG); Künstliche Intelligenz (cs.AI); Kryptographie und Sicherheit (cs.CR); Maschinelles Lernen (stat.ML)
- ACM-Klassifikation: I.2.6
- Zitation: arXiv:2211.00241 [cs.LG] (oder arXiv:2211.00241v4 [cs.LG] für diese Version)
- Revisionsverlauf:
- [v1] 1. November 2022
- [v2] 9. Januar 2023
- [v3] 18. Februar 2023
- [v4] 13. Juli 2023
Zugriff
- PDF- und andere Formate der Arbeit sind verfügbar
- Verlinkte Arbeiten und Zitierwerkzeuge werden bereitgestellt
arXiv-Informationen
- arXiv ist eine Plattform zum Teilen von Forschungsarbeiten und stellt Paper zu einer großen Bandbreite von Themen zur Verfügung.
1 Kommentare
Hacker News Kommentare
Ein Nutzer schrieb, dass die Studie auf den ersten Blick beeindruckend wirkt, aber schwer zu verstehen sei. Obwohl er etwas über Go und Go-KI weiß und sehr gut über Schach und Schach-KI informiert ist, empfand er die Erklärung als unzureichend und die vielen Fachbegriffe als schwer verständlich.
Er stellte Randfälle im Schach vor und verglich die Bewertungen von Stockfish und Lc0.
Er merkte an, dass in Go ein Amateur durch unvorhersehbare Züge zu einem herausfordernden Gegner werden kann.
Er erinnerte daran, dass Schachspieler nach Deep Blue ihre Strategie gegenüber dem Computer verbessert haben.
Er erwähnte, dass auch im Schach mehr Berechnung zu mehr Siegen führt.
Er erwähnte eine überarbeitete Version der Arbeit von 2022 bis 2023 und sagte, dass er sie vielleicht schon einmal gesehen haben könnte.
Er sagte, dass es auch für Menschen Hoffnung gibt.
Er sagte, dass die Arbeit wahrscheinlich in der Go-KI verwendet wird, um Abwehr gegen adversariale Strategien zu integrieren.
Er bemerkte, dass die Schlussfolgerung "Unsere Ergebnisse zeigen, dass selbst übermenschliche KI-Systeme verblüffende Ausfallmodi haben können" unbefriedigend ist.