1 Punkte von GN⁺ 2024-12-25 | 1 Kommentare | Auf WhatsApp teilen

Informatik > Maschinelles Lernen

  • Titel: Adversarial Policies Beat Superhuman Go AIs
  • Autoren: Tony T. Wang, Adam Gleave, Tom Tseng, Kellin Pelrine, Nora Belrose, Joseph Miller, Michael D. Dennis, Yawen Duan, Viktor Pogrebniak, Sergey Levine, Stuart Russell
  • Einreichungsdatum: 1. November 2022 (v1), letzte Überarbeitung am 13. Juli 2023 (v4)

Zusammenfassung

  • Das Team trainierte adversariale Policies für das Top-Go-KI-System KataGo und erreichte damit im Superhuman-Setting eine Gewinnrate von über 97 % gegen KataGo.
  • Die adversarialen Policies gewinnen nicht, weil sie Go besser spielen, sondern indem sie KataGo zu gravierenden Fehlern verleiten.
  • Der Angriff überträgt sich im Zero-Shot auf andere übermenschliche Go-KIs und ist so gut nachvollziehbar, dass menschliche Experten die übermenschliche KI auch ohne algorithmische Hilfe konsistent schlagen können.
  • Die zentrale Schwachstelle bleibt selbst bei KataGo-Agenten bestehen, die adversarial auf solche Angriffe trainiert wurden.
  • Die Ergebnisse zeigen, dass selbst übermenschliche KI-Systeme erstaunliche Ausfallmodi aufweisen können.

Zusatzinformationen

  • Paper-Status: Angenommen auf ICML 2023
  • Thema: Maschinelles Lernen (cs.LG); Künstliche Intelligenz (cs.AI); Kryptographie und Sicherheit (cs.CR); Maschinelles Lernen (stat.ML)
  • ACM-Klassifikation: I.2.6
  • Zitation: arXiv:2211.00241 [cs.LG] (oder arXiv:2211.00241v4 [cs.LG] für diese Version)
  • Revisionsverlauf:
    • [v1] 1. November 2022
    • [v2] 9. Januar 2023
    • [v3] 18. Februar 2023
    • [v4] 13. Juli 2023

Zugriff

  • PDF- und andere Formate der Arbeit sind verfügbar
  • Verlinkte Arbeiten und Zitierwerkzeuge werden bereitgestellt

arXiv-Informationen

  • arXiv ist eine Plattform zum Teilen von Forschungsarbeiten und stellt Paper zu einer großen Bandbreite von Themen zur Verfügung.

1 Kommentare

 
GN⁺ 2024-12-25
Hacker News Kommentare
  • Ein Nutzer schrieb, dass die Studie auf den ersten Blick beeindruckend wirkt, aber schwer zu verstehen sei. Obwohl er etwas über Go und Go-KI weiß und sehr gut über Schach und Schach-KI informiert ist, empfand er die Erklärung als unzureichend und die vielen Fachbegriffe als schwer verständlich.

    • Er meint, dass das Paper seine Idee versteckt, und die Idee sei zugleich erstaunlich einfach.
  • Er stellte Randfälle im Schach vor und verglich die Bewertungen von Stockfish und Lc0.

    • Im ersten Fall bewerten Stockfish und Lc0 Weiß als leicht im Vorteil.
    • Im zweiten und dritten Fall bewerten beide Schwarz als Sieger.
    • Im vierten Fall versteht Lc0 die Lage, während Stockfish sie nicht versteht.
  • Er merkte an, dass in Go ein Amateur durch unvorhersehbare Züge zu einem herausfordernden Gegner werden kann.

    • Gelegentlich können unkonventionelle Züge effektiv sein.
  • Er erinnerte daran, dass Schachspieler nach Deep Blue ihre Strategie gegenüber dem Computer verbessert haben.

    • Bei Go könnte es wegen des größeren Spielfelds mehr Anti-Computer-Strategien geben.
    • Es geht darum, Schwachstellen in Bewertungsfunktionen auszunutzen.
  • Er erwähnte, dass auch im Schach mehr Berechnung zu mehr Siegen führt.

    • Elo ist ein Maß für Siege und Niederlagen und kann bei Verwechslung mit Schwierigkeitsgraden zu falschen Schlussfolgerungen führen.
  • Er erwähnte eine überarbeitete Version der Arbeit von 2022 bis 2023 und sagte, dass er sie vielleicht schon einmal gesehen haben könnte.

    • Er fragt sich, wie effektiv dieser Ansatz bei Schachengines im Stil von Leela sein kann.
  • Er sagte, dass es auch für Menschen Hoffnung gibt.

  • Er sagte, dass die Arbeit wahrscheinlich in der Go-KI verwendet wird, um Abwehr gegen adversariale Strategien zu integrieren.

    • Er nannte es eine reine Neugier, meinte aber, dass es den Gesamtzustand der KI-Entwicklung widerspiegele.
  • Er bemerkte, dass die Schlussfolgerung "Unsere Ergebnisse zeigen, dass selbst übermenschliche KI-Systeme verblüffende Ausfallmodi haben können" unbefriedigend ist.

    • Es bedeute keinerlei Aussagekraft für künftige "Superintelligenz", denn sie könnte oder auch nicht solche „Fehlermodi“ haben.