- Machine Unlearning bedeutet, unerwünschte Daten aus einem trainierten Modell zu entfernen, und es wächst das Interesse daran, Modelle zu bearbeiten, ohne sie von Grund auf neu trainieren zu müssen
- Dazu gehört zum Beispiel das Entfernen von personenbezogenen Daten, veraltetem Wissen, urheberrechtlich geschütztem Material, schädlichen/gefährlichen Inhalten, riskanten Fähigkeiten und Fehlinformationen
Formen des Unlearning
- Exaktes Unlearning (Exact unlearning)
- Es verlangt, dass das verlernte Modell und das neu trainierte Modell hinsichtlich ihrer Verteilung identisch sind
- Der Kern besteht darin, dass der Lernalgorithmus modulare Komponenten hat, die unterschiedlichen Mengen von Trainingsbeispielen entsprechen
- „Unlearning“ durch Differential Privacy
- Dabei wird sichergestellt, dass das Modell nicht von einem bestimmten Datenpunkt abhängt
- Es wird eine Verteilungsnähe zwischen dem verlernten Modell und dem neu trainierten Modell verlangt
- Empirisches Unlearning mit bekanntem Beispielraum (Empirical unlearning with known example space)
- Wird angewendet, wenn die zu verlernenden Daten genau bekannt sind
- Das Unlearning erfolgt durch Model-Finetuning
- Empirisches Unlearning mit unbekanntem Beispielraum (Empirical unlearning with unknown example space)
- Wird angewendet, wenn Umfang oder Grenzen der zu verlernenden Daten nicht klar sind
- Dazu gehören Fälle, in denen Konzepte, Fakten oder Wissen verlernt werden sollen
- Einfach um Unlearning bitten (Just ask for unlearning)
- Ein Ansatz, bei dem ein leistungsfähiges LLM direkt um Unlearning gebeten wird
Bewertung von Unlearning
- Die Bewertung von Unlearning ist ein sehr schwieriges Problem. Besonders gravierend ist der Mangel an Metriken und Benchmarks
- Bei der Bewertung von Unlearning sollten die folgenden drei Aspekte im Mittelpunkt stehen
- Effizienz: Wie viel schneller ist der Algorithmus im Vergleich zum Neu-Training
- Modellnutzwert: Ob es zu Leistungseinbußen bei Daten kommt, die erhalten bleiben sollen, oder bei orthogonalen Tasks
- Qualität des Vergessens: In welchem Ausmaß die zu vergessenden Daten tatsächlich verlernt wurden
- Die Benchmarks TOFU und WMDP wurden kürzlich vorgeschlagen und helfen bei der Bewertung von Unlearning
- TOFU konzentriert sich auf das Verlernen personenbezogener Daten von Autoren, WMDP auf das Verlernen gefährlichen Wissens im Bereich Bio-/Cybersicherheit
- Sie bieten eine höherstufige Bewertung auf Basis von Wissensbesitz und Verständnis statt auf Instanzbasis
- Es scheint Bedarf an anwendungsorientierten Unlearning-Benchmarks zu geben, etwa zu personenbezogenen Identifikationsdaten, Urheberrecht, Schädlichkeit und Backdoors
Praxis und Ausblick für Unlearning
- Die Schwierigkeit von Unlearning liegt auf einem Spektrum
- Das Verlernen von selten vorkommendem Text ist am einfachsten; Text mit hoher Frequenz und grundlegende Fakten werden zunehmend schwieriger
- Je grundlegender ein Wissenselement ist, desto stärker ist es mit anderem Wissen verknüpft, wodurch sich der Umfang des Unlearning exponentiell vergrößern kann
- Früh gelernte Beispiele können durch spätere Beispiele „überschrieben“ worden sein, was das Unlearning erschweren kann
- Umgekehrt können spät gelernte Beispiele schwer zu verlernen sein, weil das Modell sie schrittweise oder katastrophal vergisst
- Urheberrechtsschutz
- Unlearning wirkt vielversprechend für den Urheberrechtsschutz, aber die rechtliche Lage ist derzeit unklar
- Wenn die Nutzung urheberrechtlich geschützter Inhalte nach der Fair-Use-Doktrin als zulässig gilt, könnte Unlearning unnötig sein
- Suchbasierte AI-Systeme
- Inhalte, für die Unlearning-Anfragen eingehen könnten, werden aus dem Vortrainingskorpus entfernt und in einer externen Datenbank gespeichert
- Geht eine Unlearning-Anfrage ein, können die betreffenden Daten aus der DB gelöscht werden
- Allerdings gibt es Probleme wie Deduplizierung, Umgang mit Zitaten/Abwandlungen und Data-Extraction-Angriffe
- AI-Sicherheit
- Unlearning kann genutzt werden, um gefährliches Wissen, Verhalten oder Fähigkeiten aus Modellen zu entfernen
- Es sollte jedoch als einer von mehreren Mechanismen zur nachträglichen Risikominderung und Verteidigung betrachtet werden, und man muss sich bewusst sein, dass es trade-offs mit anderen Werkzeugen wie Alignment-Finetuning oder Inhaltsfilterung gibt
Meinung von GN⁺
- Machine Unlearning befindet sich noch in einem frühen Forschungsstadium, und besonders bei großen Sprachmodellen scheint es viele Schwierigkeiten zu geben. Abgesehen von speziellen Fällen, in denen exaktes Unlearning möglich ist, stützt man sich derzeit meist auf empirische und erfahrungsbasierte Methoden.
- Das größte Hindernis scheint das Bewertungsproblem zu sein. Definition und Kriterien von Unlearning sind vage, und da die Situation je nach Anwendung unterschiedlich ist, dürfte Fortschritt ohne belastbare Benchmarks und Bewertungsmetriken schwierig sein. Dass zuletzt anwendungsorientierte Benchmarks wie TOFU und WMDP erschienen sind, ist dennoch ermutigend.
- Beim Urheberrecht könnte man neben Unlearning auch ökonomische Lösungen in Betracht ziehen. OpenAI verfolgt etwa einen Ansatz, bei dem ein exakter Unlearning-Service über regelmäßiges Neu-Training angeboten wird und der Modellinhaber in der Zwischenzeit für auftretende Urheberrechtsverletzungen haftungsfrei gestellt wird.
- Suchbasierte Systeme haben viele Vorteile, aber im Detail scheint es schwieriger zu sein als gedacht. Es gibt viele Aufgaben zu lösen, darunter Deduplizierung, Urheberrechtserkennung und die Abwehr von Data-Extraction-Angriffen. Da die In-Context-Learning-Fähigkeiten von LLMs zunehmen, dürfte schon mit Retrieval vieles möglich werden, aber Finetuning vollständig zu ersetzen, scheint schwierig.
- Aus Sicht der AI-Sicherheit ist Unlearning ein ziemlich interessantes Forschungsfeld. Es ist jedoch keine Universallösung und sollte zusammen mit anderen Abwehrtechniken wie Alignment und Filterung eingesetzt werden. Da Modelle mehr Autonomie erhalten, dürfte auch das Interesse aus Policy-/Regulierungsperspektive zunehmen.
2 Kommentare
Googles Machine Unlearning Challenge
Hacker-News-Kommentare