17 Punkte von GN⁺ 2024-05-06 | 2 Kommentare | Auf WhatsApp teilen
  • Machine Unlearning bedeutet, unerwünschte Daten aus einem trainierten Modell zu entfernen, und es wächst das Interesse daran, Modelle zu bearbeiten, ohne sie von Grund auf neu trainieren zu müssen
    • Dazu gehört zum Beispiel das Entfernen von personenbezogenen Daten, veraltetem Wissen, urheberrechtlich geschütztem Material, schädlichen/gefährlichen Inhalten, riskanten Fähigkeiten und Fehlinformationen

Formen des Unlearning

  • Exaktes Unlearning (Exact unlearning)
    • Es verlangt, dass das verlernte Modell und das neu trainierte Modell hinsichtlich ihrer Verteilung identisch sind
    • Der Kern besteht darin, dass der Lernalgorithmus modulare Komponenten hat, die unterschiedlichen Mengen von Trainingsbeispielen entsprechen
  • „Unlearning“ durch Differential Privacy
    • Dabei wird sichergestellt, dass das Modell nicht von einem bestimmten Datenpunkt abhängt
    • Es wird eine Verteilungsnähe zwischen dem verlernten Modell und dem neu trainierten Modell verlangt
  • Empirisches Unlearning mit bekanntem Beispielraum (Empirical unlearning with known example space)
    • Wird angewendet, wenn die zu verlernenden Daten genau bekannt sind
    • Das Unlearning erfolgt durch Model-Finetuning
  • Empirisches Unlearning mit unbekanntem Beispielraum (Empirical unlearning with unknown example space)
    • Wird angewendet, wenn Umfang oder Grenzen der zu verlernenden Daten nicht klar sind
    • Dazu gehören Fälle, in denen Konzepte, Fakten oder Wissen verlernt werden sollen
  • Einfach um Unlearning bitten (Just ask for unlearning)
    • Ein Ansatz, bei dem ein leistungsfähiges LLM direkt um Unlearning gebeten wird

Bewertung von Unlearning

  • Die Bewertung von Unlearning ist ein sehr schwieriges Problem. Besonders gravierend ist der Mangel an Metriken und Benchmarks
  • Bei der Bewertung von Unlearning sollten die folgenden drei Aspekte im Mittelpunkt stehen
    • Effizienz: Wie viel schneller ist der Algorithmus im Vergleich zum Neu-Training
    • Modellnutzwert: Ob es zu Leistungseinbußen bei Daten kommt, die erhalten bleiben sollen, oder bei orthogonalen Tasks
    • Qualität des Vergessens: In welchem Ausmaß die zu vergessenden Daten tatsächlich verlernt wurden
  • Die Benchmarks TOFU und WMDP wurden kürzlich vorgeschlagen und helfen bei der Bewertung von Unlearning
    • TOFU konzentriert sich auf das Verlernen personenbezogener Daten von Autoren, WMDP auf das Verlernen gefährlichen Wissens im Bereich Bio-/Cybersicherheit
    • Sie bieten eine höherstufige Bewertung auf Basis von Wissensbesitz und Verständnis statt auf Instanzbasis
  • Es scheint Bedarf an anwendungsorientierten Unlearning-Benchmarks zu geben, etwa zu personenbezogenen Identifikationsdaten, Urheberrecht, Schädlichkeit und Backdoors

Praxis und Ausblick für Unlearning

  • Die Schwierigkeit von Unlearning liegt auf einem Spektrum
    • Das Verlernen von selten vorkommendem Text ist am einfachsten; Text mit hoher Frequenz und grundlegende Fakten werden zunehmend schwieriger
    • Je grundlegender ein Wissenselement ist, desto stärker ist es mit anderem Wissen verknüpft, wodurch sich der Umfang des Unlearning exponentiell vergrößern kann
    • Früh gelernte Beispiele können durch spätere Beispiele „überschrieben“ worden sein, was das Unlearning erschweren kann
    • Umgekehrt können spät gelernte Beispiele schwer zu verlernen sein, weil das Modell sie schrittweise oder katastrophal vergisst
  • Urheberrechtsschutz
    • Unlearning wirkt vielversprechend für den Urheberrechtsschutz, aber die rechtliche Lage ist derzeit unklar
    • Wenn die Nutzung urheberrechtlich geschützter Inhalte nach der Fair-Use-Doktrin als zulässig gilt, könnte Unlearning unnötig sein
  • Suchbasierte AI-Systeme
    • Inhalte, für die Unlearning-Anfragen eingehen könnten, werden aus dem Vortrainingskorpus entfernt und in einer externen Datenbank gespeichert
    • Geht eine Unlearning-Anfrage ein, können die betreffenden Daten aus der DB gelöscht werden
    • Allerdings gibt es Probleme wie Deduplizierung, Umgang mit Zitaten/Abwandlungen und Data-Extraction-Angriffe
  • AI-Sicherheit
    • Unlearning kann genutzt werden, um gefährliches Wissen, Verhalten oder Fähigkeiten aus Modellen zu entfernen
    • Es sollte jedoch als einer von mehreren Mechanismen zur nachträglichen Risikominderung und Verteidigung betrachtet werden, und man muss sich bewusst sein, dass es trade-offs mit anderen Werkzeugen wie Alignment-Finetuning oder Inhaltsfilterung gibt

Meinung von GN⁺

  • Machine Unlearning befindet sich noch in einem frühen Forschungsstadium, und besonders bei großen Sprachmodellen scheint es viele Schwierigkeiten zu geben. Abgesehen von speziellen Fällen, in denen exaktes Unlearning möglich ist, stützt man sich derzeit meist auf empirische und erfahrungsbasierte Methoden.
  • Das größte Hindernis scheint das Bewertungsproblem zu sein. Definition und Kriterien von Unlearning sind vage, und da die Situation je nach Anwendung unterschiedlich ist, dürfte Fortschritt ohne belastbare Benchmarks und Bewertungsmetriken schwierig sein. Dass zuletzt anwendungsorientierte Benchmarks wie TOFU und WMDP erschienen sind, ist dennoch ermutigend.
  • Beim Urheberrecht könnte man neben Unlearning auch ökonomische Lösungen in Betracht ziehen. OpenAI verfolgt etwa einen Ansatz, bei dem ein exakter Unlearning-Service über regelmäßiges Neu-Training angeboten wird und der Modellinhaber in der Zwischenzeit für auftretende Urheberrechtsverletzungen haftungsfrei gestellt wird.
  • Suchbasierte Systeme haben viele Vorteile, aber im Detail scheint es schwieriger zu sein als gedacht. Es gibt viele Aufgaben zu lösen, darunter Deduplizierung, Urheberrechtserkennung und die Abwehr von Data-Extraction-Angriffen. Da die In-Context-Learning-Fähigkeiten von LLMs zunehmen, dürfte schon mit Retrieval vieles möglich werden, aber Finetuning vollständig zu ersetzen, scheint schwierig.
  • Aus Sicht der AI-Sicherheit ist Unlearning ein ziemlich interessantes Forschungsfeld. Es ist jedoch keine Universallösung und sollte zusammen mit anderen Abwehrtechniken wie Alignment und Filterung eingesetzt werden. Da Modelle mehr Autonomie erhalten, dürfte auch das Interesse aus Policy-/Regulierungsperspektive zunehmen.

2 Kommentare

 
GN⁺ 2024-05-06
Hacker-News-Kommentare
  • Es gibt ein grundlegendes Problem: Selbst wenn bestimmte Informationen aus dem Modell gelöscht werden, können sie durch Inferenz oder Prompting erneut erlernt werden.
  • Statt die verbotenen Informationen selbst zu filtern, könnte die Lösung eher in den Gewichten und Anreizen liegen, die die finale Inferenzschicht formen.
  • Die heutigen „sicheren“ Modelle liefern oft keine zufriedenstellenden Ergebnisse, weil wir offenbar noch keine wahrhaftigen Modelle wollen, sondern Modelle, die weitere Entwicklung ermöglichen.
  • Es könnte eine Möglichkeit geben, das Prinzip zu kodieren und zu gewichten, dass das Modell von etwas Äußerem erzeugt wurde.
  • Das Löschen von Datensätzen, die gegen das Urheberrecht verstoßen, könnte rechtlich der am ehesten akzeptable Weg sein.
  • Wie wäre es, nicht alle Inhalte zu sammeln, sondern nur solche, die ausdrücklich als für den Modellaufbau nutzbar gekennzeichnet sind?
  • Wenn ein Modell mit DP trainiert wird, werden die Daten entweder so stark vermischt, dass keine exakten Daten mehr zurückgegeben werden können, oder der DP-Schritt wird im Gegenteil nutzlos.
  • Das Löschen von Wissen ist eine problematische Aufgabe.
  • Es gibt Bedenken hinsichtlich der „Gesundheit“ von trainierter, entlernter und neu trainierter KI.
  • 2014 haben politische Entscheidungsträger nicht vorhergesehen, dass Deep Learning zu einer gewaltigen Mischung aus Daten und Rechenleistung werden würde.
  • „Unlearning“ ist nicht das eigentliche Ziel, und man will auch nicht, dass das Modell metaphorisch den Kopf in den Sand steckt.
  • Neue Startups bestehen aus einem mit Rechen bewaffneten Mob im ML-Trainingsloop.