Ein verblüffend einfacher Ansatz, um vergessenes Wissen für LLMs wiederherzustellen

(arxiv.org)

1 Punkte von GN⁺ 2024-11-05 | 1 Kommentare | Auf WhatsApp teilen

Die ICLR-2025-Arbeit zeigt, dass Machine Unlearning bei LLMs Wissen möglicherweise nicht vollständig löscht, sondern nur verbirgt, und dass Quantisierung in der Deployment-Phase dieses Wissen wieder sichtbar machen kann
In Experimenten mit mehreren Quantisierungstechniken und Präzisionsstufen behielten Unlearning-Methoden mit Utility-Beschränkungen bei voller Präzision im Mittel 21 % des zu vergessenden Wissens, nach 4-Bit-Quantisierung stieg dieser Wert jedoch auf bis zu 83 %
Im Fall GA_KLR auf dem BOOKS-Datensatz lag die Erhaltungsrate des ursprünglichen Wissens beim Modell mit voller Präzision bei 13 %, wurde nach der Quantisierung jedoch auf etwa 89 % wiederhergestellt
Die Ursache ist, dass kleine Lernraten und Regularisierung mit Retain-Daten die Gewichtsdifferenz zwischen Originalmodell und Unlearning-Modell klein halten, sodass die Quantisierung beide auf denselben Wert abbilden kann
Als Gegenmaßnahme werden größere Lernraten und die Aktualisierung nur stark einflussreicher Komponenten über eine module-level saliency map vorgeschlagen, doch eine stabile Lösung steht wegen der hohen Sensitivität gegenüber Hyperparametern noch aus

Löscht Unlearning Wissen oder verbirgt es nur?

LLMs erhalten durch das Training auf großen Textkorpora starke generative Fähigkeiten, können dabei aber auch unerwünschtes Verhalten aus den Trainingsdaten übernehmen
- Beispiele sind die unautorisierte Reproduktion urheberrechtlich geschützter Inhalte, die Generierung personenbezogener Daten wie Kontaktdaten sowie die Erzeugung beleidigender oder schädlicher Nachrichten
- Es gibt auch einen rechtlichen Kontext, in dem Nutzer die Entfernung personenbezogener Daten aus trainierten Modellen verlangen können, etwa über das in der DSGVO verankerte „Recht auf Vergessenwerden“
Machine Unlearning ist ein Ansatz, um die Wirkung problematischer Daten zu entfernen und die Memorierung bestimmter Wissensinhalte zu beseitigen, ohne das gesamte Modell neu zu trainieren
- Das erneute Training von LLMs ist oft unpraktisch, weil Kosten und Zeitaufwand hoch sind
- Ziel ist es, bestimmtes Wissen zu entfernen und dabei die Utility des Modells möglichst weitgehend zu erhalten
Die zentrale Frage ist, ob bestehende Unlearning-Methoden für LLMs tatsächlich Vergessen erreichen oder Wissen nur auf eine Weise verbergen, die aktuelle Benchmarks nicht erkennen

Bestehende Unlearning-Methoden zur Erhaltung der Utility

Als repräsentative Unlearning-Methoden werden gradient ascent (GA) und negative preference optimization (NPO) behandelt
- GA wendet Gradient Ascent auf den Cross-Entropy-Loss an, um auf dem Forget-Datensatz die Wahrscheinlichkeit korrekter Vorhersagen zu senken
- NPO behandelt das Forget-Set als negative Preference-Daten und passt das Modell durch eine Modifikation des Offline-DPO-Ziels so an, dass dem Forget-Set eine geringe Likelihood zugewiesen wird
GA und NPO wurden ursprünglich nicht zur Erhaltung der Utility entwickelt und werden daher meist zusammen mit Regularisierungstechniken eingesetzt
- Gradient Descent auf dem Retain-Datensatz
- Minimierung der KL divergence zwischen den Wahrscheinlichkeitsverteilungen von Unlearning-Modell und Zielmodell auf Retain-Eingaben
Diese Kombinationen sollen die Balance zwischen Vergessensleistung und Modell-Utility halten, doch diese Balance kann in quantisierten Umgebungen zusammenbrechen

Experimentelle Ergebnisse: Quantisierung belebt vergessenes Wissen wieder

In den Experimenten wird auf ein Zielmodell und einen Forget-Datensatz Unlearning angewendet, um ein Unlearning-Modell zu erzeugen; anschließend wird die Leistung bei voller Präzision und nach der Quantisierung verglichen
Bei voller Präzision zeigt das Unlearning-Modell starke Unlearning-Leistung, doch schon die einfache Anwendung von Quantisierung verschlechtert diese deutlich
Die quantitativen Ergebnisse zeigen, dass die Wiederherstellung von Wissen nicht auf eine einzelne Konfiguration beschränkt ist
- Unlearning-Methoden mit Utility-Beschränkungen behalten bei voller Präzision im Mittel 21 % des zu vergessenden Wissens
- Nach 4-Bit-Quantisierung steigt dieser Wert auf 83 %
- Wird auf dem BOOKS-Datensatz GA_KLR angewendet, bleiben bei voller Präzision nur 13 % des ursprünglichen Wissens erhalten, nach der Quantisierung werden jedoch etwa 89 % wiederhergestellt
Dasselbe Phänomen wurde über mehrere Quantisierungstechniken, Präzisionsstufen und Benchmarks hinweg bestätigt

Die Schwachstelle durch kleine Gewichtsänderungen

Die zentrale Hypothese lautet, dass bestehendes Unlearning auf kleinen Gewichtsänderungen beruht
- Um die Modell-Utility zu erhalten, werden kleine Lernraten und Regularisierung auf dem Retain-Set verwendet
- Dadurch bleiben die Gewichte des Ziel-LLM und des ungelearneten LLM sehr nahe beieinander
Die Quantisierung kann nahe Gewichte auf denselben Wert abbilden
- Das Ziel-LLM und das ungelearnete LLM erhalten nach der Quantisierung ähnliche Gewichte
- Da das quantisierte Ziel-LLM den größten Teil des zu vergessenden Wissens behält, kann auch das quantisierte Unlearning-LLM dieses Wissen wiederherstellen
Dieses Problem ist für reale Deployments wichtig
- Quantisierung wird breit eingesetzt, um LLMs in ressourcenbeschränkten Umgebungen bereitzustellen
- Wenn ein Modell per Fine-Tuning dazu gebracht wurde, bösartige Inhalte oder personenbezogene Daten zu vergessen, dürfen diese Inhalte nach der Quantisierung nicht wiederhergestellt werden

Strategien zur Abschwächung und verbleibende Grenzen

Die vorgeschlagene Strategie für quantization-robust unlearning konzentriert sich darauf, die Diskrepanz beim Vergessen zwischen Full-Precision- und quantisierten Modellen zu verringern
Die Grundidee besteht darin, sowohl auf den Forgetting-Loss als auch auf den Retaining-Loss größere Lernraten anzuwenden
- Der Forgetting-Loss bestraft Modelle, die Informationen aus dem Forget-Set beibehalten
- Der Retaining-Loss soll die Utility auf dem Retain-Datensatz erhalten
Größere Lernraten können die Wiederherstellung von Wissen verringern, bringen aber auch erhebliche Nebenwirkungen mit sich
- Der Forgetting-Gradient kann aggressive Updates auslösen und das Modell übermäßig anpassen
- Werden auf dem Retain-Datensatz große Lernraten verwendet, kann ein Bias hin zu den Retain-Daten entstehen, der die Leistung bei Aufgaben außerhalb des Retain-Sets verschlechtert
Um Nebenwirkungen zu reduzieren, wird eine module-level saliency map erstellt, und nur stark einflussreiche Komponenten, die mit den zu vergessenden Daten zusammenhängen, werden selektiv aktualisiert
- Experimentell hilft diese gezielte Strategie, das Risiko aggressiver Updates zu mindern, die Modell-Utility zu erhalten und ausgewogenere Unlearning-Ergebnisse zu erzielen
Allerdings ist dieses Framework sehr empfindlich gegenüber der Wahl der Hyperparameter, wodurch Unlearning-Modelle instabil werden können
Der Code ist unter FailureLLMUnlearning verfügbar

1 Kommentare

GN⁺ 2024-11-05

Hacker-News-Kommentare

Kurz gesagt lautet die Erkenntnis dieses Papers, dass die Quantisierung eines Modells mehrere „Unlearning“-Techniken rückgängig macht.
Unlearning-Techniken sind Methoden, bei denen die Modellgewichte auf bestimmte Weise aktualisiert werden, damit das Modell bestimmte Fakten vergisst; meist geht es darum, urheberrechtliche Anforderungen zu erfüllen, aber ich bin mir nicht sicher, ob das tatsächlich eingesetzt wird.
Dafür scheint eine gute Threat-Model-Analyse nötig zu sein. Wenn ich zum Beispiel ein fp32-Modell habe, das jemand per Fine-Tuning dazu gebracht hat, eine bestimmte Tatsache zu vergessen, und ich diese Tatsache durch Quantisierung wiederherstellen kann, müsste man prüfen, in welchen Situationen das gefährlich wird.
- Unlearning wird als „Prozess beschrieben, bei dem bestimmtes Wissen aus einem LLM gelöscht wird, während der Nutzen des Modells möglichst erhalten bleibt“.
  Das wirkt also wie: „Wir wissen, dass unser Modell ohne dein Ausgangsmaterial nutzlos ist. Also nehmen wir die nützlichen Teile deiner Daten, verwischen den Rest und verlangen von Nutzern Geld für den Nutzen, den du geliefert hast, zahlen dir aber nichts.“
- Künftig wird es wohl LLMs geben, die nach „Manchurian-Candidate-LLMs“ suchen.
- Allgemeiner als „Unlearning“ frage ich mich auch, ob etwas besser wird, wenn man ein fp16-Modell in fp32 oder fp64 ausführt.
  Zum Beispiel, ob Wissen sichtbar wird, auf das man mit niedrigerer Präzision nicht zugreifen konnte.
- In Organisationen mit Personen, die AI-Safety-Titel tragen, würde ich erwarten, dass sie Unlearning-Techniken einsetzen, damit Modelle sich nicht an Herstellungsverfahren für gängige illegale Drogen, Gifte oder Sprengstoffe erinnern.
  Das Threat Model hier dürfte wahrscheinlich ein Szenario sein, in dem ein Modell ausgerollt wird, bei dem solche Fakten versehentlich „wiederbelebt“ wurden. Umso mehr, weil die Bereitstellung quantisierter Modelle üblich ist.
  Die meisten dieser „gefährlichen“ Informationen stehen zwar bereits in Lehrbüchern, Patenten, Amateurchemie-Foren usw., aber gesellschaftlich geht man im Allgemeinen davon aus, dass Menschen, die klug genug sind, solche Informationen zu finden und zu verstehen, sie nicht missbrauchen. Man will nur nicht, dass Mythbusters sie zur Prime Time im Fernsehen erklärt oder ChatGPT sie beliebigen Personen erklärt.
Quantisierung halte ich für eine Ablenkung vom Kernpunkt. Wenn es auch nur eine Methode gibt, Unlearning rückgängig zu machen, bedeutet das, dass dieses Wissen weiterhin in den Gewichten steckt; das ist grundlegende Informationstheorie.
Es dürfte unzählige Möglichkeiten geben, verschwundenes Wissen auch ohne Quantisierung wiederherzustellen.
- Ich denke, Quantisierung oder Downsampling selbst könnte eine grundlegende Methode sein, um mit diesem Problem umzugehen.
  1. Ein normales Full-Precision-Modell trainieren.
  2. Es quantisieren, bis die Performance nahe an ihre Grenze kommt, und dann den Unlearning-Prozess durchführen.
  3. Anschließend für weitere Tuning-Iterationen wieder in FP trainieren, konvertieren und upsamplen.
    Auf diese Weise könnte man einen Informationsflaschenhals schaffen. Die Echos des Vergessenen könnten es schwer haben, durch einen so engen Flaschenhals zu gelangen.
- Es stimmt zwar, dass Quantisierung nichts Besonderes ist, aber „eine Ablenkung vom Kernpunkt“ ist nicht die richtige Formulierung. Wie im Titel gesagt: Es ist einfach eine peinlich einfache Methode.
- Das ist ähnlich, als würde man sagen, Verschlüsselung lenke vom Kernpunkt ab.
  Die Information ist zwar dort, aber ihre Wiederherstellung ist ein anderes Problem. In diesem Fall besteht der wichtige Unterschied darin, dass Quantisierung die Information wiederherstellen kann, ohne die Chiffre zu kennen, die sie „vergessen“ ließ.
- Wenn es eine Methode gibt, Unlearning rückgängig zu machen, dann gibt es mit dieser Methode auch eine Möglichkeit, die Gewichte zu identifizieren, die diese Information enthalten, und zu verhindern, dass diese Information weitergegeben wird. Im Kern des Lernens steckt Erkennung.
  Die Information kann weiterhin im Inneren vorhanden sein, aber mit keiner bekannten Methode nachweisbar sein. Wenn man alle Gewichte des Modells auf 0 setzt, ist die Information sicher entfernt. Das Problem ist, dass es womöglich unmöglich ist zu erkennen, wann man das Ziel erreicht hat, eine Information vollständig zu entfernen, ohne andere Informationen zu zerstören.
  Vielleicht wird es künftig so etwas wie Zero-Day-Schwachstellen zur Umkehrung von Unlearning geben.
Es ist ähnlich, als würde man einem Baby sagen, es solle das „Schlechte“ vergessen. Es scheint fast sicher, dass dieses Wissen eher verstärkt als vergessen wird.
Immer wenn ich vom AI-Hype höre, denke ich an den 3D-Drucker-Hype vor 10 bis 15 Jahren. Da hieß es: „tödlicher Schlag für Fabriken“, „wir drucken unser Auto selbst“, „wir drucken unser Essen selbst“ und Ähnliches. Ich glaube, LLM-basierte AI wird dasselbe Schicksal ereilen: Es ist möglich, aber in der Praxis eher nicht.
- Der heutige „Hype“ besteht weniger in der Vorstellung, dass LLM-basierte AI eine einzelne Technologie ist, die alles verändert, sondern eher in der Erwartung, dass alle Durchbrüche in AI/Machine Learning, einschließlich noch nicht erdachter Methoden, zusammen zu einer theoretischen Technologie werden, die in naher Zukunft alles verändert.
  Außerdem sind 10 bis 15 Jahre nichts. Ich würde 3D-Drucker im Vergleich zu AI nicht wirklich als transformative Technologie sehen, aber man sollte bedenken, dass Flugzeuge und Computer — abgesehen von der Ausnahme des Zweiten Weltkriegs — ebenfalls 30 bis 40 Jahre brauchten, bis sie außerhalb des Militärs breite gesellschaftliche und verbraucherseitige Wirkung hatten.
- Heißt das: nicht auf Star-Trek-Niveau, aber beeindruckend und sehr nützlich?
- Wir neigen dazu, die kurzfristigen Effekte von Technologie zu überschätzen und die langfristigen zu unterschätzen.
  3D-Drucker könnten am Ende tatsächlich die gesamte Fertigung drastisch verändern, aber bis dahin braucht es viele Iterationen. Schon heute könnten wir theoretisch vieles, was wir herstellen, 3D-drucken, doch bestehende Fertigungsmethoden sind weiterhin günstiger und funktionieren gut, daher gibt es keinen zwingenden Faktor. Wenn wir im Weltraum autarke Siedlungen errichten, wäre das eine Umgebung, in der 3D-Druck viel weiter kommen könnte. Denn ohne viel menschliche Arbeitskraft oder riesige Lieferketten braucht man portable, unabhängige und universell einsetzbare Fertigung.
  LLMs werden in absehbarer Zeit menschliche Autoren, Programmierer usw. nicht ersetzen, außer bei den einfachsten Aufgaben. Stattdessen erweitern sie ihre Fähigkeiten. Beim Programmieren sind sie eher wie eine intelligentere und vielseitigere Autovervollständigung. Sie waren auch nützlich beim Finden von Konzepten, bei Recherchen sowie beim Zusammenfassen und Dokumentieren von Code und Text. Diese Dinge ersetzen mich nicht, aber sie lassen mich etwas schneller etwas mehr erledigen.
  Sehr langfristig könnten LLMs stark genug werden, um über erzwungene Beispiele hinaus tatsächlich ganze Anwendungen zu synthetisieren. Aber ähnlich wie beim 3D-Druck, der die gesamte Fertigung ersetzt, braucht es viele Iterationen — und vielleicht auch einen zwingenden Faktor.
- Hier stimme ich entschieden nicht zu.
  Ich erinnere mich an diesen Hype. Vor allem, weil ich schon oft davon gehört hatte, bevor ich zu einem Unternehmen wie Autodesk ging, das 3D-Druck ziemlich ernst nahm.
  Ich hatte keine Vorerfahrung mit 3D-Druck, aber es dauerte nur etwa zwei Monate, bis mir klar wurde, dass das, was die Medien behaupteten, Unsinn war. Technisch war man bei Weitem nicht in der Nähe dessen, was manche Artikel behaupteten, etwa ein Auto selbst zu drucken; und geschäftlich gab es überraschend wenige Punkte, an denen der Einsatz von 3D-Druck statt bestehender Fertigung tatsächlich eine Verbesserung brachte.
  Ich will das nicht schlechtreden. 3D-Druck ist großartig und hat viele reale Anwendungsfälle. Das Problem war, dass die Medien darum herum ihn übermäßig aufgeblasen haben.
  Die meisten Menschen, die 3D-Druck wirklich kannten, wussten, dass die Presse — vorsichtig gesagt — übermäßig enthusiastisch war. Und auch viele Jahre später haben sich diese großen Visionen nicht erfüllt.
  Bei AI gibt es dagegen zwei große Unterschiede. Erstens hat sie sich bereits als enorm nützlich erwiesen und schon den 100-fachen Einfluss dessen erzielt, was 3D-Druck bewirkt hat. Man muss nur überlegen, wann es zuletzt ein Produkt gab, das faktisch vor etwa vier Jahren auf den Markt kam und eine derart erstaunliche Marktdurchdringung erreichte. ChatGPT ist tatsächlich gemessen an der Nutzerzahl das am schnellsten gewachsene Produkt der Geschichte.
  Zweitens sind Insider im Allgemeinen enorm begeistert von dieser Technologie und glauben, dass sie noch viel besser werden kann und ihr aktuelles Potenzial noch längst nicht ausgeschöpft ist. Das ist definitiv auch meine Ansicht.
Aus informationstheoretischer Sicht klingt das etwas unerwartet. In der vollständigen 32-Bit-Darstellung des Modells scheint dieses Wissen entfernt worden zu sein, aber wenn man es auf 4 Bit komprimiert, taucht dieses Wissen wieder auf.
Dann fragt man sich, welche Information beim Komprimierungs- bzw. Quantisierungsschritt tatsächlich verloren geht.
- Einfach erklärt sagt dieses Paper: Die meisten „Forgetting“-Methoden lassen sich so betrachten, dass zu den Parametern eines neuronalen Netzes ein Delta w addiert wird, und der größte Teil dieses w wird bei der Quantisierung einfach „weggerundet“. Also wird quantize(X+w) ~= quantize(X)
  Das ist eine ziemlich clevere Idee, zumal viele der zitierten Methoden explizit optimieren bzw. regularisieren, um w klein zu halten und Einbußen bei der Evaluationsgenauigkeit zu vermeiden.
  Deshalb stellt sich die Frage, ob man solche Methoden aus informationstheoretischer Sicht wirklich Forgetting nennen kann – oder ob sie eher einem if (false) um latentes Wissen herum entsprechen.
- In der 32-Bit-Version wurde vermutlich nicht das Wissen selbst entfernt, sondern die Darstellung des Wissens. Außerdem könnte ein Teil des Speicherraums dafür verwendet worden sein, die Information abzulegen, dass man über ein bestimmtes Thema nicht sprechen soll.
  Menschen kennen zum Beispiel auch diverse rassistische Beleidigungen, wissen aber zugleich, dass sie auf dieses Wissen nicht zugreifen oder es nicht verwenden sollten.
  Wenn ein Mensch oder ein KI-Modell aber einen Schlag auf den Kopf bekommt oder etwas wie Quantisierung durchläuft, kann das Wissen über X erhalten bleiben, während das Wissen, nicht über X zu sprechen, verloren geht. So betrachtet ist das ziemlich intuitiv.
- Es ist gut möglich, dass das Wissen nicht verschwunden, sondern nur verdeckt wurde.
  Wenn man ein neuronales Netz als Code betrachtet, sind die Gewichte gewissermaßen der Quellcode. Fine-Tuning kann faktisch ein Hack sein, der verhindert, dass dieser Code bestimmte Ausgaben zurückgibt.
  Tatsächlich kommt Fine-Tuning dem bis zu einem gewissen Grad auch nahe.
  Es könnte also sein, dass nur eine Firewall um bestimmte Ausgaben herum gebaut wurde. Durch Quantisierung können diese jüngsten Änderungen aber verschwinden. Sie sind zu subtil, um zu überleben.
  Dass Quantisierung hingegen nicht sämtliches Wissen zerstört, zeigen beliebte quantisierte Modelle.
  Falls @simonw übrigens Benachrichtigungen aktiviert hat: Dieses Thema sieht nach einem idealen Stoff für einen Artikel aus.
- Das Wissen wurde nicht entfernt, sondern wegen der Gewichte schlicht nie verwendet.
  Die Quantisierung verändert die Berechnung, und nun ist dieses Wissen zugänglich geworden.
- Eigentlich ist das nicht überraschend.
  Gleitkommazahlen kamen mir immer wie eine seltsame Art vor, Sprache darzustellen. Wenn man nur eine Variable heranzoomt: Gibt es dann eine Menge von Bedeutungen wie in https://vinaire.me/2019/07/17/scn-8-8008-the-emotional-scale..., die auf irgendeinem Gradienten liegen, wobei bestimmten Bereichen spezielle Bedeutungen zugeordnet sind? Man kann sich neuronale Schaltkreise vorstellen, die sorgfältig dafür entworfen sind, solche Variablen zu dekodieren, und man kann sich auch ausmalen, wie man ein Netzwerk mit einer solchen Struktur baut. Aber intuitiv ist es nicht, dass ein neuronales Netz so eine Struktur lernt. Eine Skala von „gut“ nach „schlecht“ ist plausibel, aber dass zahllose spezifische Bedeutungen an jeweils unterschiedliche Werte gebunden sind, fällt schwer zu glauben.
  Aus dieser Perspektive müsste irgendeine Form eines binären neuronalen Netzes sehr effektiv sein, aber in der Praxis scheint das nicht so zu sein. Allerdings wirkt es schon so, als würden neuronale Netze intern kaum mehr als ungefähr 4 Bit Präzision nutzen.
  Solche „Forgetting“-Systeme entfernen nicht wirklich das „Engramm“ einer Erinnerung im Netzwerk, sondern lernen eher ein neues Verhalten, das bestimmte Ausgaben unterdrückt. Das unterscheidet sich nicht stark vom Problem, einem Netzwerk schrittweise neues Wissen hinzuzufügen; nur ist das, was in Schritt 2 gelernt wird, deutlich anders als normales Lernen. Wenn man das Netzwerk nicht beschädigen will, kann man sich vorstellen, ein zusätzliches Präzisionsbit zu verwenden, um ein neues Verhalten hinzuzufügen: Bei niedriger Präzision bleibt das alte Verhalten erhalten, bei hoher Präzision werden die für das „vergessene/gelernte“ Verhalten wichtigen Unterscheidungen getroffen.
Die Kernhypothese ist, dass bestehende Methoden, um Forgetting ohne Beeinträchtigung der Nützlichkeit des Modells zu erreichen, typischerweise kleine Lernraten und Regularisierung auf einem Retain-Set verwenden, sodass die Änderungen der Modellgewichte während des Forgetting minimiert werden.
Dadurch liegen die Modellgewichte des Ziel-LLM und des vergessenden LLM sehr nahe beieinander.
Dann müsste man unerwünschte Inhalte wohl schon in der Phase des Foundation-Trainings gar nicht erst lernen lassen oder den Forgetting-Prozess des Foundation-Modells quantisierungsbewusst gestalten.
Ich bin überhaupt kein Experte auf diesem Gebiet, daher ist das vielleicht eine dumme Frage: Bedeutet das, dass man, wenn man llama3 auf 4 Bit quantisiert, auf verborgene Informationen zugreifen kann, etwa darauf, wie man eine bestimmte chemische Verbindung synthetisiert? Natürlich mit schlechterer Qualität.
- Genau das habe ich mich auch gefragt. Ist Forgetting = Guardrails? Es klingt, als ob die Gewichte nur minimal angepasst werden, um Selbstzensur zu erzeugen, und diese Anpassung so fein ist, dass sie bei niedriger Auflösung nicht überlebt.
  Wenn Guardrails aber so leicht zu umgehen wären, hätte man vermutlich schon davon gehört.
- Das geht nur, wenn die „Syntheseanleitung für eine bestimmte chemische Verbindung“ ursprünglich bereits im Modell vorhanden war.
Die Stelle „Trotz der Wirksamkeit aktueller Forgetting-Methoden wurde kaum beachtet, ob bestehende LLM-Forgetting-Methoden echtes Vergessen erreichen oder Wissen lediglich verbergen“ ist eine gute Frage.
Im Kontext von LLMs – und auch im philosophischen Kontext von Wissen allgemein – müsste man klären, was Vergessen und Erinnern bedeuten, ob ein LLM etwas, das es „gelernt“ hat, „vergessen“ kann, und falls ja, was das mathematisch und rechnerisch genau heißt.
Außerdem frage ich mich, ob ein LLM sich etwas zuvor Vergessenes durch logische Prozesse, Implikationen, Ableitungen, induktives Schließen, deduktives Schließen usw. aus vorhandenem Wissen selbst wieder beibringen kann.
Falls das möglich ist, stellt sich auch die Frage, was der kleinste Kern eines LLM ist, der das kann, und warum.
Das dürfte weder das erste noch das letzte Paper zu diesem Thema sein.
In Produktionsumgebungen nutzen wir quantisierte LLMs, aber ich hatte nie den Eindruck, dass die Modelle weniger zensiert wären.
Für das Forgetting verstärkter Verhaltensweisen scheint die Technik Abliteration [1] deutlich wirkungsvoller zu sein.
1 https://huggingface.co/blog/mlabonne/abliteration
- Hast du zufällig konkret Gradient Ascent verwendet, um ein vergessenes Modell zu nutzen?
Das Problem aktueller Modelle ist nicht, dass sie lernen, sondern dass sie durch Eintrichtern indoktriniert werden.
In der Lernphase fehlt kritisches Denken.
- LLMs zu vermenschlichen ist technisch nicht korrekt und auch nicht besonders hilfreich.
- Wie würde man LLMs sonst zensieren? Willst du wirklich, dass LLMs frei sprechen können?
Man muss nicht einmal Quantisierung verwenden. Die meisten Benchmarks lassen sich schon allein durch Prompts brechen.
https://arxiv.org/abs/2410.02879

Ein verblüffend einfacher Ansatz, um vergessenes Wissen für LLMs wiederherzustellen

Löscht Unlearning Wissen oder verbirgt es nur?

Bestehende Unlearning-Methoden zur Erhaltung der Utility

Experimentelle Ergebnisse: Quantisierung belebt vergessenes Wissen wieder

Die Schwachstelle durch kleine Gewichtsänderungen

Strategien zur Abschwächung und verbleibende Grenzen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare