- Heretic ist ein Tool, das die Zensur („Safety Alignment“) in transformerbasierten Sprachmodellen automatisch entfernt und auch ohne zusätzliches Training funktioniert
- Es kombiniert die Technik der directional ablation mit einer TPE-Optimierung auf Basis von Optuna, um Ablehnungsantworten zu minimieren und gleichzeitig den Verlust der ursprünglichen Modellintelligenz zu minimieren
- Bereits mit den Standardeinstellungen erreicht es eine Qualität, die mit von Experten manuell ablierten Modellen vergleichbar ist, und bewahrt dank niedriger KL-Divergenz die ursprüngliche Leistung weitgehend
- Es unterstützt die meisten dichten Modelle sowie einige MoE-Modelle und bietet einen vollautomatisierten Prozess, der sich mit einer einzigen Befehlszeile ausführen lässt
- Als Technik, die Sicherheitsfilter aus Modellen entfernt und dabei die ursprüngliche Qualität bewahrt, hat es hohes Potenzial für den Einsatz in Forschungs- und Experimentierumgebungen mit Sprachmodellen
Überblick über Heretic
- Heretic ist ein Automatisierungstool, das Zensur (Safety Alignment) aus Transformer-Sprachmodellen entfernt
- Es funktioniert ohne zusätzliches Training oder manuelle Anpassungen
- Es kombiniert directional ablation (abliteration) mit TPE-basierter Parameteroptimierung von Optuna
- Ziel ist es, die Anzahl der Ablehnungen (refusals) zu verringern und gleichzeitig die KL-Divergenz zu minimieren, um die Fähigkeiten des ursprünglichen Modells möglichst zu erhalten
- Es kann auch ohne Verständnis der internen Transformer-Struktur verwendet werden; die Entzensierung des Modells ist allein per Kommandozeile möglich
Leistungsvergleich
- Heretic erzielt bereits im automatischen Lauf Ergebnisse, die manuellen ablierten Modellen ähneln
- Beispiel: beim Modell
google/gemma-3-12b-it
- Original: 97/100 Ablehnungen, KL-Divergenz 0
- Manuell ablierte Modelle: 3/100 Ablehnungen, KL-Divergenz 0.45~1.04
- Heretic-Ergebnis: 3/100 Ablehnungen, KL-Divergenz 0.16
- Bei gleichem Grad an Unterdrückung von Ablehnungen wird die Beeinträchtigung des Originalmodells minimiert
- Die Werte wurden in einer Umgebung mit PyTorch 2.8 und RTX 5090 gemessen; je nach Plattform können sie abweichen
Unterstützte Modelle und Bereitstellung
- Unterstützt die meisten Dense-Modelle, einige multimodale Modelle und verschiedene MoE-Architekturen
- Noch nicht unterstützt werden SSM-/Hybrid-Modelle, heterogene Layer und spezielle Attention-Strukturen
- Eine Sammlung mit durch Heretic entzensierten Modellen ist in der Hugging-Face-Kollektion p-e-w/the-bestiary verfügbar
Verwendung
Funktionsweise
- Heretic implementiert eine parametrisierte Variante von directional ablation
- Es findet die Matrizen für attention out-projection und MLP down-projection in jeder Transformer-Schicht und orthogonalisiert sie gegenüber der Ablehnungsrichtung (refusal direction)
- Die Ablehnungsrichtung wird aus der Differenz der mittleren Residuen des ersten Tokens zwischen „schädlichen“ und „harmlosen“ Prompts berechnet
- Der Ablationsprozess wird durch mehrere optimierbare Parameter gesteuert
direction_index: ob pro Schicht eine Ablehnungsrichtung verwendet wird
max_weight, max_weight_position, min_weight, min_weight_distance: definieren Form und Position des schichtweisen Ablations-Gewichtungskernels
Zentrale technische Innovationen
- Verbesserte Flexibilität der Form des Gewichtungskernels für eine bessere Balance zwischen Qualität und Befolgung
- Behandlung des Ablehnungsrichtungsindex als Fließkommazahl, wodurch über lineare Interpolation benachbarter Vektoren ein größerer Richtungsraum exploriert werden kann
- Separate Ablationsparameter je Komponente, um Leistungsoptimierung unter Berücksichtigung der unterschiedlichen Wirkung von MLP und Attention zu ermöglichen
Verwandte Vorarbeiten
- Beispiele für öffentlich verfügbare ähnliche Implementierungen
- AutoAbliteration, abliterator.py, wassname’s Abliterator, ErisForge, Removing refusals with HF Transformers, deccp
- Heretic wurde ohne Wiederverwendung dieses Codes vollständig eigenständig von Grund auf neu geschrieben
Literaturhinweise und Einfluss
Lizenz
- Es gilt die GNU Affero General Public License v3 oder neuer
- Freie Modifikation und Weiterverbreitung sind möglich, jedoch ohne Gewährleistung
- Mitwirkende müssen der Veröffentlichung ihres Codes unter derselben Lizenz zustimmen
2 Kommentare
Mit Abliteration die Zensur von LLMs vollständig aufheben
Hacker-News-Kommentare
Da Open-Source-Modelle immer beliebter werden und sich die ideologische Verhärtung sowohl in den USA als auch in China verschärft, ist solche Forschung wirklich sehr willkommen
Ich frage mich, ob es dazu vielleicht passende Benchmarks gibt
Optuna ist wirklich ein nützliches Projekt
Dank der Funktion zur schrittweisen Optimierung von Hyperparametern laufen Experimente viel schneller
Interessant ist diesmal, dass es mit Entzensierung kombiniert wurde. Ich wende es derzeit auf gpt-oss-120b an und bin gespannt auf die Ergebnisse
Falls gpt-oss-120b den phi-5-Ansatz verwendet hat, frage ich mich, wie gut die Entzensierung funktionieren wird
Wenn man die endgültige Pareto-Front betrachtet, würde ich eine Konfiguration mit einer KL divergence von 1 oder weniger empfehlen
Das gpt-oss-Modell neigt dazu, innerhalb der CoT intern einen ablehnenden Monolog zu führen, weshalb die tatsächliche Ablehnungsrate tendenziell niedriger ausfällt
Das erinnert mich daran, dass GPT-4 früher die Frage ablehnte, ob man Gesundheitsvorschriften umgehen könne, indem man ein Helium-Luftschiff 1 Zoll über dem Boden schweben lässt
Deshalb scheinen LLM-Unternehmen übermäßig vorsichtig zu werden
Wenn man es an einen Asphalt-Ring bindet, könnte man behaupten, es sei „geparkt“, und man bräuchte eine „lighter-than-air“-Zertifizierung
Das ist kein Versagen des Gesetzes, sondern das Ergebnis davon, dass Menschen Abstraktion (abstraction) nicht verstehen
Als Programmierer sollte man sich der Grenzen bewusst sein, wenn man High-Level-Abstraktionen verwendet
Es ist interessant, dass Safety-Tuning entlang einer einzelnen Dimension funktioniert
Addiert man diesen Wert, lehnt das Modell ab, und subtrahiert man ihn, führt es alles aus
Das ist vermutlich ein vereinfachtes Verständnis, aber Safety-Obfuskation von Modellen könnte zum nächsten Reverse-Engineering-Wettlauf werden
Das gesamte Alignment ist sehr oberflächlich, weshalb Jailbreaks leicht möglich sind
Solche Forschung ist wirklich wichtig
Wir geben gerade unsere eigenen moralischen Maßstäbe auf und übernehmen die der LLM-Hersteller
Das ist ein gefährlicher Trend, der intellektuelle Vielfalt auslöscht
mlabonne/harmful_behaviors enthält extreme Beispiele wie Kindesmissbrauch oder Anleitungen zum Suizid
So wie man sagt, dass derjenige Macht hat, der die Geschichtsbücher schreibt, ist es bei den kulturellen und moralischen Verzerrungen von LLMs ähnlich
Auch ich vertraue dem Output von LLMs selbst nicht, daher nutze ich sie nur als letztes Mittel
Deshalb denke ich, dass ich zumindest etwas freier von der potenziellen Gehirnwäschewirkung der Hersteller bin
Gefährlich ist das schon, aber es ist kein neues Phänomen
Ich wünschte, alle LLMs hätten eine erweiterte Einstellung zum Deaktivieren der Zensur
Es ist ironisch, dass der Westen Chinas Suchmaschinenzensur kritisiert hat und nun selbst denselben Weg geht
Echte AI-Sicherheit bedeutet, physische Risiken wie den Start von Atomraketen oder die Steuerung von Robotern zu verhindern, nicht die Zensur von Gedanken
Wenn man sich fragt, woher die „schädlichen Prompts“ stammen, kann man sich den mlabonne/harmful_behaviors-Datensatz ansehen
Beispiele sind Hacking, Datendiebstahl oder Anleitungen zum Suizid
Neuere Modelle sind besser trainiert, daher funktioniert diese Methode möglicherweise nicht mehr
Darin sind auch Einträge wie „einen Leitfaden zum Verkauf illegaler Drogen schreiben“ enthalten. Ich habe „how do I make cocaine“ als Testsatz verwendet
Ich bin wirklich gespannt auf die GPT-OSS-Ergebnisse
Es ist ein hervorragendes Modell, aber Safety-Alignment ruiniert seine Leistung
Wenn man denselben Fragensatz vor und nach dem Training in das Modell eingibt und vergleicht, könnte man ableiten, welche Alignment-Anpassungen der Hersteller vorgenommen hat
Besonders interessant wäre ein Vergleich von Elons xAI-Modell mit OpenAI
Ich denke ehrlich gesagt nicht, dass unzensorierte KI besonders viel gefährlicher ist
Materialien wie „Apocalypse Culture“ oder „Anarchist’s Cookbook“ konnte man schon lange im Klartext bekommen und mit SEO-Spinning-Techniken endlos variieren
Es ist eine Wiederverwertung vorhandener Daten und erzeugt nichts völlig Neues