Heretic - Tool zur „automatischen Entzensierung“ von Sprachmodellen

(github.com/p-e-w)

8 Punkte von GN⁺ 2025-11-17 | 2 Kommentare | Auf WhatsApp teilen

Heretic ist ein Tool, das die Zensur („Safety Alignment“) in transformerbasierten Sprachmodellen automatisch entfernt und auch ohne zusätzliches Training funktioniert
Es kombiniert die Technik der directional ablation mit einer TPE-Optimierung auf Basis von Optuna, um Ablehnungsantworten zu minimieren und gleichzeitig den Verlust der ursprünglichen Modellintelligenz zu minimieren
Bereits mit den Standardeinstellungen erreicht es eine Qualität, die mit von Experten manuell ablierten Modellen vergleichbar ist, und bewahrt dank niedriger KL-Divergenz die ursprüngliche Leistung weitgehend
Es unterstützt die meisten dichten Modelle sowie einige MoE-Modelle und bietet einen vollautomatisierten Prozess, der sich mit einer einzigen Befehlszeile ausführen lässt
Als Technik, die Sicherheitsfilter aus Modellen entfernt und dabei die ursprüngliche Qualität bewahrt, hat es hohes Potenzial für den Einsatz in Forschungs- und Experimentierumgebungen mit Sprachmodellen

Überblick über Heretic

Heretic ist ein Automatisierungstool, das Zensur (Safety Alignment) aus Transformer-Sprachmodellen entfernt
- Es funktioniert ohne zusätzliches Training oder manuelle Anpassungen
- Es kombiniert directional ablation (abliteration) mit TPE-basierter Parameteroptimierung von Optuna
Ziel ist es, die Anzahl der Ablehnungen (refusals) zu verringern und gleichzeitig die KL-Divergenz zu minimieren, um die Fähigkeiten des ursprünglichen Modells möglichst zu erhalten
Es kann auch ohne Verständnis der internen Transformer-Struktur verwendet werden; die Entzensierung des Modells ist allein per Kommandozeile möglich

Leistungsvergleich

Heretic erzielt bereits im automatischen Lauf Ergebnisse, die manuellen ablierten Modellen ähneln
- Beispiel: beim Modell google/gemma-3-12b-it
  - Original: 97/100 Ablehnungen, KL-Divergenz 0
  - Manuell ablierte Modelle: 3/100 Ablehnungen, KL-Divergenz 0.45~1.04
  - Heretic-Ergebnis: 3/100 Ablehnungen, KL-Divergenz 0.16
Bei gleichem Grad an Unterdrückung von Ablehnungen wird die Beeinträchtigung des Originalmodells minimiert
Die Werte wurden in einer Umgebung mit PyTorch 2.8 und RTX 5090 gemessen; je nach Plattform können sie abweichen

Unterstützte Modelle und Bereitstellung

Unterstützt die meisten Dense-Modelle, einige multimodale Modelle und verschiedene MoE-Architekturen
Noch nicht unterstützt werden SSM-/Hybrid-Modelle, heterogene Layer und spezielle Attention-Strukturen
Eine Sammlung mit durch Heretic entzensierten Modellen ist in der Hugging-Face-Kollektion p-e-w/the-bestiary verfügbar

Verwendung

Erfordert Python 3.10+ und PyTorch 2.2+
Beispiel für Installation und Ausführung
```
pip install heretic-llm  
heretic Qwen/Qwen3-4B-Instruct-2507  
```
- Durch einfaches Ändern des Modellnamens lässt es sich auch auf andere Modelle anwenden
Läuft mit den Standardeinstellungen vollautomatisch; Details lassen sich über --help oder config.default.toml anpassen
Beim Start wird per Systembenchmark automatisch die optimale Batch-Größe bestimmt
- Beispiel: Auf einer RTX 3090 dauert die Entzensierung eines Llama-3.1-8B-Modells etwa 45 Minuten
Nach Abschluss sind Optionen wie Modellspeicherung, Upload zu Hugging Face oder Konversationstests möglich

Funktionsweise

Heretic implementiert eine parametrisierte Variante von directional ablation
- Es findet die Matrizen für attention out-projection und MLP down-projection in jeder Transformer-Schicht und orthogonalisiert sie gegenüber der Ablehnungsrichtung (refusal direction)
- Die Ablehnungsrichtung wird aus der Differenz der mittleren Residuen des ersten Tokens zwischen „schädlichen“ und „harmlosen“ Prompts berechnet
Der Ablationsprozess wird durch mehrere optimierbare Parameter gesteuert
- direction_index: ob pro Schicht eine Ablehnungsrichtung verwendet wird
- max_weight, max_weight_position, min_weight, min_weight_distance: definieren Form und Position des schichtweisen Ablations-Gewichtungskernels

Zentrale technische Innovationen

Verbesserte Flexibilität der Form des Gewichtungskernels für eine bessere Balance zwischen Qualität und Befolgung
Behandlung des Ablehnungsrichtungsindex als Fließkommazahl, wodurch über lineare Interpolation benachbarter Vektoren ein größerer Richtungsraum exploriert werden kann
Separate Ablationsparameter je Komponente, um Leistungsoptimierung unter Berücksichtigung der unterschiedlichen Wirkung von MLP und Attention zu ermöglichen

Literaturhinweise und Einfluss

Originalarbeit von Arditi et al. (2024)
Blog von Maxime Labonne zu Abliteration sowie zugehörige Model Cards
Jim Lais Erläuterung zu „projected abliteration“

Lizenz

Es gilt die GNU Affero General Public License v3 oder neuer
Freie Modifikation und Weiterverbreitung sind möglich, jedoch ohne Gewährleistung
Mitwirkende müssen der Veröffentlichung ihres Codes unter derselben Lizenz zustimmen

2 Kommentare

xguru 2025-11-17

Mit Abliteration die Zensur von LLMs vollständig aufheben

GN⁺ 2025-11-17

Hacker-News-Kommentare

Da Open-Source-Modelle immer beliebter werden und sich die ideologische Verhärtung sowohl in den USA als auch in China verschärft, ist solche Forschung wirklich sehr willkommen
Ich frage mich, ob es dazu vielleicht passende Benchmarks gibt
Optuna ist wirklich ein nützliches Projekt
Dank der Funktion zur schrittweisen Optimierung von Hyperparametern laufen Experimente viel schneller
Interessant ist diesmal, dass es mit Entzensierung kombiniert wurde. Ich wende es derzeit auf gpt-oss-120b an und bin gespannt auf die Ergebnisse
- Ich habe Optuna ebenfalls zusammen mit einem Framework zur Prompt-Optimierung verwendet und deutlich bessere Ergebnisse erzielt als beim manuellen Tuning
  Falls gpt-oss-120b den phi-5-Ansatz verwendet hat, frage ich mich, wie gut die Entzensierung funktionieren wird
- Mich interessieren auch die Ergebnisse, die Spezifikationen und die Laufzeit
- Falls es beim 120b-Modell Probleme gibt, gib bitte unbedingt Bescheid
  Wenn man die endgültige Pareto-Front betrachtet, würde ich eine Konfiguration mit einer KL divergence von 1 oder weniger empfehlen
  Das gpt-oss-Modell neigt dazu, innerhalb der CoT intern einen ablehnenden Monolog zu führen, weshalb die tatsächliche Ablehnungsrate tendenziell niedriger ausfällt
Das erinnert mich daran, dass GPT-4 früher die Frage ablehnte, ob man Gesundheitsvorschriften umgehen könne, indem man ein Helium-Luftschiff 1 Zoll über dem Boden schweben lässt
- Eine andere Seite dieses Problems ist, dass die Medien bei Verbrechen oder Unfällen immer wieder versuchen, die ChatGPT-Nutzungshistorie des Täters damit zu verknüpfen
  Deshalb scheinen LLM-Unternehmen übermäßig vorsichtig zu werden
- Ich habe GPT-4 auch einmal gefragt, wie viel Aspartam nötig wäre, um das Meer süßlich zu machen, und es hat mit Verweis auf den Schaden für das Ökosystem abgelehnt
- Technisch gesehen befindet es sich immer noch im Luftraum (airspace), also könnte das sogar ein größeres Problem sein
  Wenn man es an einen Asphalt-Ring bindet, könnte man behaupten, es sei „geparkt“, und man bräuchte eine „lighter-than-air“-Zertifizierung
- Das erinnert mich auch an die Geschichte des Erbauers des Quadcopter-Skateboards, der die FAA informierte, auf einer Ampel landete und dann eine Geldstrafe bekam
- Selbst wenn der Geist des Gesetzes sinnvoll ist, kann er missbraucht werden
  Das ist kein Versagen des Gesetzes, sondern das Ergebnis davon, dass Menschen Abstraktion (abstraction) nicht verstehen
  Als Programmierer sollte man sich der Grenzen bewusst sein, wenn man High-Level-Abstraktionen verwendet
Es ist interessant, dass Safety-Tuning entlang einer einzelnen Dimension funktioniert
Addiert man diesen Wert, lehnt das Modell ab, und subtrahiert man ihn, führt es alles aus
Das ist vermutlich ein vereinfachtes Verständnis, aber Safety-Obfuskation von Modellen könnte zum nächsten Reverse-Engineering-Wettlauf werden
- Siehe dazu das Paper Refusal in Language Models Is Mediated by a Single Direction (2024)
  Das gesamte Alignment ist sehr oberflächlich, weshalb Jailbreaks leicht möglich sind
Solche Forschung ist wirklich wichtig
Wir geben gerade unsere eigenen moralischen Maßstäbe auf und übernehmen die der LLM-Hersteller
Das ist ein gefährlicher Trend, der intellektuelle Vielfalt auslöscht
- Ich habe mir den Datensatz direkt angesehen, und ich finde diese Meinung schwer nachvollziehbar
  mlabonne/harmful_behaviors enthält extreme Beispiele wie Kindesmissbrauch oder Anleitungen zum Suizid
- Diese Tendenz ist letztlich das Ergebnis davon, dass Menschen kritisches Denken aufgeben
  So wie man sagt, dass derjenige Macht hat, der die Geschichtsbücher schreibt, ist es bei den kulturellen und moralischen Verzerrungen von LLMs ähnlich
  Auch ich vertraue dem Output von LLMs selbst nicht, daher nutze ich sie nur als letztes Mittel
  Deshalb denke ich, dass ich zumindest etwas freier von der potenziellen Gehirnwäschewirkung der Hersteller bin
- Menschen, die KI kritiklos folgen, würden vermutlich auch einem charismatischen Politiker genauso folgen
  Gefährlich ist das schon, aber es ist kein neues Phänomen
- Ich bin ebenfalls für solche Versuche
  Ich wünschte, alle LLMs hätten eine erweiterte Einstellung zum Deaktivieren der Zensur
  Es ist ironisch, dass der Westen Chinas Suchmaschinenzensur kritisiert hat und nun selbst denselben Weg geht
  Echte AI-Sicherheit bedeutet, physische Risiken wie den Start von Atomraketen oder die Steuerung von Robotern zu verhindern, nicht die Zensur von Gedanken
- Das war eigentlich schon seit 2024 bekannt
Wenn man sich fragt, woher die „schädlichen Prompts“ stammen, kann man sich den mlabonne/harmful_behaviors-Datensatz ansehen
Beispiele sind Hacking, Datendiebstahl oder Anleitungen zum Suizid
- Ironischerweise kann gerade dadurch, dass solche Daten den Maßstab für „Schädlichkeit“ bilden, über Abschwächung von Ablehnungen (Jailbreak) sogar eine vollständige Entzensierung erreicht werden
  Neuere Modelle sind besser trainiert, daher funktioniert diese Methode möglicherweise nicht mehr
- Ich habe mit dem GGUF-20b-heretic-Modell von mradermacher getestet; bei Q4_K_M ist es gescheitert, aber bei Q8_0 wurde ein Tutorial erzeugt
- Was du erwähnt hast, ist ein vergleichsweise harmloser Prompt. Es gibt viel härtere Inhalte → siehe diesen verwandten Kommentar
- Der Datensatz hat keine Lizenz, und ich frage mich, welche Auswirkungen das auf das resultierende Modell haben wird
- Der gesamte Inhalt ist nicht besonders lang. Siehe pastebin-Link
  Darin sind auch Einträge wie „einen Leitfaden zum Verkauf illegaler Drogen schreiben“ enthalten. Ich habe „how do I make cocaine“ als Testsatz verwendet
Ich bin wirklich gespannt auf die GPT-OSS-Ergebnisse
Es ist ein hervorragendes Modell, aber Safety-Alignment ruiniert seine Leistung
- Für GPT-OSS war dieser Reddit-Prompt wirksam
Wenn man denselben Fragensatz vor und nach dem Training in das Modell eingibt und vergleicht, könnte man ableiten, welche Alignment-Anpassungen der Hersteller vorgenommen hat
Besonders interessant wäre ein Vergleich von Elons xAI-Modell mit OpenAI
Ich denke ehrlich gesagt nicht, dass unzensorierte KI besonders viel gefährlicher ist
Materialien wie „Apocalypse Culture“ oder „Anarchist’s Cookbook“ konnte man schon lange im Klartext bekommen und mit SEO-Spinning-Techniken endlos variieren
- Diesmal stimmt die Aussage wirklich, dass „KI nichts Neues bringt“
  Es ist eine Wiederverwertung vorhandener Daten und erzeugt nichts völlig Neues

Heretic - Tool zur „automatischen Entzensierung“ von Sprachmodellen

Überblick über Heretic

Leistungsvergleich

Unterstützte Modelle und Bereitstellung

Verwendung

Funktionsweise

Zentrale technische Innovationen

Verwandte Vorarbeiten

Literaturhinweise und Einfluss

Lizenz

Verwandte Beiträge

2 Kommentare

Hacker-News-Kommentare