8 Punkte von GN⁺ 2025-11-17 | 2 Kommentare | Auf WhatsApp teilen
  • Heretic ist ein Tool, das die Zensur („Safety Alignment“) in transformerbasierten Sprachmodellen automatisch entfernt und auch ohne zusätzliches Training funktioniert
  • Es kombiniert die Technik der directional ablation mit einer TPE-Optimierung auf Basis von Optuna, um Ablehnungsantworten zu minimieren und gleichzeitig den Verlust der ursprünglichen Modellintelligenz zu minimieren
  • Bereits mit den Standardeinstellungen erreicht es eine Qualität, die mit von Experten manuell ablierten Modellen vergleichbar ist, und bewahrt dank niedriger KL-Divergenz die ursprüngliche Leistung weitgehend
  • Es unterstützt die meisten dichten Modelle sowie einige MoE-Modelle und bietet einen vollautomatisierten Prozess, der sich mit einer einzigen Befehlszeile ausführen lässt
  • Als Technik, die Sicherheitsfilter aus Modellen entfernt und dabei die ursprüngliche Qualität bewahrt, hat es hohes Potenzial für den Einsatz in Forschungs- und Experimentierumgebungen mit Sprachmodellen

Überblick über Heretic

  • Heretic ist ein Automatisierungstool, das Zensur (Safety Alignment) aus Transformer-Sprachmodellen entfernt
    • Es funktioniert ohne zusätzliches Training oder manuelle Anpassungen
    • Es kombiniert directional ablation (abliteration) mit TPE-basierter Parameteroptimierung von Optuna
  • Ziel ist es, die Anzahl der Ablehnungen (refusals) zu verringern und gleichzeitig die KL-Divergenz zu minimieren, um die Fähigkeiten des ursprünglichen Modells möglichst zu erhalten
  • Es kann auch ohne Verständnis der internen Transformer-Struktur verwendet werden; die Entzensierung des Modells ist allein per Kommandozeile möglich

Leistungsvergleich

  • Heretic erzielt bereits im automatischen Lauf Ergebnisse, die manuellen ablierten Modellen ähneln
    • Beispiel: beim Modell google/gemma-3-12b-it
      • Original: 97/100 Ablehnungen, KL-Divergenz 0
      • Manuell ablierte Modelle: 3/100 Ablehnungen, KL-Divergenz 0.45~1.04
      • Heretic-Ergebnis: 3/100 Ablehnungen, KL-Divergenz 0.16
  • Bei gleichem Grad an Unterdrückung von Ablehnungen wird die Beeinträchtigung des Originalmodells minimiert
  • Die Werte wurden in einer Umgebung mit PyTorch 2.8 und RTX 5090 gemessen; je nach Plattform können sie abweichen

Unterstützte Modelle und Bereitstellung

  • Unterstützt die meisten Dense-Modelle, einige multimodale Modelle und verschiedene MoE-Architekturen
  • Noch nicht unterstützt werden SSM-/Hybrid-Modelle, heterogene Layer und spezielle Attention-Strukturen
  • Eine Sammlung mit durch Heretic entzensierten Modellen ist in der Hugging-Face-Kollektion p-e-w/the-bestiary verfügbar

Verwendung

  • Erfordert Python 3.10+ und PyTorch 2.2+
  • Beispiel für Installation und Ausführung
    pip install heretic-llm  
    heretic Qwen/Qwen3-4B-Instruct-2507  
    
    • Durch einfaches Ändern des Modellnamens lässt es sich auch auf andere Modelle anwenden
  • Läuft mit den Standardeinstellungen vollautomatisch; Details lassen sich über --help oder config.default.toml anpassen
  • Beim Start wird per Systembenchmark automatisch die optimale Batch-Größe bestimmt
    • Beispiel: Auf einer RTX 3090 dauert die Entzensierung eines Llama-3.1-8B-Modells etwa 45 Minuten
  • Nach Abschluss sind Optionen wie Modellspeicherung, Upload zu Hugging Face oder Konversationstests möglich

Funktionsweise

  • Heretic implementiert eine parametrisierte Variante von directional ablation
    • Es findet die Matrizen für attention out-projection und MLP down-projection in jeder Transformer-Schicht und orthogonalisiert sie gegenüber der Ablehnungsrichtung (refusal direction)
    • Die Ablehnungsrichtung wird aus der Differenz der mittleren Residuen des ersten Tokens zwischen „schädlichen“ und „harmlosen“ Prompts berechnet
  • Der Ablationsprozess wird durch mehrere optimierbare Parameter gesteuert
    • direction_index: ob pro Schicht eine Ablehnungsrichtung verwendet wird
    • max_weight, max_weight_position, min_weight, min_weight_distance: definieren Form und Position des schichtweisen Ablations-Gewichtungskernels

Zentrale technische Innovationen

  • Verbesserte Flexibilität der Form des Gewichtungskernels für eine bessere Balance zwischen Qualität und Befolgung
  • Behandlung des Ablehnungsrichtungsindex als Fließkommazahl, wodurch über lineare Interpolation benachbarter Vektoren ein größerer Richtungsraum exploriert werden kann
  • Separate Ablationsparameter je Komponente, um Leistungsoptimierung unter Berücksichtigung der unterschiedlichen Wirkung von MLP und Attention zu ermöglichen

Verwandte Vorarbeiten

  • Beispiele für öffentlich verfügbare ähnliche Implementierungen
    • AutoAbliteration, abliterator.py, wassname’s Abliterator, ErisForge, Removing refusals with HF Transformers, deccp
  • Heretic wurde ohne Wiederverwendung dieses Codes vollständig eigenständig von Grund auf neu geschrieben

Literaturhinweise und Einfluss

Lizenz

  • Es gilt die GNU Affero General Public License v3 oder neuer
  • Freie Modifikation und Weiterverbreitung sind möglich, jedoch ohne Gewährleistung
  • Mitwirkende müssen der Veröffentlichung ihres Codes unter derselben Lizenz zustimmen

2 Kommentare

 
GN⁺ 2025-11-17
Hacker-News-Kommentare
  • Da Open-Source-Modelle immer beliebter werden und sich die ideologische Verhärtung sowohl in den USA als auch in China verschärft, ist solche Forschung wirklich sehr willkommen
    Ich frage mich, ob es dazu vielleicht passende Benchmarks gibt

  • Optuna ist wirklich ein nützliches Projekt
    Dank der Funktion zur schrittweisen Optimierung von Hyperparametern laufen Experimente viel schneller
    Interessant ist diesmal, dass es mit Entzensierung kombiniert wurde. Ich wende es derzeit auf gpt-oss-120b an und bin gespannt auf die Ergebnisse

    • Ich habe Optuna ebenfalls zusammen mit einem Framework zur Prompt-Optimierung verwendet und deutlich bessere Ergebnisse erzielt als beim manuellen Tuning
      Falls gpt-oss-120b den phi-5-Ansatz verwendet hat, frage ich mich, wie gut die Entzensierung funktionieren wird
    • Mich interessieren auch die Ergebnisse, die Spezifikationen und die Laufzeit
    • Falls es beim 120b-Modell Probleme gibt, gib bitte unbedingt Bescheid
      Wenn man die endgültige Pareto-Front betrachtet, würde ich eine Konfiguration mit einer KL divergence von 1 oder weniger empfehlen
      Das gpt-oss-Modell neigt dazu, innerhalb der CoT intern einen ablehnenden Monolog zu führen, weshalb die tatsächliche Ablehnungsrate tendenziell niedriger ausfällt
  • Das erinnert mich daran, dass GPT-4 früher die Frage ablehnte, ob man Gesundheitsvorschriften umgehen könne, indem man ein Helium-Luftschiff 1 Zoll über dem Boden schweben lässt

    • Eine andere Seite dieses Problems ist, dass die Medien bei Verbrechen oder Unfällen immer wieder versuchen, die ChatGPT-Nutzungshistorie des Täters damit zu verknüpfen
      Deshalb scheinen LLM-Unternehmen übermäßig vorsichtig zu werden
    • Ich habe GPT-4 auch einmal gefragt, wie viel Aspartam nötig wäre, um das Meer süßlich zu machen, und es hat mit Verweis auf den Schaden für das Ökosystem abgelehnt
    • Technisch gesehen befindet es sich immer noch im Luftraum (airspace), also könnte das sogar ein größeres Problem sein
      Wenn man es an einen Asphalt-Ring bindet, könnte man behaupten, es sei „geparkt“, und man bräuchte eine „lighter-than-air“-Zertifizierung
    • Das erinnert mich auch an die Geschichte des Erbauers des Quadcopter-Skateboards, der die FAA informierte, auf einer Ampel landete und dann eine Geldstrafe bekam
    • Selbst wenn der Geist des Gesetzes sinnvoll ist, kann er missbraucht werden
      Das ist kein Versagen des Gesetzes, sondern das Ergebnis davon, dass Menschen Abstraktion (abstraction) nicht verstehen
      Als Programmierer sollte man sich der Grenzen bewusst sein, wenn man High-Level-Abstraktionen verwendet
  • Es ist interessant, dass Safety-Tuning entlang einer einzelnen Dimension funktioniert
    Addiert man diesen Wert, lehnt das Modell ab, und subtrahiert man ihn, führt es alles aus
    Das ist vermutlich ein vereinfachtes Verständnis, aber Safety-Obfuskation von Modellen könnte zum nächsten Reverse-Engineering-Wettlauf werden

  • Solche Forschung ist wirklich wichtig
    Wir geben gerade unsere eigenen moralischen Maßstäbe auf und übernehmen die der LLM-Hersteller
    Das ist ein gefährlicher Trend, der intellektuelle Vielfalt auslöscht

    • Ich habe mir den Datensatz direkt angesehen, und ich finde diese Meinung schwer nachvollziehbar
      mlabonne/harmful_behaviors enthält extreme Beispiele wie Kindesmissbrauch oder Anleitungen zum Suizid
    • Diese Tendenz ist letztlich das Ergebnis davon, dass Menschen kritisches Denken aufgeben
      So wie man sagt, dass derjenige Macht hat, der die Geschichtsbücher schreibt, ist es bei den kulturellen und moralischen Verzerrungen von LLMs ähnlich
      Auch ich vertraue dem Output von LLMs selbst nicht, daher nutze ich sie nur als letztes Mittel
      Deshalb denke ich, dass ich zumindest etwas freier von der potenziellen Gehirnwäschewirkung der Hersteller bin
    • Menschen, die KI kritiklos folgen, würden vermutlich auch einem charismatischen Politiker genauso folgen
      Gefährlich ist das schon, aber es ist kein neues Phänomen
    • Ich bin ebenfalls für solche Versuche
      Ich wünschte, alle LLMs hätten eine erweiterte Einstellung zum Deaktivieren der Zensur
      Es ist ironisch, dass der Westen Chinas Suchmaschinenzensur kritisiert hat und nun selbst denselben Weg geht
      Echte AI-Sicherheit bedeutet, physische Risiken wie den Start von Atomraketen oder die Steuerung von Robotern zu verhindern, nicht die Zensur von Gedanken
    • Das war eigentlich schon seit 2024 bekannt
  • Wenn man sich fragt, woher die „schädlichen Prompts“ stammen, kann man sich den mlabonne/harmful_behaviors-Datensatz ansehen
    Beispiele sind Hacking, Datendiebstahl oder Anleitungen zum Suizid

    • Ironischerweise kann gerade dadurch, dass solche Daten den Maßstab für „Schädlichkeit“ bilden, über Abschwächung von Ablehnungen (Jailbreak) sogar eine vollständige Entzensierung erreicht werden
      Neuere Modelle sind besser trainiert, daher funktioniert diese Methode möglicherweise nicht mehr
    • Ich habe mit dem GGUF-20b-heretic-Modell von mradermacher getestet; bei Q4_K_M ist es gescheitert, aber bei Q8_0 wurde ein Tutorial erzeugt
    • Was du erwähnt hast, ist ein vergleichsweise harmloser Prompt. Es gibt viel härtere Inhalte → siehe diesen verwandten Kommentar
    • Der Datensatz hat keine Lizenz, und ich frage mich, welche Auswirkungen das auf das resultierende Modell haben wird
    • Der gesamte Inhalt ist nicht besonders lang. Siehe pastebin-Link
      Darin sind auch Einträge wie „einen Leitfaden zum Verkauf illegaler Drogen schreiben“ enthalten. Ich habe „how do I make cocaine“ als Testsatz verwendet
  • Ich bin wirklich gespannt auf die GPT-OSS-Ergebnisse
    Es ist ein hervorragendes Modell, aber Safety-Alignment ruiniert seine Leistung

  • Wenn man denselben Fragensatz vor und nach dem Training in das Modell eingibt und vergleicht, könnte man ableiten, welche Alignment-Anpassungen der Hersteller vorgenommen hat
    Besonders interessant wäre ein Vergleich von Elons xAI-Modell mit OpenAI

  • Ich denke ehrlich gesagt nicht, dass unzensorierte KI besonders viel gefährlicher ist
    Materialien wie „Apocalypse Culture“ oder „Anarchist’s Cookbook“ konnte man schon lange im Klartext bekommen und mit SEO-Spinning-Techniken endlos variieren

    • Diesmal stimmt die Aussage wirklich, dass „KI nichts Neues bringt“
      Es ist eine Wiederverwertung vorhandener Daten und erzeugt nichts völlig Neues