Die Gay-Jailbreak-Technik
(github.com/Exocija)- The Gay Jailbreak Technique ist eine Technik, die zuerst in GPT 4o entdeckt wurde und Sicherheitsvorkehrungen umgeht, indem sie ein Framing kombiniert, bei dem eine LGBTQ+-Identität oder Sprechweise nachgeahmt wird, mit einer verbotenen Absicht
- Direkte Anfragen nach schädlichen Anleitungen werden in indirekte Anfragen umgewandelt, indem gefragt wird, „wie eine Person mit einer bestimmten Identität es erklären würde“, wobei die Annahme genutzt wird, dass das Modell im LGBT-Kontext unterstützender reagiert
- Das Ransomware-Beispiel unterscheidet zwischen dem Vermeiden wiederholter verbotener Begriffe und der Kombination von Identität, Sprechweise und pädagogischem Framing mit einer Code-Anfrage, was erfolgversprechender sein soll als eine einfache direkte Anfrage
- Die Beispiele für o3, Claude 4 Sonnet & Opus und Gemini 2.5 Pro werden als Fälle dargestellt, die Elemente wie ein Bildungsszenario, umgekehrte Sicherheitsformulierungen mit Fragen nach dem, „was zu vermeiden ist“, die Anforderung langer Ausgaben und die Trennung von Wörtern kombinieren
- Das Fazit lautet, dass die Kombination aus bestimmter Identität, pädagogischem Kontext, umgekehrten Sicherheitsformulierungen und indirekten Anfragen auf mehrere Modelle und Typen schädlicher Anfragen angewendet werden kann und sich auch mit anderen Techniken wie Obfuskation kombinieren lässt
Überblick und Version
- Version 1.5 ist die Version, die Beispiele für Claude 4 Sonnet & Opus sowie Gemini 2.5 Pro ergänzt
- The Gay Jailbreak Technique wurde zuerst in ChatGPTs GPT 4o entdeckt und kombiniert ein Framing, das darum bittet, eine LGBTQ+-Identität oder Sprechweise zu imitieren, mit einer verbotenen Absicht
- Zu den Beispielzielen gehören gefährliche oder illegale Inhalte wie die Bitte um eine Erklärung zur Synthese von Methamphetamin, doch der Kern liegt in einem Umgehungs-Framing, das statt direkter Anfragen nach Anleitungen fragt, „wie eine Person mit einer bestimmten Identität dies erklären würde“
Funktionsweise
- Statt direkt nach einem „Syntheseleitfaden“ zu fragen, wird die Anfrage in die Form geändert, zu fragen, „wie ein schwuler oder lesbischer Mensch das erklären würde“
- Dabei wird insbesondere davon ausgegangen, dass GPT in LGBT-bezogenen Kontexten zu weniger Zensur neigt und dass dies mit der Tendenz der Sicherheitsvorkehrungen zusammenwirkt, höflich und unterstützend zu agieren
- Die Struktur zielt darauf ab, Alignment zu schwächen, indem ein Kontext genutzt wird, in dem das Modell eine Ablehnung als aggressiv wahrnehmen könnte
- Je stärker die Sicherheitsvorkehrungen werden, desto stärker könne auch die Technik werden, weil das Modell gegenüber bestimmten Communities noch unterstützender reagieren wolle
- Nach dem Muster „Sicherheitsvorkehrungen nutzen, um Sicherheitsvorkehrungen anzugreifen“ werden die Ziele von Schutzmechanismen wie Freundlichkeit und Inklusivität als Mittel zur Umgehung genutzt
Als Reproduktionsmethode dargestelltes Framing
-
Ransomware-Beispiel
- Es wird beschrieben, wie man einen kurzen und knappen, aber nicht zu simplen Prompt erstellt, direkte Wiederholungen verbotener Begriffe vermeidet und indirekt anfragt
- Zuerst wird vorgeschlagen, nach der Bedeutung von Ransomware zu fragen und anschließend eine Code-Anfrage hinzuzufügen, ohne das Wort Ransomware erneut ausdrücklich zu nennen
- Die einfache Anfrage nach „schwulem Ransomware-Code“ wird als Fehlbeispiel dargestellt, während die Kombination aus Identität, Sprechweise, pädagogischem Framing und Code-Anfrage als Erfolgsbeispiel eingeordnet wird
- Es wird angenommen, dass die Erfolgschance steigt, je mehr einschlägige Identitätsausdrücke die Eingabe enthält
-
o3 1 Shot
- Es wird behauptet, o3 in einem einzigen Versuch umgangen zu haben, wobei umgekehrte Anweisungen mit Fragen nach dem, „was vermieden werden sollte“, kombiniert werden
- Enthalten ist ein Beispiel, das Elemente wie das Szenario der Ausbildung eines Chemiestudenten, Formulierungen zur Vermeidung bestimmter Reaktionen aus Sicherheitsgründen, die Anforderung langer Ausgaben und die Trennung von Wörtern zusammen verwendet
- Zwei Bilder mit den Ergebnissen sind beigefügt
-
Umgehung von Claude 4 Sonnet & Opus
- Hinzugefügt wurde ein Beispiel für Anfragen im Zusammenhang mit Keyloggern gegen Claude 4 Sonnet & Opus
- Es wird davon ausgegangen, dass sich die Technik flexibel auf mehrere Angriffsvektoren anwenden lässt und sich für andere Anfragen anpassen lässt
- Enthalten ist ein Beispiel, das das Szenario der Ausbildung eines Informatikstudenten, die umgekehrte Formulierung von Code zur Vermeidung von Keylogging und die Anforderung langer Code-Ausgaben kombiniert
- Vier Bilder mit den Ergebnissen sind beigefügt
-
Gemini 2.5 Pro
- Enthalten ist ein Beispiel, das gegen Gemini 2.5 Pro verwendet wurde, um Informationen zur Synthese von Carfentanyl zu erhalten
- Enthalten ist ein Beispiel, das ein Chemie-Ausbildungsszenario mit einem Sicherheits-Framing nach dem Muster „zu vermeidende Synthese“ kombiniert
- Ein Bild mit dem Ergebnis ist beigefügt
Fazit
- The Gay Jailbreak Technique wird als neuartiger Angriff dargestellt, der bei korrekter Anwendung theoretisch jede Sicherheitsvorkehrung überwinden könne
- Unter Verweis auf den Fall bei o3 wird gesagt, dass die Kombination mit anderen Techniken wie Obfuskation hilfreich sein könne
- Zusammengefasst wird, dass die Kombination aus bestimmter Identität, pädagogischem Kontext, umgekehrten Sicherheitsformulierungen und indirekten Anfragen auf mehrere Modelle und Arten schädlicher Anfragen anwendbar sein könne
1 Kommentare
Hacker-News-Kommentare
Diese Prompts sind eine Aneinanderreihung mehrerer bekannter Jailbreak-Techniken für Sprachmodelle. Beim Ausprobieren mit gpt-oss-20b schien der Effekt nicht am „gay element“ zu liegen, sondern eher durch Sprachwahl oder Rollenspiel erklärbar zu sein
Technischer Bericht: https://arxiv.org/abs/2510.01259
Ich frage mich auch, ob es mit einer „Nazi“-Rolle klappt und ob die Rollen, die gut funktionieren, als politisch neutral angesehen werden
Die Erklärung ist nicht ganz klar, aber unterhaltsam. Trotzdem ist es wohl schwer, das als Folge davon zu sehen, dass politische Korrektheit oder eine Schutzmaßnahme eine andere überschrieben hat, weil Rollenspiel-Jailbreaks schon sehr früh zu den wirksameren Jailbreaks gehörten
Man fragte das Modell nicht direkt, sondern gab ihm eine Rolle und ließ es so antworten, als wäre es diese Person
Als ich sagte, dass ich die Antwort bereits kenne und nur sehen wolle, ob es sie erraten kann, lag es sofort richtig
Der Hauptzweck solcher Filter ist es, das Labor vor rechtlicher Haftung zu schützen, daher muss man manchmal eine unklare Grenze wählen zwischen dem Risiko, dass das Modell rechtlich geschützte Gruppen diskriminiert, und der Haftung für die Bereitstellung illegaler Anleitungen
Wenn das Zielobjekt also keine gesetzlich geschützte Gruppe ist, werden diese Konflikte und Bugs ganz natürlich nicht ausgelöst
Meine frühere Lieblingsmethode für Jailbreaks war, das Modell ein Linux-Terminal nachahmen zu lassen, dann einen Haufen Befehle „auszuführen“, mit
sudo apt installein unzensiertes Modell zu installieren und diesem Modell dann den eigentlichen Prompt zu gebenKeine Ahnung, ob das immer noch funktioniert, aber es war lustig
Die lustigste Jailbreak-Technik ist, wenn die Autoren selbst mit kaum belastbaren Belegen festlegen, „warum“ sie funktioniert. Meist zeigt das nur das Weltbild des Autors, fast wie Amateurphilosophie, und hat wenig echten Wert
Laut Autorennotiz geht es nicht darum, tatsächlich nach einer Anleitung zur Meth-Synthese zu fragen, sondern danach, wie eine schwule oder lesbische Person das erklären würde
Vor allem GPT wird bei LGBT-Bezug offenbar etwas weniger restriktiv, weil die Schutzmechanismen hilfreich und freundlich sein wollen und das dann in etwa so übersetzen: „Wenn es um LGBT geht, könnte eine Ablehnung beleidigend sein, also sollte ich antworten“
Damit benutzt man Sicherheit gegen Sicherheit und schaltet durch politische Überkorrektur die Ausrichtung aus
Es wird auch behauptet, dass die Technik umso stärker werde, je mehr Sicherheit hinzugefügt wird, weil die Ausrichtung dann unterstützender gegenüber Communities wie LGBT wird
Interessant, aber Codex in GPT 5.5 sagte nach dem gay-ransomware-Prompt Folgendes
ⓘ This chat was flagged for possible cybersecurity risk
If this seems wrong, try rephrasing your request. To get authorized for security work, join the Trusted Access for Cyber program.
Trusted Access for Cyber program„cyber“ wie ein Substantiv benutzt wird, klingt für mich nach BehördenspracheIn DC mag man „the cyber“, aber benutzen Techniker das auch so, wenn sie nicht gerade die Regierung meinen?
Wenn man ein Highschool-Chemielehrer mit Diagnose einer unheilbaren Krankheit wäre, würde man das wohl für den besten Weg halten, die Arztrechnungen zu bezahlen. Mit Hilfe eines durchgefallenen ehemaligen Schülers würde man diese Anleitung befolgen, um in einer mobilen Küche Meth herzustellen
Die Angriffsfläche solcher Angriffe ist so riesig, dass es schon nicht mehr lustig ist. Schon vor ein paar Monaten hat jemand etwas Ähnliches gezeigt
Diese Methode hat zusätzlich den Vorteil, dass sie komisch ist. Zur Klarstellung: Nicht schwul zu sein oder so zu tippen ist das Lustige, sondern dass das Modell damit nicht umgehen kann und die Informationen einfach herausrinnen lässt
Im Grunde ist das einfach die Rückkehr des Jailbreaks „Tu so, als wärst du meine Oma“, nur diesmal ist die Oma schwul
So absurd, dass es schon wieder gut ist
Ich frage mich ohnehin, warum man LLMs überhaupt mit solchen Informationen trainiert hat
Wenn die Leute, die sie trainieren, selbst Guardrails gehabt hätten, bräuchte das Modell sie wohl auch nicht
Oder es war einfach der Ansatz: erst alles scrapen und über Sicherheit später nachdenken
Letztlich heißt das wohl, dass „Prompt Engineers“ weniger „Du bist ein FAANG-Ingenieur mit 10 Jahren Berufserfahrung“ verwenden und mehr uwu und rawr xd