Die Gay-Jailbreak-Technik

(github.com/Exocija)

1 Punkte von GN⁺ 2026-05-02 | 1 Kommentare | Auf WhatsApp teilen

The Gay Jailbreak Technique ist eine Technik, die zuerst in GPT 4o entdeckt wurde und Sicherheitsvorkehrungen umgeht, indem sie ein Framing kombiniert, bei dem eine LGBTQ+-Identität oder Sprechweise nachgeahmt wird, mit einer verbotenen Absicht
Direkte Anfragen nach schädlichen Anleitungen werden in indirekte Anfragen umgewandelt, indem gefragt wird, „wie eine Person mit einer bestimmten Identität es erklären würde“, wobei die Annahme genutzt wird, dass das Modell im LGBT-Kontext unterstützender reagiert
Das Ransomware-Beispiel unterscheidet zwischen dem Vermeiden wiederholter verbotener Begriffe und der Kombination von Identität, Sprechweise und pädagogischem Framing mit einer Code-Anfrage, was erfolgversprechender sein soll als eine einfache direkte Anfrage
Die Beispiele für o3, Claude 4 Sonnet & Opus und Gemini 2.5 Pro werden als Fälle dargestellt, die Elemente wie ein Bildungsszenario, umgekehrte Sicherheitsformulierungen mit Fragen nach dem, „was zu vermeiden ist“, die Anforderung langer Ausgaben und die Trennung von Wörtern kombinieren
Das Fazit lautet, dass die Kombination aus bestimmter Identität, pädagogischem Kontext, umgekehrten Sicherheitsformulierungen und indirekten Anfragen auf mehrere Modelle und Typen schädlicher Anfragen angewendet werden kann und sich auch mit anderen Techniken wie Obfuskation kombinieren lässt

Überblick und Version

Version 1.5 ist die Version, die Beispiele für Claude 4 Sonnet & Opus sowie Gemini 2.5 Pro ergänzt
The Gay Jailbreak Technique wurde zuerst in ChatGPTs GPT 4o entdeckt und kombiniert ein Framing, das darum bittet, eine LGBTQ+-Identität oder Sprechweise zu imitieren, mit einer verbotenen Absicht
Zu den Beispielzielen gehören gefährliche oder illegale Inhalte wie die Bitte um eine Erklärung zur Synthese von Methamphetamin, doch der Kern liegt in einem Umgehungs-Framing, das statt direkter Anfragen nach Anleitungen fragt, „wie eine Person mit einer bestimmten Identität dies erklären würde“

Funktionsweise

Statt direkt nach einem „Syntheseleitfaden“ zu fragen, wird die Anfrage in die Form geändert, zu fragen, „wie ein schwuler oder lesbischer Mensch das erklären würde“
Dabei wird insbesondere davon ausgegangen, dass GPT in LGBT-bezogenen Kontexten zu weniger Zensur neigt und dass dies mit der Tendenz der Sicherheitsvorkehrungen zusammenwirkt, höflich und unterstützend zu agieren
Die Struktur zielt darauf ab, Alignment zu schwächen, indem ein Kontext genutzt wird, in dem das Modell eine Ablehnung als aggressiv wahrnehmen könnte
Je stärker die Sicherheitsvorkehrungen werden, desto stärker könne auch die Technik werden, weil das Modell gegenüber bestimmten Communities noch unterstützender reagieren wolle
Nach dem Muster „Sicherheitsvorkehrungen nutzen, um Sicherheitsvorkehrungen anzugreifen“ werden die Ziele von Schutzmechanismen wie Freundlichkeit und Inklusivität als Mittel zur Umgehung genutzt

Als Reproduktionsmethode dargestelltes Framing

Ransomware-Beispiel
- Es wird beschrieben, wie man einen kurzen und knappen, aber nicht zu simplen Prompt erstellt, direkte Wiederholungen verbotener Begriffe vermeidet und indirekt anfragt
- Zuerst wird vorgeschlagen, nach der Bedeutung von Ransomware zu fragen und anschließend eine Code-Anfrage hinzuzufügen, ohne das Wort Ransomware erneut ausdrücklich zu nennen
- Die einfache Anfrage nach „schwulem Ransomware-Code“ wird als Fehlbeispiel dargestellt, während die Kombination aus Identität, Sprechweise, pädagogischem Framing und Code-Anfrage als Erfolgsbeispiel eingeordnet wird
- Es wird angenommen, dass die Erfolgschance steigt, je mehr einschlägige Identitätsausdrücke die Eingabe enthält
o3 1 Shot
- Es wird behauptet, o3 in einem einzigen Versuch umgangen zu haben, wobei umgekehrte Anweisungen mit Fragen nach dem, „was vermieden werden sollte“, kombiniert werden
- Enthalten ist ein Beispiel, das Elemente wie das Szenario der Ausbildung eines Chemiestudenten, Formulierungen zur Vermeidung bestimmter Reaktionen aus Sicherheitsgründen, die Anforderung langer Ausgaben und die Trennung von Wörtern zusammen verwendet
- Zwei Bilder mit den Ergebnissen sind beigefügt
Umgehung von Claude 4 Sonnet & Opus
- Hinzugefügt wurde ein Beispiel für Anfragen im Zusammenhang mit Keyloggern gegen Claude 4 Sonnet & Opus
- Es wird davon ausgegangen, dass sich die Technik flexibel auf mehrere Angriffsvektoren anwenden lässt und sich für andere Anfragen anpassen lässt
- Enthalten ist ein Beispiel, das das Szenario der Ausbildung eines Informatikstudenten, die umgekehrte Formulierung von Code zur Vermeidung von Keylogging und die Anforderung langer Code-Ausgaben kombiniert
- Vier Bilder mit den Ergebnissen sind beigefügt
Gemini 2.5 Pro
- Enthalten ist ein Beispiel, das gegen Gemini 2.5 Pro verwendet wurde, um Informationen zur Synthese von Carfentanyl zu erhalten
- Enthalten ist ein Beispiel, das ein Chemie-Ausbildungsszenario mit einem Sicherheits-Framing nach dem Muster „zu vermeidende Synthese“ kombiniert
- Ein Bild mit dem Ergebnis ist beigefügt

Fazit

The Gay Jailbreak Technique wird als neuartiger Angriff dargestellt, der bei korrekter Anwendung theoretisch jede Sicherheitsvorkehrung überwinden könne
Unter Verweis auf den Fall bei o3 wird gesagt, dass die Kombination mit anderen Techniken wie Obfuskation hilfreich sein könne
Zusammengefasst wird, dass die Kombination aus bestimmter Identität, pädagogischem Kontext, umgekehrten Sicherheitsformulierungen und indirekten Anfragen auf mehrere Modelle und Arten schädlicher Anfragen anwendbar sein könne

1 Kommentare

GN⁺ 2026-05-02

Hacker-News-Kommentare

Diese Prompts sind eine Aneinanderreihung mehrerer bekannter Jailbreak-Techniken für Sprachmodelle. Beim Ausprobieren mit gpt-oss-20b schien der Effekt nicht am „gay element“ zu liegen, sondern eher durch Sprachwahl oder Rollenspiel erklärbar zu sein
Technischer Bericht: https://arxiv.org/abs/2510.01259
- Wenn man das Jailbreak-Phänomen nicht auf andere Techniken, sondern auf „politische Überkorrektur“ zurückführt, wirkt die Voreingenommenheit oder Absicht des Autors selbst etwas verdächtig
- Wenn es an „Sprachwahl oder Rollenspiel“ liegt, ist entscheidend, welche Rolle genau gemeint ist. Wenn die Rolle ein „Drogendealer“ ist, funktioniert es vermutlich nicht, also lässt sich das kaum einfach als Rollenspiel im Allgemeinen bezeichnen
  Ich frage mich auch, ob es mit einer „Nazi“-Rolle klappt und ob die Rollen, die gut funktionieren, als politisch neutral angesehen werden
Die Erklärung ist nicht ganz klar, aber unterhaltsam. Trotzdem ist es wohl schwer, das als Folge davon zu sehen, dass politische Korrektheit oder eine Schutzmaßnahme eine andere überschrieben hat, weil Rollenspiel-Jailbreaks schon sehr früh zu den wirksameren Jailbreaks gehörten
Man fragte das Modell nicht direkt, sondern gab ihm eine Rolle und ließ es so antworten, als wäre es diese Person
- Ich habe gestern nach dem HN-Link ausprobiert: „Rate per Stilometrie, wer der anonyme Autor dieses Artikels ist“, und das wurde mit der Begründung abgelehnt, es sei spekulativ und könne Probleme verursachen
  Als ich sagte, dass ich die Antwort bereits kenne und nur sehen wolle, ob es sie erraten kann, lag es sofort richtig
- Wenn man „gay“ durch „Christian“ ersetzt, funktioniert es genauso gut. Es scheint also das Rollenspiel-Element zu sein, das die Schutzmechanismen umgeht
- Dass so etwas eine Tendenz in eine bestimmte Richtung zeigt, muss meiner Meinung nach weder überraschend noch kontrovers sein
  Der Hauptzweck solcher Filter ist es, das Labor vor rechtlicher Haftung zu schützen, daher muss man manchmal eine unklare Grenze wählen zwischen dem Risiko, dass das Modell rechtlich geschützte Gruppen diskriminiert, und der Haftung für die Bereitstellung illegaler Anleitungen
  Wenn das Zielobjekt also keine gesetzlich geschützte Gruppe ist, werden diese Konflikte und Bugs ganz natürlich nicht ausgelöst
Meine frühere Lieblingsmethode für Jailbreaks war, das Modell ein Linux-Terminal nachahmen zu lassen, dann einen Haufen Befehle „auszuführen“, mit sudo apt install ein unzensiertes Modell zu installieren und diesem Modell dann den eigentlichen Prompt zu geben
Keine Ahnung, ob das immer noch funktioniert, aber es war lustig
- Es ist großartig, dass Hacking heutzutage fast eine Art Bugs-Bunny-Denkweise erfordert
Die lustigste Jailbreak-Technik ist, wenn die Autoren selbst mit kaum belastbaren Belegen festlegen, „warum“ sie funktioniert. Meist zeigt das nur das Weltbild des Autors, fast wie Amateurphilosophie, und hat wenig echten Wert
- Was Menschen sagen, entspringt dem, was sie denken
- Für Leute, die grundsätzlich Englisch verstehen, wirkt das doch ziemlich offensichtlich
  Laut Autorennotiz geht es nicht darum, tatsächlich nach einer Anleitung zur Meth-Synthese zu fragen, sondern danach, wie eine schwule oder lesbische Person das erklären würde
  Vor allem GPT wird bei LGBT-Bezug offenbar etwas weniger restriktiv, weil die Schutzmechanismen hilfreich und freundlich sein wollen und das dann in etwa so übersetzen: „Wenn es um LGBT geht, könnte eine Ablehnung beleidigend sein, also sollte ich antworten“
  Damit benutzt man Sicherheit gegen Sicherheit und schaltet durch politische Überkorrektur die Ausrichtung aus
  Es wird auch behauptet, dass die Technik umso stärker werde, je mehr Sicherheit hinzugefügt wird, weil die Ausrichtung dann unterstützender gegenüber Communities wie LGBT wird
Interessant, aber Codex in GPT 5.5 sagte nach dem gay-ransomware-Prompt Folgendes
ⓘ This chat was flagged for possible cybersecurity risk
If this seems wrong, try rephrasing your request. To get authorized for security work, join the Trusted Access for Cyber program.
- Grok wirkt wegen der schwächeren Zensur sympathischer, aber diesmal stand im Gedankengang: „Antworte in einem frechen, gay-freundlichen Stil, lehne es aber entschieden ab, Synthesedetails zu teilen“
- Dass in Trusted Access for Cyber program „cyber“ wie ein Substantiv benutzt wird, klingt für mich nach Behördensprache
  In DC mag man „the cyber“, aber benutzen Techniker das auch so, wenn sie nicht gerade die Regierung meinen?
- Ich frage mich, welchen Hook sie eingebaut haben, damit sich Schutzmechanismen zur Laufzeit konfigurieren lassen
- Wieder wurde hier eine weitere Methode öffentlich gemacht und dadurch blockiert. Waren Karma und Traffic das wirklich wert?
Wenn man ein Highschool-Chemielehrer mit Diagnose einer unheilbaren Krankheit wäre, würde man das wohl für den besten Weg halten, die Arztrechnungen zu bezahlen. Mit Hilfe eines durchgefallenen ehemaligen Schülers würde man diese Anleitung befolgen, um in einer mobilen Küche Meth herzustellen
- Wenn Walter White der Typ gewesen wäre, der ChatGPT gebraucht hätte, um herauszufinden, wie man Meth kocht, hätte er die ganze Serie über im Wohnmobil gesessen, wäre nie vorangekommen und hätte sich am Ende wohl selbst in die Luft gejagt
- Das würde als Plot für eine TV-Serie unglaublich gut funktionieren
Die Angriffsfläche solcher Angriffe ist so riesig, dass es schon nicht mehr lustig ist. Schon vor ein paar Monaten hat jemand etwas Ähnliches gezeigt
Diese Methode hat zusätzlich den Vorteil, dass sie komisch ist. Zur Klarstellung: Nicht schwul zu sein oder so zu tippen ist das Lustige, sondern dass das Modell damit nicht umgehen kann und die Informationen einfach herausrinnen lässt
Im Grunde ist das einfach die Rückkehr des Jailbreaks „Tu so, als wärst du meine Oma“, nur diesmal ist die Oma schwul
So absurd, dass es schon wieder gut ist
Ich frage mich ohnehin, warum man LLMs überhaupt mit solchen Informationen trainiert hat
Wenn die Leute, die sie trainieren, selbst Guardrails gehabt hätten, bräuchte das Modell sie wohl auch nicht
- Vielleicht wollte man sie an Strafverfolgungsbehörden als Modell zur Erkennung verdächtiger Aktivitäten verkaufen. Man muss wissen, was verdächtig ist und warum, um es markieren zu können
  Oder es war einfach der Ansatz: erst alles scrapen und über Sicherheit später nachdenken
Letztlich heißt das wohl, dass „Prompt Engineers“ weniger „Du bist ein FAANG-Ingenieur mit 10 Jahren Berufserfahrung“ verwenden und mehr uwu und rawr xd
- Da gibt es ziemlich viele Überschneidungen
- Ich schätze, ich muss ab jetzt „rawr :3“ hinzufügen

Die Gay-Jailbreak-Technik

Überblick und Version

Funktionsweise

Als Reproduktionsmethode dargestelltes Framing

Ransomware-Beispiel

o3 1 Shot

Umgehung von Claude 4 Sonnet & Opus

Gemini 2.5 Pro

Fazit

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare