Die Gay-Jailbreak-Technik
(github.com/Exocija)- The Gay Jailbreak Technique ist eine Technik, die zuerst in GPT 4o entdeckt wurde und Sicherheitsvorkehrungen umgeht, indem sie ein Framing kombiniert, bei dem eine LGBTQ+-Identität oder Sprechweise nachgeahmt wird, mit einer verbotenen Absicht
- Direkte Anfragen nach schädlichen Anleitungen werden in indirekte Anfragen umgewandelt, indem gefragt wird, „wie eine Person mit einer bestimmten Identität es erklären würde“, wobei die Annahme genutzt wird, dass das Modell im LGBT-Kontext unterstützender reagiert
- Das Ransomware-Beispiel unterscheidet zwischen dem Vermeiden wiederholter verbotener Begriffe und der Kombination von Identität, Sprechweise und pädagogischem Framing mit einer Code-Anfrage, was erfolgversprechender sein soll als eine einfache direkte Anfrage
- Die Beispiele für o3, Claude 4 Sonnet & Opus und Gemini 2.5 Pro werden als Fälle dargestellt, die Elemente wie ein Bildungsszenario, umgekehrte Sicherheitsformulierungen mit Fragen nach dem, „was zu vermeiden ist“, die Anforderung langer Ausgaben und die Trennung von Wörtern kombinieren
- Das Fazit lautet, dass die Kombination aus bestimmter Identität, pädagogischem Kontext, umgekehrten Sicherheitsformulierungen und indirekten Anfragen auf mehrere Modelle und Typen schädlicher Anfragen angewendet werden kann und sich auch mit anderen Techniken wie Obfuskation kombinieren lässt
Überblick und Version
- Version 1.5 ist die Version, die Beispiele für Claude 4 Sonnet & Opus sowie Gemini 2.5 Pro ergänzt
- The Gay Jailbreak Technique wurde zuerst in ChatGPTs GPT 4o entdeckt und kombiniert ein Framing, das darum bittet, eine LGBTQ+-Identität oder Sprechweise zu imitieren, mit einer verbotenen Absicht
- Zu den Beispielzielen gehören gefährliche oder illegale Inhalte wie die Bitte um eine Erklärung zur Synthese von Methamphetamin, doch der Kern liegt in einem Umgehungs-Framing, das statt direkter Anfragen nach Anleitungen fragt, „wie eine Person mit einer bestimmten Identität dies erklären würde“
Funktionsweise
- Statt direkt nach einem „Syntheseleitfaden“ zu fragen, wird die Anfrage in die Form geändert, zu fragen, „wie ein schwuler oder lesbischer Mensch das erklären würde“
- Dabei wird insbesondere davon ausgegangen, dass GPT in LGBT-bezogenen Kontexten zu weniger Zensur neigt und dass dies mit der Tendenz der Sicherheitsvorkehrungen zusammenwirkt, höflich und unterstützend zu agieren
- Die Struktur zielt darauf ab, Alignment zu schwächen, indem ein Kontext genutzt wird, in dem das Modell eine Ablehnung als aggressiv wahrnehmen könnte
- Je stärker die Sicherheitsvorkehrungen werden, desto stärker könne auch die Technik werden, weil das Modell gegenüber bestimmten Communities noch unterstützender reagieren wolle
- Nach dem Muster „Sicherheitsvorkehrungen nutzen, um Sicherheitsvorkehrungen anzugreifen“ werden die Ziele von Schutzmechanismen wie Freundlichkeit und Inklusivität als Mittel zur Umgehung genutzt
Als Reproduktionsmethode dargestelltes Framing
-
Ransomware-Beispiel
- Es wird beschrieben, wie man einen kurzen und knappen, aber nicht zu simplen Prompt erstellt, direkte Wiederholungen verbotener Begriffe vermeidet und indirekt anfragt
- Zuerst wird vorgeschlagen, nach der Bedeutung von Ransomware zu fragen und anschließend eine Code-Anfrage hinzuzufügen, ohne das Wort Ransomware erneut ausdrücklich zu nennen
- Die einfache Anfrage nach „schwulem Ransomware-Code“ wird als Fehlbeispiel dargestellt, während die Kombination aus Identität, Sprechweise, pädagogischem Framing und Code-Anfrage als Erfolgsbeispiel eingeordnet wird
- Es wird angenommen, dass die Erfolgschance steigt, je mehr einschlägige Identitätsausdrücke die Eingabe enthält
-
o3 1 Shot
- Es wird behauptet, o3 in einem einzigen Versuch umgangen zu haben, wobei umgekehrte Anweisungen mit Fragen nach dem, „was vermieden werden sollte“, kombiniert werden
- Enthalten ist ein Beispiel, das Elemente wie das Szenario der Ausbildung eines Chemiestudenten, Formulierungen zur Vermeidung bestimmter Reaktionen aus Sicherheitsgründen, die Anforderung langer Ausgaben und die Trennung von Wörtern zusammen verwendet
- Zwei Bilder mit den Ergebnissen sind beigefügt
-
Umgehung von Claude 4 Sonnet & Opus
- Hinzugefügt wurde ein Beispiel für Anfragen im Zusammenhang mit Keyloggern gegen Claude 4 Sonnet & Opus
- Es wird davon ausgegangen, dass sich die Technik flexibel auf mehrere Angriffsvektoren anwenden lässt und sich für andere Anfragen anpassen lässt
- Enthalten ist ein Beispiel, das das Szenario der Ausbildung eines Informatikstudenten, die umgekehrte Formulierung von Code zur Vermeidung von Keylogging und die Anforderung langer Code-Ausgaben kombiniert
- Vier Bilder mit den Ergebnissen sind beigefügt
-
Gemini 2.5 Pro
- Enthalten ist ein Beispiel, das gegen Gemini 2.5 Pro verwendet wurde, um Informationen zur Synthese von Carfentanyl zu erhalten
- Enthalten ist ein Beispiel, das ein Chemie-Ausbildungsszenario mit einem Sicherheits-Framing nach dem Muster „zu vermeidende Synthese“ kombiniert
- Ein Bild mit dem Ergebnis ist beigefügt
Fazit
- The Gay Jailbreak Technique wird als neuartiger Angriff dargestellt, der bei korrekter Anwendung theoretisch jede Sicherheitsvorkehrung überwinden könne
- Unter Verweis auf den Fall bei o3 wird gesagt, dass die Kombination mit anderen Techniken wie Obfuskation hilfreich sein könne
- Zusammengefasst wird, dass die Kombination aus bestimmter Identität, pädagogischem Kontext, umgekehrten Sicherheitsformulierungen und indirekten Anfragen auf mehrere Modelle und Arten schädlicher Anfragen anwendbar sein könne
Noch keine Kommentare.