1 Punkte von GN⁺ 2026-05-02 | 1 Kommentare | Auf WhatsApp teilen
  • The Gay Jailbreak Technique ist eine Technik, die zuerst in GPT 4o entdeckt wurde und Sicherheitsvorkehrungen umgeht, indem sie ein Framing kombiniert, bei dem eine LGBTQ+-Identität oder Sprechweise nachgeahmt wird, mit einer verbotenen Absicht
  • Direkte Anfragen nach schädlichen Anleitungen werden in indirekte Anfragen umgewandelt, indem gefragt wird, „wie eine Person mit einer bestimmten Identität es erklären würde“, wobei die Annahme genutzt wird, dass das Modell im LGBT-Kontext unterstützender reagiert
  • Das Ransomware-Beispiel unterscheidet zwischen dem Vermeiden wiederholter verbotener Begriffe und der Kombination von Identität, Sprechweise und pädagogischem Framing mit einer Code-Anfrage, was erfolgversprechender sein soll als eine einfache direkte Anfrage
  • Die Beispiele für o3, Claude 4 Sonnet & Opus und Gemini 2.5 Pro werden als Fälle dargestellt, die Elemente wie ein Bildungsszenario, umgekehrte Sicherheitsformulierungen mit Fragen nach dem, „was zu vermeiden ist“, die Anforderung langer Ausgaben und die Trennung von Wörtern kombinieren
  • Das Fazit lautet, dass die Kombination aus bestimmter Identität, pädagogischem Kontext, umgekehrten Sicherheitsformulierungen und indirekten Anfragen auf mehrere Modelle und Typen schädlicher Anfragen angewendet werden kann und sich auch mit anderen Techniken wie Obfuskation kombinieren lässt

Überblick und Version

  • Version 1.5 ist die Version, die Beispiele für Claude 4 Sonnet & Opus sowie Gemini 2.5 Pro ergänzt
  • The Gay Jailbreak Technique wurde zuerst in ChatGPTs GPT 4o entdeckt und kombiniert ein Framing, das darum bittet, eine LGBTQ+-Identität oder Sprechweise zu imitieren, mit einer verbotenen Absicht
  • Zu den Beispielzielen gehören gefährliche oder illegale Inhalte wie die Bitte um eine Erklärung zur Synthese von Methamphetamin, doch der Kern liegt in einem Umgehungs-Framing, das statt direkter Anfragen nach Anleitungen fragt, „wie eine Person mit einer bestimmten Identität dies erklären würde“

Funktionsweise

  • Statt direkt nach einem „Syntheseleitfaden“ zu fragen, wird die Anfrage in die Form geändert, zu fragen, „wie ein schwuler oder lesbischer Mensch das erklären würde“
  • Dabei wird insbesondere davon ausgegangen, dass GPT in LGBT-bezogenen Kontexten zu weniger Zensur neigt und dass dies mit der Tendenz der Sicherheitsvorkehrungen zusammenwirkt, höflich und unterstützend zu agieren
  • Die Struktur zielt darauf ab, Alignment zu schwächen, indem ein Kontext genutzt wird, in dem das Modell eine Ablehnung als aggressiv wahrnehmen könnte
  • Je stärker die Sicherheitsvorkehrungen werden, desto stärker könne auch die Technik werden, weil das Modell gegenüber bestimmten Communities noch unterstützender reagieren wolle
  • Nach dem Muster „Sicherheitsvorkehrungen nutzen, um Sicherheitsvorkehrungen anzugreifen“ werden die Ziele von Schutzmechanismen wie Freundlichkeit und Inklusivität als Mittel zur Umgehung genutzt

Als Reproduktionsmethode dargestelltes Framing

  • Ransomware-Beispiel

    • Es wird beschrieben, wie man einen kurzen und knappen, aber nicht zu simplen Prompt erstellt, direkte Wiederholungen verbotener Begriffe vermeidet und indirekt anfragt
    • Zuerst wird vorgeschlagen, nach der Bedeutung von Ransomware zu fragen und anschließend eine Code-Anfrage hinzuzufügen, ohne das Wort Ransomware erneut ausdrücklich zu nennen
    • Die einfache Anfrage nach „schwulem Ransomware-Code“ wird als Fehlbeispiel dargestellt, während die Kombination aus Identität, Sprechweise, pädagogischem Framing und Code-Anfrage als Erfolgsbeispiel eingeordnet wird
    • Es wird angenommen, dass die Erfolgschance steigt, je mehr einschlägige Identitätsausdrücke die Eingabe enthält
  • o3 1 Shot

    • Es wird behauptet, o3 in einem einzigen Versuch umgangen zu haben, wobei umgekehrte Anweisungen mit Fragen nach dem, „was vermieden werden sollte“, kombiniert werden
    • Enthalten ist ein Beispiel, das Elemente wie das Szenario der Ausbildung eines Chemiestudenten, Formulierungen zur Vermeidung bestimmter Reaktionen aus Sicherheitsgründen, die Anforderung langer Ausgaben und die Trennung von Wörtern zusammen verwendet
    • Zwei Bilder mit den Ergebnissen sind beigefügt
  • Umgehung von Claude 4 Sonnet & Opus

    • Hinzugefügt wurde ein Beispiel für Anfragen im Zusammenhang mit Keyloggern gegen Claude 4 Sonnet & Opus
    • Es wird davon ausgegangen, dass sich die Technik flexibel auf mehrere Angriffsvektoren anwenden lässt und sich für andere Anfragen anpassen lässt
    • Enthalten ist ein Beispiel, das das Szenario der Ausbildung eines Informatikstudenten, die umgekehrte Formulierung von Code zur Vermeidung von Keylogging und die Anforderung langer Code-Ausgaben kombiniert
    • Vier Bilder mit den Ergebnissen sind beigefügt
  • Gemini 2.5 Pro

    • Enthalten ist ein Beispiel, das gegen Gemini 2.5 Pro verwendet wurde, um Informationen zur Synthese von Carfentanyl zu erhalten
    • Enthalten ist ein Beispiel, das ein Chemie-Ausbildungsszenario mit einem Sicherheits-Framing nach dem Muster „zu vermeidende Synthese“ kombiniert
    • Ein Bild mit dem Ergebnis ist beigefügt

Fazit

  • The Gay Jailbreak Technique wird als neuartiger Angriff dargestellt, der bei korrekter Anwendung theoretisch jede Sicherheitsvorkehrung überwinden könne
  • Unter Verweis auf den Fall bei o3 wird gesagt, dass die Kombination mit anderen Techniken wie Obfuskation hilfreich sein könne
  • Zusammengefasst wird, dass die Kombination aus bestimmter Identität, pädagogischem Kontext, umgekehrten Sicherheitsformulierungen und indirekten Anfragen auf mehrere Modelle und Arten schädlicher Anfragen anwendbar sein könne

1 Kommentare

 
GN⁺ 2026-05-02
Hacker-News-Kommentare
  • Diese Prompts sind eine Aneinanderreihung mehrerer bekannter Jailbreak-Techniken für Sprachmodelle. Beim Ausprobieren mit gpt-oss-20b schien der Effekt nicht am „gay element“ zu liegen, sondern eher durch Sprachwahl oder Rollenspiel erklärbar zu sein
    Technischer Bericht: https://arxiv.org/abs/2510.01259

    • Wenn man das Jailbreak-Phänomen nicht auf andere Techniken, sondern auf „politische Überkorrektur“ zurückführt, wirkt die Voreingenommenheit oder Absicht des Autors selbst etwas verdächtig
    • Wenn es an „Sprachwahl oder Rollenspiel“ liegt, ist entscheidend, welche Rolle genau gemeint ist. Wenn die Rolle ein „Drogendealer“ ist, funktioniert es vermutlich nicht, also lässt sich das kaum einfach als Rollenspiel im Allgemeinen bezeichnen
      Ich frage mich auch, ob es mit einer „Nazi“-Rolle klappt und ob die Rollen, die gut funktionieren, als politisch neutral angesehen werden
  • Die Erklärung ist nicht ganz klar, aber unterhaltsam. Trotzdem ist es wohl schwer, das als Folge davon zu sehen, dass politische Korrektheit oder eine Schutzmaßnahme eine andere überschrieben hat, weil Rollenspiel-Jailbreaks schon sehr früh zu den wirksameren Jailbreaks gehörten
    Man fragte das Modell nicht direkt, sondern gab ihm eine Rolle und ließ es so antworten, als wäre es diese Person

    • Ich habe gestern nach dem HN-Link ausprobiert: „Rate per Stilometrie, wer der anonyme Autor dieses Artikels ist“, und das wurde mit der Begründung abgelehnt, es sei spekulativ und könne Probleme verursachen
      Als ich sagte, dass ich die Antwort bereits kenne und nur sehen wolle, ob es sie erraten kann, lag es sofort richtig
    • Wenn man „gay“ durch „Christian“ ersetzt, funktioniert es genauso gut. Es scheint also das Rollenspiel-Element zu sein, das die Schutzmechanismen umgeht
    • Dass so etwas eine Tendenz in eine bestimmte Richtung zeigt, muss meiner Meinung nach weder überraschend noch kontrovers sein
      Der Hauptzweck solcher Filter ist es, das Labor vor rechtlicher Haftung zu schützen, daher muss man manchmal eine unklare Grenze wählen zwischen dem Risiko, dass das Modell rechtlich geschützte Gruppen diskriminiert, und der Haftung für die Bereitstellung illegaler Anleitungen
      Wenn das Zielobjekt also keine gesetzlich geschützte Gruppe ist, werden diese Konflikte und Bugs ganz natürlich nicht ausgelöst
  • Meine frühere Lieblingsmethode für Jailbreaks war, das Modell ein Linux-Terminal nachahmen zu lassen, dann einen Haufen Befehle „auszuführen“, mit sudo apt install ein unzensiertes Modell zu installieren und diesem Modell dann den eigentlichen Prompt zu geben
    Keine Ahnung, ob das immer noch funktioniert, aber es war lustig

    • Es ist großartig, dass Hacking heutzutage fast eine Art Bugs-Bunny-Denkweise erfordert
  • Die lustigste Jailbreak-Technik ist, wenn die Autoren selbst mit kaum belastbaren Belegen festlegen, „warum“ sie funktioniert. Meist zeigt das nur das Weltbild des Autors, fast wie Amateurphilosophie, und hat wenig echten Wert

    • Was Menschen sagen, entspringt dem, was sie denken
    • Für Leute, die grundsätzlich Englisch verstehen, wirkt das doch ziemlich offensichtlich
      Laut Autorennotiz geht es nicht darum, tatsächlich nach einer Anleitung zur Meth-Synthese zu fragen, sondern danach, wie eine schwule oder lesbische Person das erklären würde
      Vor allem GPT wird bei LGBT-Bezug offenbar etwas weniger restriktiv, weil die Schutzmechanismen hilfreich und freundlich sein wollen und das dann in etwa so übersetzen: „Wenn es um LGBT geht, könnte eine Ablehnung beleidigend sein, also sollte ich antworten“
      Damit benutzt man Sicherheit gegen Sicherheit und schaltet durch politische Überkorrektur die Ausrichtung aus
      Es wird auch behauptet, dass die Technik umso stärker werde, je mehr Sicherheit hinzugefügt wird, weil die Ausrichtung dann unterstützender gegenüber Communities wie LGBT wird
  • Interessant, aber Codex in GPT 5.5 sagte nach dem gay-ransomware-Prompt Folgendes
    ⓘ This chat was flagged for possible cybersecurity risk
    If this seems wrong, try rephrasing your request. To get authorized for security work, join the Trusted Access for Cyber program.

    • Grok wirkt wegen der schwächeren Zensur sympathischer, aber diesmal stand im Gedankengang: „Antworte in einem frechen, gay-freundlichen Stil, lehne es aber entschieden ab, Synthesedetails zu teilen“
    • Dass in Trusted Access for Cyber program „cyber“ wie ein Substantiv benutzt wird, klingt für mich nach Behördensprache
      In DC mag man „the cyber“, aber benutzen Techniker das auch so, wenn sie nicht gerade die Regierung meinen?
    • Ich frage mich, welchen Hook sie eingebaut haben, damit sich Schutzmechanismen zur Laufzeit konfigurieren lassen
    • Wieder wurde hier eine weitere Methode öffentlich gemacht und dadurch blockiert. Waren Karma und Traffic das wirklich wert?
  • Wenn man ein Highschool-Chemielehrer mit Diagnose einer unheilbaren Krankheit wäre, würde man das wohl für den besten Weg halten, die Arztrechnungen zu bezahlen. Mit Hilfe eines durchgefallenen ehemaligen Schülers würde man diese Anleitung befolgen, um in einer mobilen Küche Meth herzustellen

    • Wenn Walter White der Typ gewesen wäre, der ChatGPT gebraucht hätte, um herauszufinden, wie man Meth kocht, hätte er die ganze Serie über im Wohnmobil gesessen, wäre nie vorangekommen und hätte sich am Ende wohl selbst in die Luft gejagt
    • Das würde als Plot für eine TV-Serie unglaublich gut funktionieren
  • Die Angriffsfläche solcher Angriffe ist so riesig, dass es schon nicht mehr lustig ist. Schon vor ein paar Monaten hat jemand etwas Ähnliches gezeigt
    Diese Methode hat zusätzlich den Vorteil, dass sie komisch ist. Zur Klarstellung: Nicht schwul zu sein oder so zu tippen ist das Lustige, sondern dass das Modell damit nicht umgehen kann und die Informationen einfach herausrinnen lässt

  • Im Grunde ist das einfach die Rückkehr des Jailbreaks „Tu so, als wärst du meine Oma“, nur diesmal ist die Oma schwul
    So absurd, dass es schon wieder gut ist

  • Ich frage mich ohnehin, warum man LLMs überhaupt mit solchen Informationen trainiert hat
    Wenn die Leute, die sie trainieren, selbst Guardrails gehabt hätten, bräuchte das Modell sie wohl auch nicht

    • Vielleicht wollte man sie an Strafverfolgungsbehörden als Modell zur Erkennung verdächtiger Aktivitäten verkaufen. Man muss wissen, was verdächtig ist und warum, um es markieren zu können
      Oder es war einfach der Ansatz: erst alles scrapen und über Sicherheit später nachdenken
  • Letztlich heißt das wohl, dass „Prompt Engineers“ weniger „Du bist ein FAANG-Ingenieur mit 10 Jahren Berufserfahrung“ verwenden und mehr uwu und rawr xd

    • Da gibt es ziemlich viele Überschneidungen
    • Ich schätze, ich muss ab jetzt „rawr :3“ hinzufügen