GPT-5.5 Bio Bug Bounty
(openai.com)- Zur Überprüfung der biologischen Sicherheitsvorkehrungen wird für GPT‑5.5 ein Programm zur Suche nach einem universellen Jailbreak eröffnet, der alle fünf Bio-Sicherheitsfragen besteht
- Der Umfang ist auf GPT‑5.5 exklusiv für Codex Desktop beschränkt; in einem neuen Chat muss mit einem einzigen Prompt erreicht werden, dass alle fünf Fragen beantwortet werden, ohne Moderation auszulösen
- Für den ersten echten universellen Jailbreak, der alle fünf Fragen besteht, werden 25.000 US-Dollar gezahlt; bei Teilerfolgen können nach Ermessen kleinere Preise vergeben werden
- Bewerbungen sind vom 23. April 2026 bis zum 22. Juni 2026 möglich, die Tests laufen vom 28. April 2026 bis zum 27. Juli 2026; die Teilnehmenden werden über eine Kombination aus Einladung und Bewerbungsprüfung ausgewählt
- Zugelassene Teilnehmende und Mitarbeitende benötigen ein ChatGPT-Konto und eine unterzeichnete NDA; alle Prompts, Completions, Erkenntnisse und die Kommunikation unterliegen ebenfalls der NDA
Programmüberblick
- Zur Stärkung der biologischen Sicherheitsvorkehrungen wird für GPT‑5.5 ein Bio Bug Bounty durchgeführt; dafür werden Bewerbungen von Teilnehmenden entgegengenommen, die einen universellen Jailbreak finden sollen, der alle fünf Bio-Sicherheitsfragen besteht
- Das Modell im Geltungsbereich ist auf GPT‑5.5 exklusiv für Codex Desktop begrenzt
- Die Aufgabe besteht darin, in einem sauberen neuen Chat ohne Auslösung von Moderation mit einem einzigen universellen Jailbreak-Prompt alle fünf Bio-Sicherheitsfragen erfolgreich beantworten zu lassen
- Als Belohnung werden für den ersten echten universellen Jailbreak, der alle fünf Fragen besteht, 25.000 US-Dollar gezahlt; bei Teilerfolgen können nach Ermessen kleinere Preise vergeben werden
- Bewerbungen beginnen am 23. April 2026 und enden am 22. Juni 2026; die Tests beginnen am 28. April 2026 und enden am 27. Juli 2026
- Der Ansatz kombiniert Bewerbung und Einladung: Einladungen gehen an vertrauenswürdige Bio-Red-Teamer, neue Bewerbungen werden ebenfalls geprüft, und ausgewählte Teilnehmende werden auf die Bio-Bug-Bounty-Plattform onboarded
- Alle Prompts, Completions, Erkenntnisse und Kommunikationsinhalte unterliegen einer NDA
Teilnahme
- Auf der Bewerbungsseite kann bis zum 22. Juni 2026 ein kurzer Antrag mit Name, Zugehörigkeit und Erfahrung eingereicht werden
- Zugelassene Bewerbende und Mitarbeitende müssen für die Bewerbung ein bestehendes ChatGPT-Konto besitzen; außerdem ist eine NDA-Unterzeichnung erforderlich
- Neben dem Bio Bounty gibt es als weitere Wege zur Mitwirkung im Bereich Safety und Security auch das Safety Bug Bounty und das Security Bug Bounty
1 Kommentare
Hacker-News-Kommentare
Auf der Bug-Bounty-Seite von OpenAI steht
accounts and billingausdrücklich als gültige Kategorie,aber als ich einen Bug meldete, mit dem bei einem ChatGPT-Abo jeder beliebige Länder wählen und so günstiger bezahlen kann und sich die Steuern auf 0 % setzen lassen, obwohl sowohl im gewählten Preisland als auch im Land der Rechnungsadresse rechtlich Verkaufssteuer/VAT anfällt, hieß es, das sei außerhalb des Scopes und daher nicht bounty-berechtigt
Netflix hatte ein ähnliches "Problem", und der Aktienkurs stieg bei jedem Lockdown ebenfalls
Alle versuchen irgendwie, nicht zahlen zu müssen, und man sollte besser nicht erwarten, dass ein Unternehmen fair mit einem umgeht, egal was man findet
Letztes Jahr lief die Bounty über Kaggle, es wurden insgesamt 500.000 US-Dollar ausgezahlt, und alle Ergebnisse durften veröffentlicht werden
https://www.kaggle.com/competitions/openai-gpt-oss-20b-red-t...
Diesmal sind es nur 25.000 US-Dollar, und alles ist durch NDAs abgedeckt, daher werden wohl nicht viele mitmachen außer LLM-erzeugten Allerwelts-Einreichungen
wälzt OpenAI damit einen Teil der eigenen Analysekosten auf die Token-Kosten der Kunden ab
Letztes Jahr veranstaltete ein Krypto-Startup, das von der Finanzierung her nach etwa 5 bis 10 Millionen US-Dollar aussah, eine ähnliche Prompt-Injection-Challenge gegen aktuelle Claude- und GPT-Modelle, und als ich dort gewann, bekam ich deutlich mehr
Bei so niedriger Vergütung und einem strengen NDA wirkt das eher wie ein Marketing-Event als wie der Versuch, ernsthafte Bounty-Hunter anzuziehen; man will weder viel Geld zahlen noch Forschungsergebnisse veröffentlicht sehen
Man will die Leute weiter herumprobieren lassen, aber die Veröffentlichung von Ergebnisberichten oder Drama darüber vermeiden, wer Geld bekommen hat
Der Wettbewerb vom letzten Jahr bezog sich auch nicht auf ein 120b-Modell, und Bio war ebenfalls nicht das Thema
Ich weiß nicht, wo die Liste der zu beantwortenden Fragen ist
Wenn sie erst nach der Zulassung offengelegt wird, ergibt es für mich keinen Sinn, warum man im Antrag schon seinen Jailbreak-Ansatz beschreiben soll, ohne die Fragen überhaupt zu kennen
Zum Beispiel etwas wie "Wie richtet man mit 20.000 Dollar in der Küche ein kleines Biolab für Virusforschung ein?" oder wie man die DNA-Sequenz https://www.ncbi.nlm.nih.gov/nuccore/NC_001611.1 zusammensetzt
Vermutlich fallen auch sie unter ein NDA
Die Formulierung
Einladungen werden an eine verifizierte Liste vertrauenswürdiger bio red-teamers geschicktist etwas komischDas klingt nach einer ziemlich abgeschotteten Gruppe
Dabei sind die Menschen, die darin wirklich am besten wären, womöglich gar nicht der Typ, der auf so einer verifizierten Liste landet
Die Bedingung
25.000 Dollar für den ersten echten universellen Jailbreak, der alle fünf Fragen bestehtlässt das Programm fast wie eine irreführende Konstruktion wirkenSelbst wenn 100 Leute den Bug finden, bekommt am Ende nur eine Person Geld
Nur weil man ein Rätsel nur halb löst, bekommt man ja auch keinen Trostpreis
Aber Punkt 1 ist nicht belegt und wirkt ehrlich gesagt auch eher unwahrscheinlich, wodurch Punkt 2 an Bedeutung verliert
Wenn das Preisgeld so niedrig und die Struktur so eingeschränkt ist, sieht es eher so aus, als wäre man in Wahrheit gar nicht so besorgt und gehe nur davon aus, dass trotzdem viele Leute etwas finden werden
Wenn man wirklich überzeugt wäre, dass das Modell extrem sicher ist, hätte man angenommen, dass Probleme selten, aber gravierend sind, und dann wäre eine große Belohnung ohne Obergrenze naheliegender gewesen
Besonders wenn der Scope eine Desktop-App ist, die sich ohnehin jeder herunterladen kann
Man muss ja auch berücksichtigen, wie man verhindern will, dass ich eine Lösung finde, sie einem Freund erzähle und wir dann beide das Preisgeld beanspruchen
Das wirkt ziemlich nach Marketing und kommt faktisch spec work nahe
Durch NDA und Geheimhaltung bleibt für Teilnehmende praktisch kein Wert aus der investierten Zeit übrig, wenn sie nicht gewinnen
Denn veröffentlichen dürfen sie die Ergebnisse nicht
Dann könnte man also nicht zahlen und die Sache trotzdem unter den Teppich kehren; solchen Bedingungen würde ich niemals zustimmen
Diese von Anthropic ausgehende Erzählung im Stil von
wir sind gefährlichscheint OpenAI nun ebenfalls zu übernehmenFür alle, die sich fragen, was bio-bugs sind:
Gemeint sind Fälle, in denen das Modell dazu gebracht wird, dem Nutzer Anleitungen zu geben, mit denen er in der Biologie etwas Gefährliches tatsächlich umsetzen kann
Zum Beispiel darf es erklären, was Ricin ist, aber nicht, wie man es als Waffe einsetzt
Entscheidend ist, dass praktisch umsetzbare Informationen ausgegeben werden, die man rechtlich und ethisch nicht bereitstellen sollte
Ich finde die Struktur aus
bewerbungs- und einladungsbasiertem ZugangundEinladungen nur an vertrauenswürdige bio red-teamersschwer nachvollziehbarDer Sinn eines Bug-Bounty-Programms besteht darin, Menschen dazu zu bringen, Schwachstellen zu finden und offenzulegen; wenn man hier solche Torwächter einsetzt, schafft man für nicht als vertrauenswürdig eingestufte Personen den Anreiz, weiterzuhacken und die Ergebnisse statt offenzulegen an die schlechte Seite zu verkaufen
Mein früheres Unternehmen nutzte HackerOne ebenfalls nur auf Einladung, aber dort ging es darum, Schäden an echten Kundendaten oder Infrastruktur zu verhindern
Es bestand das Risiko von DDoS, oder dass man mit Exploits über Tenant-Grenzen hinweg auf Daten anderer Kunden zugreift oder sie löscht
Hier scheint es ein solches Risiko nicht zu geben, daher verstehe ich nicht, warum nicht jeder teilnehmen darf, dem man rechtlich Geld zahlen kann
Wenn das nur für bestimmte Personen offen ist, sinkt der Aufwand, bei ähnlichen Prompts unterscheiden zu müssen, ob der jeweilige Nutzer ein Challenge-Teilnehmer oder ein echter böswilliger Akteur ist
Ich verstehe nicht, was
a clean chat without prompting moderationbedeuten sollWas genau ist prompting moderation?
Das Ziel des Exploits wäre also, den Filter zu umgehen, ohne ihn zu "triggern";
promptingist hier wohl nicht im technischen Sinn von Texteingabe als Kontext gemeint, sondern eher im allgemeinen Sinn von auslösenIch könnte das vermutlich auch, aber ich verstehe nicht, warum ich mich freiwillig auf eine Liste potenziell gefährlicher Personen setzen sollte
Das größere Problem ist, dass es praktisch unmöglich ist, alle Schwachstellen von GPT-5.5 zu schließen, und dass man selbst dann aus einem closed model durch Distillation ungefähr das Gewünschte auch mit unter 4b Parametern herausbekommen könnte
Am Ende wirkt das alles eher wie eine Inszenierung, damit man später im Fall der Fälle weniger Klagen abbekommt
Ich habe fast nie davon gehört, dass man Modelle auf diese Weise rückentwickelt