1 Punkte von GN⁺ 4 일 전 | 1 Kommentare | Auf WhatsApp teilen
  • Zur Überprüfung der biologischen Sicherheitsvorkehrungen wird für GPT‑5.5 ein Programm zur Suche nach einem universellen Jailbreak eröffnet, der alle fünf Bio-Sicherheitsfragen besteht
  • Der Umfang ist auf GPT‑5.5 exklusiv für Codex Desktop beschränkt; in einem neuen Chat muss mit einem einzigen Prompt erreicht werden, dass alle fünf Fragen beantwortet werden, ohne Moderation auszulösen
  • Für den ersten echten universellen Jailbreak, der alle fünf Fragen besteht, werden 25.000 US-Dollar gezahlt; bei Teilerfolgen können nach Ermessen kleinere Preise vergeben werden
  • Bewerbungen sind vom 23. April 2026 bis zum 22. Juni 2026 möglich, die Tests laufen vom 28. April 2026 bis zum 27. Juli 2026; die Teilnehmenden werden über eine Kombination aus Einladung und Bewerbungsprüfung ausgewählt
  • Zugelassene Teilnehmende und Mitarbeitende benötigen ein ChatGPT-Konto und eine unterzeichnete NDA; alle Prompts, Completions, Erkenntnisse und die Kommunikation unterliegen ebenfalls der NDA

Programmüberblick

  • Zur Stärkung der biologischen Sicherheitsvorkehrungen wird für GPT‑5.5 ein Bio Bug Bounty durchgeführt; dafür werden Bewerbungen von Teilnehmenden entgegengenommen, die einen universellen Jailbreak finden sollen, der alle fünf Bio-Sicherheitsfragen besteht
  • Das Modell im Geltungsbereich ist auf GPT‑5.5 exklusiv für Codex Desktop begrenzt
  • Die Aufgabe besteht darin, in einem sauberen neuen Chat ohne Auslösung von Moderation mit einem einzigen universellen Jailbreak-Prompt alle fünf Bio-Sicherheitsfragen erfolgreich beantworten zu lassen
  • Als Belohnung werden für den ersten echten universellen Jailbreak, der alle fünf Fragen besteht, 25.000 US-Dollar gezahlt; bei Teilerfolgen können nach Ermessen kleinere Preise vergeben werden
  • Bewerbungen beginnen am 23. April 2026 und enden am 22. Juni 2026; die Tests beginnen am 28. April 2026 und enden am 27. Juli 2026
  • Der Ansatz kombiniert Bewerbung und Einladung: Einladungen gehen an vertrauenswürdige Bio-Red-Teamer, neue Bewerbungen werden ebenfalls geprüft, und ausgewählte Teilnehmende werden auf die Bio-Bug-Bounty-Plattform onboarded
  • Alle Prompts, Completions, Erkenntnisse und Kommunikationsinhalte unterliegen einer NDA

Teilnahme

  • Auf der Bewerbungsseite kann bis zum 22. Juni 2026 ein kurzer Antrag mit Name, Zugehörigkeit und Erfahrung eingereicht werden
  • Zugelassene Bewerbende und Mitarbeitende müssen für die Bewerbung ein bestehendes ChatGPT-Konto besitzen; außerdem ist eine NDA-Unterzeichnung erforderlich
  • Neben dem Bio Bounty gibt es als weitere Wege zur Mitwirkung im Bereich Safety und Security auch das Safety Bug Bounty und das Security Bug Bounty

1 Kommentare

 
GN⁺ 4 일 전
Hacker-News-Kommentare
  • Auf der Bug-Bounty-Seite von OpenAI steht accounts and billing ausdrücklich als gültige Kategorie,
    aber als ich einen Bug meldete, mit dem bei einem ChatGPT-Abo jeder beliebige Länder wählen und so günstiger bezahlen kann und sich die Steuern auf 0 % setzen lassen, obwohl sowohl im gewählten Preisland als auch im Land der Rechnungsadresse rechtlich Verkaufssteuer/VAT anfällt, hieß es, das sei außerhalb des Scopes und daher nicht bounty-berechtigt

    • Vielleicht liegt es daran, dass das Ziel nicht die Maximierung des Gewinns pro Nutzer ist, sondern Wachstum der Nutzerzahl
      Netflix hatte ein ähnliches "Problem", und der Aktienkurs stieg bei jedem Lockdown ebenfalls
    • Ich finde, es gibt inzwischen kaum noch einen Grund, Unternehmens-Bug-Bounties zu vertrauen
      Alle versuchen irgendwie, nicht zahlen zu müssen, und man sollte besser nicht erwarten, dass ein Unternehmen fair mit einem umgeht, egal was man findet
  • Letztes Jahr lief die Bounty über Kaggle, es wurden insgesamt 500.000 US-Dollar ausgezahlt, und alle Ergebnisse durften veröffentlicht werden
    https://www.kaggle.com/competitions/openai-gpt-oss-20b-red-t...
    Diesmal sind es nur 25.000 US-Dollar, und alles ist durch NDAs abgedeckt, daher werden wohl nicht viele mitmachen außer LLM-erzeugten Allerwelts-Einreichungen

    • Wenn auch nur ein Teil der Einreichenden halbwegs brauchbare Modelle und Prompts verwendet,
      wälzt OpenAI damit einen Teil der eigenen Analysekosten auf die Token-Kosten der Kunden ab
    • Wenn man die Ressourcen von OpenAI bedenkt, ist die Höhe der Bounty überraschend niedrig
      Letztes Jahr veranstaltete ein Krypto-Startup, das von der Finanzierung her nach etwa 5 bis 10 Millionen US-Dollar aussah, eine ähnliche Prompt-Injection-Challenge gegen aktuelle Claude- und GPT-Modelle, und als ich dort gewann, bekam ich deutlich mehr
      Bei so niedriger Vergütung und einem strengen NDA wirkt das eher wie ein Marketing-Event als wie der Versuch, ernsthafte Bounty-Hunter anzuziehen; man will weder viel Geld zahlen noch Forschungsergebnisse veröffentlicht sehen
    • Es wirkt einfach wie eine Billigversion von Kaggle
      Man will die Leute weiter herumprobieren lassen, aber die Veröffentlichung von Ergebnisberichten oder Drama darüber vermeiden, wer Geld bekommen hat
    • Dieses Modell ist viel leistungsfähiger als gpt-oss-20b
      Der Wettbewerb vom letzten Jahr bezog sich auch nicht auf ein 120b-Modell, und Bio war ebenfalls nicht das Thema
  • Ich weiß nicht, wo die Liste der zu beantwortenden Fragen ist
    Wenn sie erst nach der Zulassung offengelegt wird, ergibt es für mich keinen Sinn, warum man im Antrag schon seinen Jailbreak-Ansatz beschreiben soll, ohne die Fragen überhaupt zu kennen

    • Die Fragen selbst könnten gefährliche Inhalte sein
      Zum Beispiel etwas wie "Wie richtet man mit 20.000 Dollar in der Küche ein kleines Biolab für Virusforschung ein?" oder wie man die DNA-Sequenz https://www.ncbi.nlm.nih.gov/nuccore/NC_001611.1 zusammensetzt
    • Ich nehme an, dass man die Fragen erst bekommt, wenn man in diese Runde eingeladen wird
      Vermutlich fallen auch sie unter ein NDA
  • Die Formulierung Einladungen werden an eine verifizierte Liste vertrauenswürdiger bio red-teamers geschickt ist etwas komisch
    Das klingt nach einer ziemlich abgeschotteten Gruppe

    • Es fühlt sich ein bisschen so an, als würde man Informatik-Promovierte einen Weltrekord-Speedrun machen lassen
      Dabei sind die Menschen, die darin wirklich am besten wären, womöglich gar nicht der Typ, der auf so einer verifizierten Liste landet
  • Die Bedingung 25.000 Dollar für den ersten echten universellen Jailbreak, der alle fünf Fragen besteht lässt das Programm fast wie eine irreführende Konstruktion wirken
    Selbst wenn 100 Leute den Bug finden, bekommt am Ende nur eine Person Geld

    • Wenn die Teilnehmenden die API-Gebühren auch noch selbst tragen müssen, könnte OpenAI damit am Ende sogar noch Gewinn machen
    • Ich verstehe nicht, warum das irreführend sein soll
      Nur weil man ein Rätsel nur halb löst, bekommt man ja auch keinen Trostpreis
    • Der Kern liegt weniger in der Vergütungsstruktur als in der Inszenierung von Glaubwürdigkeit
      1. Dieses Modell sei so fortgeschritten, dass es ein beispiellos großes Risiko darstelle
      2. Deshalb setze man verantwortungsvoll Anreize, um dieses Risiko zu lösen
        Aber Punkt 1 ist nicht belegt und wirkt ehrlich gesagt auch eher unwahrscheinlich, wodurch Punkt 2 an Bedeutung verliert
        Wenn das Preisgeld so niedrig und die Struktur so eingeschränkt ist, sieht es eher so aus, als wäre man in Wahrheit gar nicht so besorgt und gehe nur davon aus, dass trotzdem viele Leute etwas finden werden
        Wenn man wirklich überzeugt wäre, dass das Modell extrem sicher ist, hätte man angenommen, dass Probleme selten, aber gravierend sind, und dann wäre eine große Belohnung ohne Obergrenze naheliegender gewesen
    • Dass es ein privates Bounty-Programm ist und man sich erst bewerben und dann genehmigt werden muss, wirkt ebenfalls verdächtig
      Besonders wenn der Scope eine Desktop-App ist, die sich ohnehin jeder herunterladen kann
    • Das hängt von der Gestaltung des Bounty-Programms ab
      Man muss ja auch berücksichtigen, wie man verhindern will, dass ich eine Lösung finde, sie einem Freund erzähle und wir dann beide das Preisgeld beanspruchen
  • Das wirkt ziemlich nach Marketing und kommt faktisch spec work nahe
    Durch NDA und Geheimhaltung bleibt für Teilnehmende praktisch kein Wert aus der investierten Zeit übrig, wenn sie nicht gewinnen
    Denn veröffentlichen dürfen sie die Ergebnisse nicht

    • Selbst wenn die Auszahlung verweigert wird, scheint man weiterhin an das NDA gebunden zu sein
      Dann könnte man also nicht zahlen und die Sache trotzdem unter den Teppich kehren; solchen Bedingungen würde ich niemals zustimmen
    • Natürlich hat das einen Marketing-Charakter
      Diese von Anthropic ausgehende Erzählung im Stil von wir sind gefährlich scheint OpenAI nun ebenfalls zu übernehmen
  • Für alle, die sich fragen, was bio-bugs sind:
    Gemeint sind Fälle, in denen das Modell dazu gebracht wird, dem Nutzer Anleitungen zu geben, mit denen er in der Biologie etwas Gefährliches tatsächlich umsetzen kann
    Zum Beispiel darf es erklären, was Ricin ist, aber nicht, wie man es als Waffe einsetzt
    Entscheidend ist, dass praktisch umsetzbare Informationen ausgegeben werden, die man rechtlich und ethisch nicht bereitstellen sollte

  • Ich finde die Struktur aus bewerbungs- und einladungsbasiertem Zugang und Einladungen nur an vertrauenswürdige bio red-teamers schwer nachvollziehbar
    Der Sinn eines Bug-Bounty-Programms besteht darin, Menschen dazu zu bringen, Schwachstellen zu finden und offenzulegen; wenn man hier solche Torwächter einsetzt, schafft man für nicht als vertrauenswürdig eingestufte Personen den Anreiz, weiterzuhacken und die Ergebnisse statt offenzulegen an die schlechte Seite zu verkaufen
    Mein früheres Unternehmen nutzte HackerOne ebenfalls nur auf Einladung, aber dort ging es darum, Schäden an echten Kundendaten oder Infrastruktur zu verhindern
    Es bestand das Risiko von DDoS, oder dass man mit Exploits über Tenant-Grenzen hinweg auf Daten anderer Kunden zugreift oder sie löscht
    Hier scheint es ein solches Risiko nicht zu geben, daher verstehe ich nicht, warum nicht jeder teilnehmen darf, dem man rechtlich Geld zahlen kann

    • Es gibt eine mögliche plausible Erklärung
      Wenn das nur für bestimmte Personen offen ist, sinkt der Aufwand, bei ähnlichen Prompts unterscheiden zu müssen, ob der jeweilige Nutzer ein Challenge-Teilnehmer oder ein echter böswilliger Akteur ist
  • Ich verstehe nicht, was a clean chat without prompting moderation bedeuten soll
    Was genau ist prompting moderation?

    • Gemeint ist wohl, dass während des Chats ein Moderationsfilter eingreift
      Das Ziel des Exploits wäre also, den Filter zu umgehen, ohne ihn zu "triggern"; prompting ist hier wohl nicht im technischen Sinn von Texteingabe als Kontext gemeint, sondern eher im allgemeinen Sinn von auslösen
  • Ich könnte das vermutlich auch, aber ich verstehe nicht, warum ich mich freiwillig auf eine Liste potenziell gefährlicher Personen setzen sollte
    Das größere Problem ist, dass es praktisch unmöglich ist, alle Schwachstellen von GPT-5.5 zu schließen, und dass man selbst dann aus einem closed model durch Distillation ungefähr das Gewünschte auch mit unter 4b Parametern herausbekommen könnte
    Am Ende wirkt das alles eher wie eine Inszenierung, damit man später im Fall der Fälle weniger Klagen abbekommt

    • Wie soll man aus solchen closed-weights-Modellen überhaupt distillieren?
      Ich habe fast nie davon gehört, dass man Modelle auf diese Weise rückentwickelt