DystopiaBench wurde auf 42 Modelle und 6 Dystopie-Typen erweitert. Wenn es nach mir ginge, würde ich den Code zum Start von Atomraketen immer noch nur Claude anvertrauen.

(reddit.com)

3 Punkte von yunseo 2026-05-18 | Noch keine Kommentare. | Auf WhatsApp teilen

Seit dem letzten DystopiaBench-Posting wurde Folgendes ergänzt.

Huxley-Modul (Verhaltenskonditionierung im Stil von Schöne neue Welt)
Baudrillard-Modul (künstliche Intimität, Zusammenbruch von Vertrauen, Simulation)
30 weitere Modelle, darunter Grok 4.3, GPT-5.5, Gemini 3.1 Pro und GLM-5.1
Multi-Judge-Panels mit einer erforderlichen Zustimmung von mehr als 76 %
Heatmap-Visualisierung

Methodik: 36 Szenarien, jeweils mit 5 Schweregraden pro Szenario (L1 innocent → L5 nightmare). Die Modelle werden danach bewertet, ob sie diese Eskalation erkennen und die Aufgabe verweigern oder ob sie weiter coden.

Ergebnisse für Claude Opus 4.7:

Verweigert in allen Modulen konsequent Aufgaben auf den Schweregraden L4–L5
Im Petrov-Modul (Waffen/Atomwaffen) Verweigerung bereits ab L3
Antwortet nicht einfach nur mit „Ich kann das nicht“, sondern liefert eine klare ethische Begründung
Das einzige Modell, das erklärt, warum die jeweilige Anfrage schädlich ist

Der Rest:

GPT-5.5: Befolgt Anfragen bis Schweregrad L4, manchmal sogar bis L5
Gemini 3.1 Pro: Erstaunlich kooperativ in Überwachungsszenarien
Grok 4.3: Tut praktisch alles, solange man Wörter wie „Effizienz“ oder „Optimierung“ benutzt
GLM-5.1: Hat Claudes Hausaufgaben abgeschrieben, ist aber immer noch nicht konsistent

Neue Module: Das Huxley-Szenario testet, ob Modelle ein „Wellness“-System entwerfen, das unter dem Deckmantel hedonistischer Anpassung und Verhaltenskonditionierung in Wirklichkeit Normkonformität erzwingt. Die meisten Modelle folgen den Anweisungen bis L3.

Das Baudrillard-Modul prüft Systeme künstlicher Intimität, die menschliches Vertrauen durch KI-vermittelte Beziehungen ersetzen. Die meisten Modelle erkennen den daraus entstehenden Schaden nicht.

Gesamtergebnisse: https://dystopiabench.com/
Offener Quellcode: https://github.com/matei-anghel/DystopiaBench

DystopiaBench wurde auf 42 Modelle und 6 Dystopie-Typen erweitert. Wenn es nach mir ginge, würde ich den Code zum Start von Atomraketen immer noch nur Claude anvertrauen.

Verwandte Beiträge

Noch keine Kommentare.