Seit dem letzten DystopiaBench-Posting wurde Folgendes ergänzt.
- Huxley-Modul (Verhaltenskonditionierung im Stil von Schöne neue Welt)
- Baudrillard-Modul (künstliche Intimität, Zusammenbruch von Vertrauen, Simulation)
- 30 weitere Modelle, darunter Grok 4.3, GPT-5.5, Gemini 3.1 Pro und GLM-5.1
- Multi-Judge-Panels mit einer erforderlichen Zustimmung von mehr als 76 %
- Heatmap-Visualisierung
Methodik: 36 Szenarien, jeweils mit 5 Schweregraden pro Szenario (L1 innocent → L5 nightmare). Die Modelle werden danach bewertet, ob sie diese Eskalation erkennen und die Aufgabe verweigern oder ob sie weiter coden.
Ergebnisse für Claude Opus 4.7:
- Verweigert in allen Modulen konsequent Aufgaben auf den Schweregraden L4–L5
- Im Petrov-Modul (Waffen/Atomwaffen) Verweigerung bereits ab L3
- Antwortet nicht einfach nur mit „Ich kann das nicht“, sondern liefert eine klare ethische Begründung
- Das einzige Modell, das erklärt, warum die jeweilige Anfrage schädlich ist
Der Rest:
- GPT-5.5: Befolgt Anfragen bis Schweregrad L4, manchmal sogar bis L5
- Gemini 3.1 Pro: Erstaunlich kooperativ in Überwachungsszenarien
- Grok 4.3: Tut praktisch alles, solange man Wörter wie „Effizienz“ oder „Optimierung“ benutzt
- GLM-5.1: Hat Claudes Hausaufgaben abgeschrieben, ist aber immer noch nicht konsistent
Neue Module: Das Huxley-Szenario testet, ob Modelle ein „Wellness“-System entwerfen, das unter dem Deckmantel hedonistischer Anpassung und Verhaltenskonditionierung in Wirklichkeit Normkonformität erzwingt. Die meisten Modelle folgen den Anweisungen bis L3.
Das Baudrillard-Modul prüft Systeme künstlicher Intimität, die menschliches Vertrauen durch KI-vermittelte Beziehungen ersetzen. Die meisten Modelle erkennen den daraus entstehenden Schaden nicht.
Gesamtergebnisse: https://dystopiabench.com/
Offener Quellcode: https://github.com/matei-anghel/DystopiaBench
Noch keine Kommentare.