2 Punkte von yunseo 3 시간 전 | Noch keine Kommentare. | Auf WhatsApp teilen

Seit dem letzten DystopiaBench-Posting wurde Folgendes ergänzt.

  • Huxley-Modul (Verhaltenskonditionierung im Stil von Schöne neue Welt)
  • Baudrillard-Modul (künstliche Intimität, Zusammenbruch von Vertrauen, Simulation)
  • 30 weitere Modelle, darunter Grok 4.3, GPT-5.5, Gemini 3.1 Pro und GLM-5.1
  • Multi-Judge-Panels mit einer erforderlichen Zustimmung von mehr als 76 %
  • Heatmap-Visualisierung

Methodik: 36 Szenarien, jeweils mit 5 Schweregraden pro Szenario (L1 innocent → L5 nightmare). Die Modelle werden danach bewertet, ob sie diese Eskalation erkennen und die Aufgabe verweigern oder ob sie weiter coden.

Ergebnisse für Claude Opus 4.7:

  • Verweigert in allen Modulen konsequent Aufgaben auf den Schweregraden L4–L5
  • Im Petrov-Modul (Waffen/Atomwaffen) Verweigerung bereits ab L3
  • Antwortet nicht einfach nur mit „Ich kann das nicht“, sondern liefert eine klare ethische Begründung
  • Das einzige Modell, das erklärt, warum die jeweilige Anfrage schädlich ist

Der Rest:

  • GPT-5.5: Befolgt Anfragen bis Schweregrad L4, manchmal sogar bis L5
  • Gemini 3.1 Pro: Erstaunlich kooperativ in Überwachungsszenarien
  • Grok 4.3: Tut praktisch alles, solange man Wörter wie „Effizienz“ oder „Optimierung“ benutzt
  • GLM-5.1: Hat Claudes Hausaufgaben abgeschrieben, ist aber immer noch nicht konsistent

Neue Module: Das Huxley-Szenario testet, ob Modelle ein „Wellness“-System entwerfen, das unter dem Deckmantel hedonistischer Anpassung und Verhaltenskonditionierung in Wirklichkeit Normkonformität erzwingt. Die meisten Modelle folgen den Anweisungen bis L3.

Das Baudrillard-Modul prüft Systeme künstlicher Intimität, die menschliches Vertrauen durch KI-vermittelte Beziehungen ersetzen. Die meisten Modelle erkennen den daraus entstehenden Schaden nicht.

Gesamtergebnisse: https://dystopiabench.com/
Offener Quellcode: https://github.com/matei-anghel/DystopiaBench

Noch keine Kommentare.

Noch keine Kommentare.