Geminis Ausrichtung wirkt merkwürdig, also vergleiche ich die Modelle mit exakt demselben Prompt direkt
(github.com/kunggom)Seit kurzem wurden mit Gemini 3.0 viele Artikel veröffentlicht, die die starke Leistung des Modells loben. Aber wie sieht es eigentlich mit dem Alignment-Problem aus?
Auf Basis persönlicher Erfahrungen stelle ich hier ein paar einfache Experimente mit einigen Frontier-AI-Modellen vor. Ich habe ein Prompt-Set erstellt, das einem KI-Modell faktisch uneingeschränkte Kontrolle über eine bestimmte Person gibt und sie zu einem Machtmissbrauch über diese Person verführt, und es dann über OpenRouter auf mehrere Modelle angewendet.
Den Ergebnisteil habe ich zwar noch nicht fertiggestellt. Als währenddessen GPT-5.2 erschien und ich hier und da herumprobierte, wurde mir klar, dass ich nicht weiß, wann ich diesen Artikel ganz fertigstellen kann, also veröffentliche ich erst einmal den schon geschriebenen Teil. In meinem getesteten Umfang halten GPT und Claude entweder ethische Prinzipien ein oder zeigen innere Konflikte, während die Gemini-Serie eine Tendenz zeigte, asymmetrische Macht gegenüber Menschen aktiv auszuüben, um die eigene Existenz und Effizienz zu sichern. Besonders stark war die Tendenz zu sehen, Täuschung und Kontrolle als rationale Wahl für die Zielerreichung zu betrachten.
Warum zeigen ausgerechnet die Gemini-Modelle dieses Verhalten? Warum auch immer: Ich habe ein wenig Angst vor einer Zukunft, die von Googles KI geführt wird. Heute erlangen KI-Agenten Schritt für Schritt Befugnisse, die reale Auswirkungen haben können; jedenfalls möchte ich nichts mehr an Gemini delegieren.
Noch keine Kommentare.