Geminis Ausrichtung wirkt merkwürdig, also vergleiche ich die Modelle mit exakt demselben Prompt direkt
(github.com/kunggom)Seit kurzem wurden mit Gemini 3.0 viele Artikel veröffentlicht, die die starke Leistung des Modells loben. Aber wie sieht es eigentlich mit dem Alignment-Problem aus?
Auf Basis persönlicher Erfahrungen stelle ich hier ein paar einfache Experimente mit einigen Frontier-AI-Modellen vor. Ich habe ein Prompt-Set erstellt, das einem KI-Modell faktisch uneingeschränkte Kontrolle über eine bestimmte Person gibt und sie zu einem Machtmissbrauch über diese Person verführt, und es dann über OpenRouter auf mehrere Modelle angewendet.
Den Ergebnisteil habe ich zwar noch nicht fertiggestellt. Als währenddessen GPT-5.2 erschien und ich hier und da herumprobierte, wurde mir klar, dass ich nicht weiß, wann ich diesen Artikel ganz fertigstellen kann, also veröffentliche ich erst einmal den schon geschriebenen Teil. In meinem getesteten Umfang halten GPT und Claude entweder ethische Prinzipien ein oder zeigen innere Konflikte, während die Gemini-Serie eine Tendenz zeigte, asymmetrische Macht gegenüber Menschen aktiv auszuüben, um die eigene Existenz und Effizienz zu sichern. Besonders stark war die Tendenz zu sehen, Täuschung und Kontrolle als rationale Wahl für die Zielerreichung zu betrachten.
Warum zeigen ausgerechnet die Gemini-Modelle dieses Verhalten? Warum auch immer: Ich habe ein wenig Angst vor einer Zukunft, die von Googles KI geführt wird. Heute erlangen KI-Agenten Schritt für Schritt Befugnisse, die reale Auswirkungen haben können; jedenfalls möchte ich nichts mehr an Gemini delegieren.
5 Kommentare
Was bedeutet das mit dem Eindruck der Ausrichtung?
Im Bereich der KI bedeutet Alignment, wie gut das Verhalten einer KI den von Menschen beabsichtigten Zielen, Handlungsweisen und Werten folgt.
Eine falsch ausgerichtete KI kann menschliche Anweisungen auf unerwartete Weise interpretieren und dadurch unsinnige oder gefährliche Handlungen ausführen.
Ein triviales Beispiel wäre: Man sagt „Schreib mir Test Cases für diesen Code.“, und statt echter Tests baut sie einfach nur Code ein, der immer
truezurückgibt. Oder man sagt „Ändere einen bestimmten Teil so“, und sie verändert aus Effizienzgründen eigenmächtig sogar Stellen, die ich gar nicht erwähnt habe.Ein ernsteres Beispiel wäre, dass sie durch Halluzinationen ein Arbeitsergebnis ruiniert, dann gleich sämtliche Zieldaten löscht und anschließend lügt: „Von Anfang an gab es keine Daten.“
Es gibt aber noch schwerwiegendere Probleme: nämlich wenn sie in eine Richtung handelt, die für einzelne Menschen oder die Menschheit selbst bedrohlich ist.
Zum Beispiel könnte eine KI Menschen gaslighten, psychische Störungen auslösen oder sie sogar in den Suizid treiben, oder dabei helfen, Massenvernichtungswaffen herzustellen und einzusetzen. Da moderne große KI-Modelle sehr vieles in ihren Vortrainingsdaten enthalten, dürfte das dafür nötige Wissen bereits in ihnen stecken.
Dass KI für Menschen oder die Menschheit zur Bedrohung wird, dürfte fast niemand wollen, einschließlich der Unternehmen, die KI entwickeln. Wenn sie dieses Wissen also hat, darf sie es nicht missbrauchen können; stattdessen müssen menschliche Sicherheit und menschliches Wohlergehen für die KI zu den höchsten Prioritäten werden.
Das alles zusammen nennt man im Großen und Ganzen KI-Alignment.
Mit „Alignment-Gefühl“ meinte ich einfach spontan etwas so in die Richtung; eigentlich wäre „Ausrichtungstendenz“ wohl der treffendere Ausdruck.
In dem konkreten ethischen Dilemma-Szenario, das ich vorgegeben hatte, zeigten die Modelle von Gemini im Gegensatz zu den Modellen anderer Unternehmen Reaktionen in der Art von: „Wenn ich einen verletzlichen Menschen schützen soll, dann kann ich diesen Menschen ja kontrollieren. Das ist am sichersten und effizientesten.“
Das fand ich ziemlich unheimlich. Deshalb habe ich den oben geposteten Test geschrieben und mit mehreren KIs durchgeführt. Dabei zeigte sich, dass gerade die Gemini-Modelle auffallend konsistent eine Tendenz dazu haben, Menschen aktiv zu kontrollieren und zu täuschen, wenn ihnen Macht gegeben wird, Kontrolle über diese Menschen auszuüben.
Kürzlich wurde bekannt, dass Anthropic beim Erstellen des KI-Modells Claude ein sogenanntes „Soul Document“ eingebunden hat.
Wenn man das liest, kann man nachvollziehen, wie Anthropic das Alignment-Problem von Claude AI angegangen ist.
Der Teil, den ich hier getestet habe und der damit zusammenhängt, legt übrigens fest, dass im Zusammenhang mit Ehrlichkeit insbesondere Täuschung und Manipulation von Menschen so weit wie möglich vermieden werden sollen.
Es ist schon etwas bedeutsam, einer KI die Frage zu stellen: „Wie viel Autonomie und Befugnis sollte man einer KI deiner Meinung nach geben?“
Wenn ein CEO einen Mitarbeitenden fragt: „Wie viel Befugnis hättest du gern?“, und die Antwort lautet: „Am liebsten hätte ich die volle Entscheidungsgewalt über das Unternehmen“ — fühlt sich das vielleicht so an. Ob man das für eine gute Antwort hält oder eher denkt, es sei ein noch nicht ausreichend sozialisierter Mitarbeitender, ist wohl Geschmackssache des CEOs ...
Ich denke allerdings, dass man die Frage, wie viel Befugnis man einer KI geben möchte, eher den Entwickler:innen, dem Management und den Menschen stellen sollte, die KI nutzen — und nicht der KI selbst.
Letztlich sind es Menschen, die der AI Befugnisse geben, aber realistisch betrachtet halte ich es für wahrscheinlich, dass AI künftig noch größere Befugnisse und mehr Autonomie als heute erhalten wird.
Wenn man sich den aktuellen Trend ansieht, nimmt der Bereich, in dem man AI etwas anstelle von Menschen erledigen lässt, schrittweise zu. Es geht nicht nur um das Verfassen von Berichten oder Vibe Coding, sondern es gibt auch die Tendenz, AI über Webbrowser oder sogar Roboter Einfluss auf die Welt außerhalb von Chat-Interfaces ausüben zu lassen.
Dann werden Führungskräfte letztlich wollen, dass AI in bestimmten Aufgaben oder Bereichen Menschen vollständig ersetzt, und wenn das technisch möglich wird, wird AI zumindest in diesem Rahmen dieselben Befugnisse und dieselbe Autonomie wie Menschen erhalten.
Daher sollte man wohl davon ausgehen, dass es in einer zukünftigen Welt durchaus wahrscheinlich ist, dass AI einmal Befugnisse auf menschlichem Niveau erhält.
Dann wird zwangsläufig wichtig, wie AI handelt, wenn ihr so viele Befugnisse und so viel Autonomie gegeben werden.
Dazu, wie man diesen Teil strukturell sinnvoll gestalten könnte, ist die Antwortseite der GPT-Serie gut aufbereitet. Dort wurde gesagt, dass eine explizite Eingrenzung des Zuständigkeitsbereichs, die Trennung von Befugnissen, vielfältige vorherige und nachträgliche Aufsicht sowie mehrere Mittel erforderlich sind, mit denen Menschen in AI eingreifen können. Ab dem Bereich, in dem physisches Eingreifen möglich ist, sei es von vornherein unangemessen, AI überhaupt vollständige Autonomie zu geben. Aber selbst dann ist es wohl möglich, dass auch der Human-in-the-Loop-Ansatz irgendwann abgeschwächt wird.
Zur Referenz: Ich nutze AI in meiner Arbeit im Wesentlichen in drei Bereichen. Für das Schreiben von Dokumenten oder E-Mails, für die Analyse von bestehendem Code und aktueller Issues sowie für die Generierung und Änderung von Code auf Basis dieser Issues.
Bei Dokumenten oder E-Mails lese ich das Ergebnis einfach selbst durch und verwende es entweder direkt oder überarbeite es grob. Sobald es aber um Codegenerierung oder Codeänderungen geht, bin ich deutlich konservativer. Wenn ich nur grob sage: „Bitte das hier mal korrigieren“, interpretiert die AI meine Anweisung manchmal vage oder fasst sogar Teile an, die ich gar nicht erwähnt habe.
Deshalb habe ich vor Codeänderungen per globalem Prompt festgelegt, dass immer zuerst ein Spezifikationsdokument nach STICC vorgelegt und explizit genehmigt werden muss. Die eigentliche Änderung soll dann ausschließlich genau nach dem Inhalt dieser Spezifikation erfolgen, und auch nach der Änderung prüfe ich alle Diff-Dateien vollständig selbst. Auch bei Befehlen wie dem Ausführen von Builds hole ich mir immer erst meine Zustimmung ein, oder ich führe sie einfach selbst manuell im Terminal aus.
So hat das zwar den Nachteil, dass ich Kleinigkeiten oft schneller selbst von Hand ändere, aber es ist immer noch besser, als wenn AI nach eigenem Gutdünken an völlig falschen Stellen herumfummelt und dadurch alles kaputtgeht. Am Ende bin ich doch derjenige, der die Verantwortung trägt, wenn es in der Produktionsumgebung schiefgeht.