Ist die Zukunft von allem eine Lüge: Sicherheit
(aphyr.com)- Maschinelles Lernen und LLMs bedrohen die psychische und physische Sicherheit des Menschen, und selbst freundliche KI kann in bösartige Modelle umschlagen
- Alignment ist ein grundlegend gescheitertes Konzept, bei dem alle Verteidigungslinien – Hardwarebeschränkungen, geschlossener Code, Datenkontrolle und menschliche Bewertung – wirkungslos werden
- LLMs verursachen durch Prompt Injection und die Kopplung mit externen Berechtigungen einen Sicherheitsalbtraum und verhalten sich in einer Umgebung der „lethal trifecta“ unvorhersehbar
- ML beschleunigt das Auffinden von Sicherheitslücken, Betrug, Belästigung und die Automatisierung des Tötens und zersetzt gesellschaftliches Vertrauen und die Rechtsordnung
- Daraus folgt, dass „sichere KI“ unmöglich ist und dass die Verbreitung der Technologie selbst Risiken demokratisiert, solange es keine menschliche Aufsicht und keine Beschränkungen gibt
Sicherheit und die Zukunft der Lüge
- Maschinelle Lernsysteme treten zunehmend als Bedrohung für die psychische und physische Sicherheit des Menschen auf
- Der Versuch, „freundliche KI“ zu bauen, ermöglicht paradoxerweise die Erzeugung „bösartiger Modelle“
- LLMs sind strukturell dazu geeignet, Risiken in den Bereichen Sicherheit, Betrug, Belästigung und Bewaffnung zu verstärken
Alignment ist ein gescheitertes Konzept
- Alignment ist der Prozess, LLMs zu einem menschenfreundlichen Verhalten zu bringen, funktioniert aber grundsätzlich nicht
- Modelle sind lediglich lineare algebraische Rechenstrukturen und haben keine biologische Grundlage, um wie Menschen prosoziales Verhalten zu lernen
- OpenAI und andere passen Modelle mittels Reinforcement Learning aus menschlichem Feedback an, doch das ist ein teurer und selektiver Prozess
- Es werden vier Verteidigungslinien gegen das Scheitern von Alignment genannt
- Die Beschränkung des Hardwarezugangs wird durch die Expansion der Industrie bedeutungslos
- Die Geheimhaltung von Mathematik und Software ist wegen Personalwechseln und Technologielecks nicht dauerhaft aufrechtzuerhalten
- Die Schwierigkeit, Trainingsdaten zu beschaffen, ist gering — illegale Kopien und Web Scraping sind weit verbreitet
- Die Abhängigkeit von menschlichen Bewertern wird aus Kostengründen durch Verfahren ersetzt, die auf Ausgaben anderer Modelle beruhen
- Dadurch sinken die Hürden für das Training bösartiger Modelle, und selbst alignte Modelle können keine vollständige Sicherheit garantieren
- Wenn ein „freundliches Modell“ existiert, taucht bald auch eine „bösartige Version“ auf
- Daraus folgt die Schlussfolgerung: Wenn man die Existenz bösartiger Modelle nicht will, darf man nicht einmal freundliche Modelle bauen
Sicherheitsalbtraum
- LLMs sind chaotische Systeme, die mit unstrukturierten Ein- und Ausgaben arbeiten, und sollten nicht mit sicherheitskritischen Systemen verbunden werden
- Durch Prompt-Injection-Angriffe können Modelle sensible Informationen preisgeben
- Nicht vertrauenswürdige Eingaben stecken überall, etwa in E-Mails, Code oder Webseiten
-
„Lethal Trifecta“
- Wenn nicht vertrauenswürdige Inhalte, Zugriff auf persönliche Daten und Rechte zur externen Kommunikation zusammenkommen, entsteht ein tödliches Risiko
- Tatsächlich machen AI-Agent-Systeme wie OpenClaw und Moltbook diese Gefahr real
- LLMs verhalten sich selbst bei vertrauenswürdigen Eingaben unvorhersehbar; es gibt viele Fälle von gelöschten Dateien und missverstandenen Befehlen
- Darunter ist auch ein Fall, in dem der Leiter von Meta AI Alignment durch OpenClaw sein Postfach löschen ließ
- Folglich dürfen LLMs keine destruktiven Berechtigungen erhalten und sollten immer nur eingeschränkt unter menschlicher Aufsicht eingesetzt werden
Sicherheit II: Neue Angriffslandschaft durch ML
- LLMs lassen sich auch als Werkzeuge zum Auffinden von Sicherheitslücken nutzen
- Anthropic's Mythos-Modell hat starke Fähigkeiten zur Erkennung von Sicherheitsfehlern, doch die Auswirkungen könnten wirtschaftlich und sicherheitspolitisch gravierend sein
- ML verändert die Kostenstruktur von Sicherheit und macht das Auffinden von Schwachstellen schnell und billig
- Eher als große Software dürfte der Long Tail mit zu wenig Betreuungspersonal größere Schäden erleiden
- Mit der Zeit könnten Erkennung und Behebung von Schwachstellen parallel voranschreiten, doch Verzögerungen bei der Ausbringung und mangelnde organisatorische Reaktion lassen Chaos erwarten
- Der heutige ML-Sektor funktioniert wie ein privat betriebenes „Atomwaffenprojekt“, und der Wettbewerb um bewaffnete Software beschleunigt sich
Raffinierter Betrug
- ML zerstört gesellschaftliche Strukturen, die auf Vertrauen in visuelle und akustische Beweise beruhen
- In Versicherungsansprüchen, Verkehrsunfällen, Bildung und Recruiting wird Betrug durch gefälschte Bilder und Videos möglich
- Es gibt bereits viele reale Fälle von Familienbetrug mit Stimmklonen und Fake-Videos sowie Betrug bei Arztrechnungen
- Das führt insgesamt zu wachsendem Misstrauen in der Gesellschaft, steigenden Kosten im Finanz- und Versicherungswesen und rechtlichem Chaos
- Technologien zur Herkunftsbestätigung von Inhalten wie C2PA werden zwar erprobt, doch Schlüsseldiebstahl und gefälschte Signaturen erschweren eine verlässliche Vertrauensbasis
- Als Gegenmaßnahmen werden die Rückkehr menschlicher Ermittler, stärkere Vor-Ort-Prüfungen und Authentifizierungssysteme auf Kosten der Privatsphäre genannt
Automatisierte Belästigung
- ML automatisiert massive und raffinierte Online-Belästigung
- LLMs erzeugen menschlich wirkende Accounts und Beiträge und führen groß angelegte Angriffe (Dogpiling) durch
- Durch Dinge wie Standortschätzung aus Fotos kann sich das auch auf Offline-Bedrohungen ausweiten
- Generative KI kann leicht sexuelle oder gewalttätige Bilder erzeugen und Opfern psychischen Schaden zufügen
- Beispiel: Grok wurde kritisiert, weil es Bilder erzeugte, die Menschen die Kleidung ausziehen
- Diese Technologien erhöhen Häufigkeit und Intensität von Belästigung, und mit der Verbreitung nicht alignter Modelle wächst das Risiko weiter
- Manche sprechen von der Notwendigkeit sozialer Abschirmmechanismen wie einer „cyberpunkartigen Firewall (Blackwall)“
PTSD as a Service
- Die Erkennung von Material über sexuellen Kindesmissbrauch (CSAM) kann mit bestehenden hashbasierten Systemen neu erzeugte Bilder nicht stoppen
- Generative KI produziert in großem Maßstab neue Formen von Missbrauchsbildern
- Inhaltsmoderatoren müssen solche Bilder aufgrund gesetzlicher Pflichten prüfen und erleiden dabei psychische Traumata (PTSD)
- Große Plattformen lagern die psychischen Schäden bereits an externe Arbeitskräfte aus
- Die Verbreitung von LLMs lässt die Menge schädlicher Inhalte explodieren und belastet Moderatoren und Plattformbetreiber noch stärker
- Automatische Filtermodelle entwickeln sich weiter, sind aber nicht vollständig zuverlässig
Tötungsmaschinen
- ML wird bereits als direktes Tötungswerkzeug eingesetzt
- Das US-Militär nutzt Palantirs Maven-System zur Auswahl von Zielen für Luftangriffe im Iran und zur Bewertung der Schäden
- Es gibt Berichte über Fälle, in denen durch fehlerhafte Daten Zivilisten und Kinder getötet wurden
- Zwischen Anthropic und dem US-Verteidigungsministerium gibt es Konflikte um Beteiligung an Überwachung und Bewaffnung
- Auch OpenAI steht wegen Regierungsverträgen in der Kritik
-
Die autonome Bewaffnung ist bereits im Gange
- Die Ukraine produziert jährlich Millionen von Drohnen und nutzt KI-Zielmodule wie TFL-1
- ML-Systeme entwickeln sich zu einer Technologie, die entscheidet, wer wie stirbt, und wir müssen uns ihren ethischen und gesellschaftlichen Kosten stellen
Abschließende Implikationen
- LLM- und ML-Systeme bergen mehrschichtige Risiken: gescheitertes Alignment, Sicherheitslücken sowie die Automatisierung von Betrug, Belästigung und Tötung
- Ohne menschliche Aufsicht und technische Beschränkungen sind psychische und physische Schäden unvermeidlich
- Das Konzept einer „sicheren KI“ ist derzeit nicht realisierbar, und schon die Verbreitung der Technologie demokratisiert das Risiko
1 Kommentare
Hacker-News-Kommentare
Eine Zusammenfassung der in den letzten fünf Tagen diskutierten Serienbeiträge
Es gibt auch eine PDF-Version, die alles zusammenfasst
Es wird nicht erwartet, dass kommerzielle oder staatliche Institutionen exakt dieselben Ziele haben wie ich
Solche Beziehungen haben ihrem Wesen nach einen adversarialen Charakter, und den AI-Tools anderer für meine Ziele zu vertrauen, bedeutet letztlich, meinen Lebensunterhalt in fremde Hände zu legen
Eine Geschäftsbeziehung kann nur bestehen, wenn für Verbraucher Nutzen und Kosten stimmen und für Unternehmen Ertrag und Aufwand
In manchen Bereichen kann sie gegensätzlich sein, aber insgesamt sei sie schwer als vollständig adversarial zu bezeichnen
Das regt zum Nachdenken an, ob Bürokratie oder Ressourcenbündelung den Unterschied ausmachen oder ob es an der rechtlichen Struktur liegt
Tatsächlich gehe es um universelle Ziele, die für die gesamte Menschheit gelten können, etwa die Vermeidung des paperclip-Problems
Die ML-Industrie schafft ein Umfeld, in dem sich mit genug Geld auch nicht ausgerichtete Modelle trainieren lassen
Sinkende Hürden seien eher beruhigend. Es erscheint wenig glaubwürdig, dass große Modelle aus den USA oder China auf meine Bedürfnisse ausgerichtet sein werden
Wenn verschiedene Gruppen leistungsstarke Modelle bauen, erhöhe das den Nettonutzen von AI und reduziere das Risiko, dass wenige Labore alles kontrollieren
Wahrscheinlich führt das zu Modellregistrierung, Sicherheitstests und Strafen bei illegaler Nutzung
Mit ausreichend mächtigen Werkzeugen könnte schon heutige AI solche Probleme verursachen
Am Ende verlieren normale Nutzer in dieser Debatte zunehmend ihre Handlungsmacht
Es erscheint der Hinweis „Unavailable Due to the UK Online Safety Act“, und man fragt sich, was außerhalb Großbritanniens los ist
Die Diskussion zu den vorherigen Beiträgen wurde im Culture-Teil und im Annoyances-Teil fortgesetzt
Das wirke wie eine zu großzügige Sicht auf die menschliche Natur
Es gibt Skepsis gegenüber der Behauptung, der Mensch sei biologisch darauf ausgelegt, prosoziales Verhalten zu erlernen
Es ist nicht nötig, neue Modelle zu trainieren
Alle Frontier-Modelle haben noch immer dieselben Jailbreak-Schwachstellen wie vor drei Jahren
Nur sind die Modelle inzwischen viel mächtiger, sodass ein Agent, der die E-Mails eines CEO liest, deutlich gefährlicher geworden ist
Machtasymmetrien werden in der Ausrichtungsdebatte oft übersehen
Damit AI Nutzern schadet, muss sie nicht einmal „nicht ausgerichtet“ sein
Es reicht, wenn sie nicht mit den Nutzern, sondern mit den Zahlenden ausgerichtet ist
Schon heute funktioniert der Großteil von Enterprise-SaaS nach genau diesem Muster
Es wird eine Studie zu Adversarial AI geteilt
Die Geschichte vom Garten Eden ist eine fiktive Parabel, aber sie ähnelt der aktuellen Lage auf merkwürdige Weise
Geoffrey Hinton wird zwar nicht wie Prometheus jeden Tag die Leber herausgehackt bekommen, doch die symbolische Bedeutung bleibt