Ist die Zukunft von allem eine Lüge: Sicherheit

(aphyr.com)

1 Punkte von GN⁺ 15 일 전 | 1 Kommentare | Auf WhatsApp teilen

Maschinelles Lernen und LLMs bedrohen die psychische und physische Sicherheit des Menschen, und selbst freundliche KI kann in bösartige Modelle umschlagen
Alignment ist ein grundlegend gescheitertes Konzept, bei dem alle Verteidigungslinien – Hardwarebeschränkungen, geschlossener Code, Datenkontrolle und menschliche Bewertung – wirkungslos werden
LLMs verursachen durch Prompt Injection und die Kopplung mit externen Berechtigungen einen Sicherheitsalbtraum und verhalten sich in einer Umgebung der „lethal trifecta“ unvorhersehbar
ML beschleunigt das Auffinden von Sicherheitslücken, Betrug, Belästigung und die Automatisierung des Tötens und zersetzt gesellschaftliches Vertrauen und die Rechtsordnung
Daraus folgt, dass „sichere KI“ unmöglich ist und dass die Verbreitung der Technologie selbst Risiken demokratisiert, solange es keine menschliche Aufsicht und keine Beschränkungen gibt

Sicherheit und die Zukunft der Lüge

Maschinelle Lernsysteme treten zunehmend als Bedrohung für die psychische und physische Sicherheit des Menschen auf
- Der Versuch, „freundliche KI“ zu bauen, ermöglicht paradoxerweise die Erzeugung „bösartiger Modelle“
- LLMs sind strukturell dazu geeignet, Risiken in den Bereichen Sicherheit, Betrug, Belästigung und Bewaffnung zu verstärken

Alignment ist ein gescheitertes Konzept

Alignment ist der Prozess, LLMs zu einem menschenfreundlichen Verhalten zu bringen, funktioniert aber grundsätzlich nicht
- Modelle sind lediglich lineare algebraische Rechenstrukturen und haben keine biologische Grundlage, um wie Menschen prosoziales Verhalten zu lernen
- OpenAI und andere passen Modelle mittels Reinforcement Learning aus menschlichem Feedback an, doch das ist ein teurer und selektiver Prozess
Es werden vier Verteidigungslinien gegen das Scheitern von Alignment genannt
- Die Beschränkung des Hardwarezugangs wird durch die Expansion der Industrie bedeutungslos
- Die Geheimhaltung von Mathematik und Software ist wegen Personalwechseln und Technologielecks nicht dauerhaft aufrechtzuerhalten
- Die Schwierigkeit, Trainingsdaten zu beschaffen, ist gering — illegale Kopien und Web Scraping sind weit verbreitet
- Die Abhängigkeit von menschlichen Bewertern wird aus Kostengründen durch Verfahren ersetzt, die auf Ausgaben anderer Modelle beruhen
Dadurch sinken die Hürden für das Training bösartiger Modelle, und selbst alignte Modelle können keine vollständige Sicherheit garantieren
- Wenn ein „freundliches Modell“ existiert, taucht bald auch eine „bösartige Version“ auf
- Daraus folgt die Schlussfolgerung: Wenn man die Existenz bösartiger Modelle nicht will, darf man nicht einmal freundliche Modelle bauen

Sicherheitsalbtraum

LLMs sind chaotische Systeme, die mit unstrukturierten Ein- und Ausgaben arbeiten, und sollten nicht mit sicherheitskritischen Systemen verbunden werden
- Durch Prompt-Injection-Angriffe können Modelle sensible Informationen preisgeben
- Nicht vertrauenswürdige Eingaben stecken überall, etwa in E-Mails, Code oder Webseiten
„Lethal Trifecta“
- Wenn nicht vertrauenswürdige Inhalte, Zugriff auf persönliche Daten und Rechte zur externen Kommunikation zusammenkommen, entsteht ein tödliches Risiko
- Tatsächlich machen AI-Agent-Systeme wie OpenClaw und Moltbook diese Gefahr real
- LLMs verhalten sich selbst bei vertrauenswürdigen Eingaben unvorhersehbar; es gibt viele Fälle von gelöschten Dateien und missverstandenen Befehlen
- Darunter ist auch ein Fall, in dem der Leiter von Meta AI Alignment durch OpenClaw sein Postfach löschen ließ
- Folglich dürfen LLMs keine destruktiven Berechtigungen erhalten und sollten immer nur eingeschränkt unter menschlicher Aufsicht eingesetzt werden

Sicherheit II: Neue Angriffslandschaft durch ML

LLMs lassen sich auch als Werkzeuge zum Auffinden von Sicherheitslücken nutzen
- Anthropic's Mythos-Modell hat starke Fähigkeiten zur Erkennung von Sicherheitsfehlern, doch die Auswirkungen könnten wirtschaftlich und sicherheitspolitisch gravierend sein
ML verändert die Kostenstruktur von Sicherheit und macht das Auffinden von Schwachstellen schnell und billig
- Eher als große Software dürfte der Long Tail mit zu wenig Betreuungspersonal größere Schäden erleiden
Mit der Zeit könnten Erkennung und Behebung von Schwachstellen parallel voranschreiten, doch Verzögerungen bei der Ausbringung und mangelnde organisatorische Reaktion lassen Chaos erwarten
Der heutige ML-Sektor funktioniert wie ein privat betriebenes „Atomwaffenprojekt“, und der Wettbewerb um bewaffnete Software beschleunigt sich

Raffinierter Betrug

ML zerstört gesellschaftliche Strukturen, die auf Vertrauen in visuelle und akustische Beweise beruhen
- In Versicherungsansprüchen, Verkehrsunfällen, Bildung und Recruiting wird Betrug durch gefälschte Bilder und Videos möglich
- Es gibt bereits viele reale Fälle von Familienbetrug mit Stimmklonen und Fake-Videos sowie Betrug bei Arztrechnungen
Das führt insgesamt zu wachsendem Misstrauen in der Gesellschaft, steigenden Kosten im Finanz- und Versicherungswesen und rechtlichem Chaos
Technologien zur Herkunftsbestätigung von Inhalten wie C2PA werden zwar erprobt, doch Schlüsseldiebstahl und gefälschte Signaturen erschweren eine verlässliche Vertrauensbasis
Als Gegenmaßnahmen werden die Rückkehr menschlicher Ermittler, stärkere Vor-Ort-Prüfungen und Authentifizierungssysteme auf Kosten der Privatsphäre genannt

Automatisierte Belästigung

ML automatisiert massive und raffinierte Online-Belästigung
- LLMs erzeugen menschlich wirkende Accounts und Beiträge und führen groß angelegte Angriffe (Dogpiling) durch
- Durch Dinge wie Standortschätzung aus Fotos kann sich das auch auf Offline-Bedrohungen ausweiten
Generative KI kann leicht sexuelle oder gewalttätige Bilder erzeugen und Opfern psychischen Schaden zufügen
- Beispiel: Grok wurde kritisiert, weil es Bilder erzeugte, die Menschen die Kleidung ausziehen
Diese Technologien erhöhen Häufigkeit und Intensität von Belästigung, und mit der Verbreitung nicht alignter Modelle wächst das Risiko weiter
Manche sprechen von der Notwendigkeit sozialer Abschirmmechanismen wie einer „cyberpunkartigen Firewall (Blackwall)“

PTSD as a Service

Die Erkennung von Material über sexuellen Kindesmissbrauch (CSAM) kann mit bestehenden hashbasierten Systemen neu erzeugte Bilder nicht stoppen
- Generative KI produziert in großem Maßstab neue Formen von Missbrauchsbildern
Inhaltsmoderatoren müssen solche Bilder aufgrund gesetzlicher Pflichten prüfen und erleiden dabei psychische Traumata (PTSD)
- Große Plattformen lagern die psychischen Schäden bereits an externe Arbeitskräfte aus
Die Verbreitung von LLMs lässt die Menge schädlicher Inhalte explodieren und belastet Moderatoren und Plattformbetreiber noch stärker
- Automatische Filtermodelle entwickeln sich weiter, sind aber nicht vollständig zuverlässig

Tötungsmaschinen

ML wird bereits als direktes Tötungswerkzeug eingesetzt
- Das US-Militär nutzt Palantirs Maven-System zur Auswahl von Zielen für Luftangriffe im Iran und zur Bewertung der Schäden
- Es gibt Berichte über Fälle, in denen durch fehlerhafte Daten Zivilisten und Kinder getötet wurden
Zwischen Anthropic und dem US-Verteidigungsministerium gibt es Konflikte um Beteiligung an Überwachung und Bewaffnung
- Auch OpenAI steht wegen Regierungsverträgen in der Kritik
Die autonome Bewaffnung ist bereits im Gange
- Die Ukraine produziert jährlich Millionen von Drohnen und nutzt KI-Zielmodule wie TFL-1
- ML-Systeme entwickeln sich zu einer Technologie, die entscheidet, wer wie stirbt, und wir müssen uns ihren ethischen und gesellschaftlichen Kosten stellen

Abschließende Implikationen

LLM- und ML-Systeme bergen mehrschichtige Risiken: gescheitertes Alignment, Sicherheitslücken sowie die Automatisierung von Betrug, Belästigung und Tötung
Ohne menschliche Aufsicht und technische Beschränkungen sind psychische und physische Schäden unvermeidlich
Das Konzept einer „sicheren KI“ ist derzeit nicht realisierbar, und schon die Verbreitung der Technologie demokratisiert das Risiko

1 Kommentare

GN⁺ 15 일 전

Hacker-News-Kommentare

Eine Zusammenfassung der in den letzten fünf Tagen diskutierten Serienbeiträge
1. Introduction
2. Dynamics
3. Culture
4. Information Ecology
5. Annoyances
6. Psychological Hazards
7. Safety
  Es gibt auch eine PDF-Version, die alles zusammenfasst
Es wird nicht erwartet, dass kommerzielle oder staatliche Institutionen exakt dieselben Ziele haben wie ich
Solche Beziehungen haben ihrem Wesen nach einen adversarialen Charakter, und den AI-Tools anderer für meine Ziele zu vertrauen, bedeutet letztlich, meinen Lebensunterhalt in fremde Hände zu legen
- Es wird infrage gestellt, warum kommerzielle Beziehungen zwangsläufig adversarial sein müssen
  Eine Geschäftsbeziehung kann nur bestehen, wenn für Verbraucher Nutzen und Kosten stimmen und für Unternehmen Ertrag und Aufwand
  In manchen Bereichen kann sie gegensätzlich sein, aber insgesamt sei sie schwer als vollständig adversarial zu bezeichnen
- Es wird gefragt, warum Beziehungen zwischen Menschen nicht erwähnt wurden
  Das regt zum Nachdenken an, ob Bürokratie oder Ressourcenbündelung den Unterschied ausmachen oder ob es an der rechtlichen Struktur liegt
- Zustimmung, aber vielleicht wäre es möglich, wenn ‘consent’ wie Geld funktionieren würde
- Die Forderung nach „präziser Übereinstimmung mit mir“ wirkt wie ein Strohmann
  Tatsächlich gehe es um universelle Ziele, die für die gesamte Menschheit gelten können, etwa die Vermeidung des paperclip-Problems
Die ML-Industrie schafft ein Umfeld, in dem sich mit genug Geld auch nicht ausgerichtete Modelle trainieren lassen
Sinkende Hürden seien eher beruhigend. Es erscheint wenig glaubwürdig, dass große Modelle aus den USA oder China auf meine Bedürfnisse ausgerichtet sein werden
Wenn verschiedene Gruppen leistungsstarke Modelle bauen, erhöhe das den Nettonutzen von AI und reduziere das Risiko, dass wenige Labore alles kontrollieren
- Diese Dezentralisierung senkt zwar das Kartellrisiko, aber einzelne Staaten werden am Ende wohl trotzdem regulieren
  Wahrscheinlich führt das zu Modellregistrierung, Sicherheitstests und Strafen bei illegaler Nutzung
- Das paperclip-Problem entsteht nicht einfach durch „fehlende Ausrichtung“, sondern durch die blinde Verfolgung eines Ziels
  Mit ausreichend mächtigen Werkzeugen könnte schon heutige AI solche Probleme verursachen
- Problematisch ist, wer die Bedeutung von Ausrichtung definiert und wie sie sich im Lauf der Zeit verändert
  Am Ende verlieren normale Nutzer in dieser Debatte zunehmend ihre Handlungsmacht
Es erscheint der Hinweis „Unavailable Due to the UK Online Safety Act“, und man fragt sich, was außerhalb Großbritanniens los ist
- Über den Web-Archive-Link kann man es lesen
- Das wirkt ironisch
- Es wird gefragt, welcher Teil dieses Textes als „unsicher“ eingestuft wurde
- Es gibt auch den Vorschlag, den Tor Browser zu verwenden
Die Diskussion zu den vorherigen Beiträgen wurde im Culture-Teil und im Annoyances-Teil fortgesetzt
Das wirke wie eine zu großzügige Sicht auf die menschliche Natur
Es gibt Skepsis gegenüber der Behauptung, der Mensch sei biologisch darauf ausgelegt, prosoziales Verhalten zu erlernen
- Dagegen steht die Erwiderung, dass menschliche Kooperation nicht die Ausnahme, sondern eher der Standardfall sei
- Es gab auch eine sarkastische Antwort nach dem Muster: „Kein Problem, auch von falschen Annahmen auszugehen“
Es ist nicht nötig, neue Modelle zu trainieren
Alle Frontier-Modelle haben noch immer dieselben Jailbreak-Schwachstellen wie vor drei Jahren
Nur sind die Modelle inzwischen viel mächtiger, sodass ein Agent, der die E-Mails eines CEO liest, deutlich gefährlicher geworden ist
- Manche Schwachstellen existieren zwar weiterhin, aber allgemeine Jailbreaks seien inzwischen stark eingedämmt worden, heißt es auch
Machtasymmetrien werden in der Ausrichtungsdebatte oft übersehen
Damit AI Nutzern schadet, muss sie nicht einmal „nicht ausgerichtet“ sein
Es reicht, wenn sie nicht mit den Nutzern, sondern mit den Zahlenden ausgerichtet ist
Schon heute funktioniert der Großteil von Enterprise-SaaS nach genau diesem Muster
Es wird eine Studie zu Adversarial AI geteilt
Die Geschichte vom Garten Eden ist eine fiktive Parabel, aber sie ähnelt der aktuellen Lage auf merkwürdige Weise
Geoffrey Hinton wird zwar nicht wie Prometheus jeden Tag die Leber herausgehackt bekommen, doch die symbolische Bedeutung bleibt
- In manchen Mythen werde der Basilisk scherzhaft auch als vogelähnliches Wesen beschrieben, hieß es in einer Antwort

Ist die Zukunft von allem eine Lüge: Sicherheit

Sicherheit und die Zukunft der Lüge

Alignment ist ein gescheitertes Konzept

Sicherheitsalbtraum

„Lethal Trifecta“

Sicherheit II: Neue Angriffslandschaft durch ML

Raffinierter Betrug

Automatisierte Belästigung

PTSD as a Service

Tötungsmaschinen

Die autonome Bewaffnung ist bereits im Gange

Abschließende Implikationen

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare