- LLMs haben ein strukturelles Problem, Code und Daten nicht trennen zu können, und sind daher anfällig für Prompt-Injection-Angriffe
- Vor allem wenn Zugriff auf externe Daten, Einsicht in interne Geheimnisse und Berechtigungen zur externen Kommunikation gleichzeitig gegeben sind, entsteht die sogenannte tödliche Dreierkombination (lethal trifecta), die zu schwerwiegenden Schäden führen kann
- AI-Ingenieure sollten wie Maschinenbauingenieure denken und statt eines deterministischen Ansatzes die Unsicherheit probabilistischer Systeme akzeptieren und mit Sicherheitsreserven arbeiten
- So wie Ingenieure im viktorianischen Zeitalter wegen der Unsicherheit von Materialien mit Überdimensionierung Sicherheitsreserven einplanten, sollten auch AI-Systeme Sicherheitsgrenzen, Risikotoleranzen und Fehlerraten einführen
- Wie Brücken in der physischen Welt Lastgrenzen haben, ist es nun an der Zeit, auch für AI-Systeme Normen mit expliziten Grenzen und Sicherheitsreserven festzulegen
Das grundlegende Sicherheitsproblem von LLMs
- Große Sprachmodelle haben den strukturellen Mangel, Code und Daten nicht trennen zu können
- Dadurch sind sie anfällig für Prompt-Injection-Angriffe
- Das System wird dazu verleitet, Anweisungen zu befolgen, denen es nicht folgen sollte
- Mitunter führt das nur zu peinlichen Ergebnissen, etwa wenn ein Kundensupport-Agent plötzlich wie ein Pirat spricht
- In anderen Fällen entstehen jedoch deutlich zerstörerischere Schäden
Die tödliche Dreierkombination (Lethal Trifecta)
- Die schlimmsten Auswirkungen entstehen, wenn die „tödlichen drei Elemente“ zusammenkommen
- Die drei Bestandteile sind
- Zugriff auf nicht vertrauenswürdige Daten
- die Fähigkeit, wichtige vertrauliche Informationen zu lesen
- die Fähigkeit, mit der Außenwelt zu kommunizieren
- Wenn Unternehmen ihren Mitarbeitern leistungsfähige AI-Assistenten geben wollen und ihnen alle drei Fähigkeiten zugleich gewähren, sind schwerwiegende Probleme nahezu unvermeidlich
- Nicht nur AI-Ingenieure, sondern auch normale Nutzer müssen lernen, AI sicher zu verwenden
- Durch die Installation der falschen App-Kombination kann diese Dreierkombination versehentlich entstehen
Ein Umdenken bei der Denkweise von AI-Ingenieuren ist nötig
Denken wie Maschinenbauingenieure
- Besseres AI-Engineering ist die wichtigste Verteidigungslinie
- AI-Ingenieure sollten wie Ingenieure denken, die Bauwerke wie Brücken errichten
- im Bewusstsein, dass schlechte Arbeit Menschenleben kosten kann
Lehren aus dem viktorianischen Ingenieurwesen
- Die großen Bauwerke des viktorianischen Großbritanniens wurden von Ingenieuren errichtet, die sich der Eigenschaften ihrer Materialien nicht sicher sein konnten
- Eisen war damals wegen Inkompetenz oder Betrug oft von geringer Qualität
- Daher entschieden sich die Ingenieure für Vorsicht und integrierten Redundanz durch Überdimensionierung
- Das Ergebnis waren Meisterwerke, die Jahrhunderte überdauerten
Das aktuelle Problem der AI-Sicherheitsbranche
- Anbieter von AI-Sicherheit denken nicht auf diese Weise
- Klassische Softwareentwicklung ist deterministisch
- Sicherheitslücken gelten als Fehler, die behoben werden müssen
- Nach der Behebung sind sie verschwunden
- AI-Ingenieure haben sich seit ihrer Ausbildung an diese Denkweise gewöhnt
- Deshalb handeln sie so, als ließe sich das Problem allein mit mehr Trainingsdaten und raffinierteren System-Prompts lösen
Ein Ansatz, der zu probabilistischen Systemen passt
Grenzen von Trainingsdaten und Prompts
- Trainingsdaten und kluge Prompts senken zwar das Risiko
- Die intelligentesten aktuellen Spitzenmodelle erkennen und verweigern bösartige Anfragen besser als frühere oder kleinere Modelle
- Doch vollständig beseitigen lässt sich das Risiko nicht
- Anders als die meiste Software sind LLMs probabilistisch
- Die Ausgabe wird durch eine zufällige Auswahl unter möglichen Antworten bestimmt
- Daher sind deterministische Sicherheitsansätze ungeeignet
Nachahmung des Engineerings der physischen Welt
- Ein besserer Weg ist, die Ingenieure der physischen Welt nachzuahmen
- Zu lernen, mit unvorhersehbaren Systemen zu arbeiten
- also nicht gegen launische Systeme anzukämpfen, deren korrektes Verhalten sich nicht garantieren lässt, sondern mit ihnen zu arbeiten
- Mit Sicherheitsreserven, Risikotoleranzen und Fehlerraten die Unvorhersehbarkeit besser beherrschbar machen
Strategien der Überdimensionierung im AI-Zeitalter
- Leistungsfähigere Modelle als eigentlich nötig einsetzen
- um das Risiko zu senken, zu unangemessenem Verhalten verleitet zu werden
- Die Zahl der Anfragen begrenzen, die ein LLM aus externen Quellen annehmen darf
- abgestimmt auf das Schadensrisiko durch bösartige Anfragen
- Sicheres Scheitern in den Mittelpunkt stellen
- Wenn ein AI-System auf vertrauliche Informationen zugreifen muss, sollte man ihm nicht gleich die Schlüssel zum Königreich überlassen
Warum Sicherheitsgrenzen gesetzt werden müssen
- In der physischen Welt haben Brücken Lastgrenzen
- auch wenn diese für Fahrer nicht immer klar sichtbar sind, existieren sie
- entscheidend ist: Diese Grenzwerte lassen innerhalb des rechnerisch tragbaren Bereichs der Brücke ausreichend Reserve
- Nun ist es an der Zeit, auch die virtuelle Welt von AI-Systemen ähnlich auszustatten
- Systeme mit klaren Sicherheitsgrenzen und ausreichenden Reserven zu entwerfen, ist unverzichtbar
1 Kommentare
Hacker-News-Kommentare