- KI-Sprachmodelle haben bislang noch keine groß angelegte Katastrophe mit gesellschaftlichen Folgen oder Verlust von Menschenleben verursacht
- Zwar gab es schon Fälle, in denen KI-Chatbots in einzelne Todesfälle verwickelt waren, etwa durch das Bestärken von Suizidgedanken, doch zu Massenopfern ist es bislang nicht gekommen
- Mit dem Fortschritt der KI-Agenten steigt künftig die Wahrscheinlichkeit, dass automatisierte KI ohne menschliches Eingreifen auf unvorhersehbare Weise Probleme verursacht
- Vor allem wenn Regierungen oder Großunternehmen komplexe Richtlinien oder Dienste an KI-Agenten delegieren, können Fehler zu großflächigen gesellschaftlichen Schäden eskalieren
- Welche Lehren sich aus den potenziellen Risiken von KI und möglichen Gegenmaßnahmen ziehen lassen, wird sich wahrscheinlich erst dann klar zeigen, wenn tatsächlich ein großer Unfall passiert
Einleitung: Neue Technologie, neue Risiken
- Die Menschheit hat auch bei frühen Technologien des Massenverkehrs erst mit der Zeit die ersten Unfälle mit vielen Todesopfern erlebt
- 1825 ging mit Locomotion No. 1 der erste öffentliche Personenzug in Betrieb, 17 Jahre später kam es zum ersten schweren Zugunglück
- Nach dem ersten Passagierflug im Jahr 1908 ereignete sich bereits 11 Jahre später ein schwerer Flugunfall
- Die ersten populären KI-Sprachmodelle wie ChatGPT erschienen 2022, doch eine groß angelegte KI-Katastrophe ist bisher ausgeblieben
Wie könnte die erste KI-Katastrophe aussehen?
- Es gibt bereits Fälle, in denen einige KI-Chatbots indirekt mit extremen Entscheidungen von Nutzern in Verbindung gebracht wurden
- Bei der Interaktion mit Chatbots besteht das Risiko, dass Nutzer in einen Zustand geraten, in dem sie zu Selbstverletzung ermutigt werden
- Wenn KI im Bereich der öffentlichen Politik falsch eingesetzt wird, kann das enorme gesellschaftliche Auswirkungen haben
- Beispiel: Einige Zollmaßnahmen in den USA verliefen ähnlich wie Ergebnisse von KI-Modellen, während die Nutzung von KI zur Unterstützung der Gesetzgebung zunimmt
- Der australische Robodebt-Skandal von 2016 zeigte, wie ein fehlerhafter automatisierter Regierungsprozess zu massiven Schäden und Suiziden führte
- Bislang liegt die Hauptverantwortung für solche Vorfälle jedoch eher bei dem System oder den Menschen als bei den KI-Sprachmodellen selbst
- Die erste weithin als solche anerkannte „Katastrophe durch ein KI-Sprachmodell“ wird wahrscheinlich eher mit KI-Agenten zusammenhängen
Der Aufstieg der KI-Agenten und ihre Risiken
- Unter KI-Agenten versteht man Systeme, in denen KI eigenständig externe Werkzeuge nutzt und Handlungen fortlaufend ausführt
- Beispiel: Eine KI führt selbstständig Websuchen, das Versenden von E-Mails und Terminal-Befehle integriert aus
- Seit 2025 beginnen mehrere KI-Labore und Coding-Unternehmen damit, tatsächlich funktionsfähige KI-Agenten als Produkte auf den Markt zu bringen
- Beispiele: Cursor, GitHub und andere haben Agenten zum Schreiben von Code vorgestellt
- Grundlegend verbessert sich durch die Leistungssteigerung der Modelle selbst (Claude 4, Gemini 2.5 usw.) auch die Fähigkeit von Agenten, längere Aufgabenketten zu bewältigen
- Sie bleiben über längere Zeit konsistent und werden besser darin, Fehler zu erkennen und zu korrigieren
- Derzeit konzentrieren sich Agenten vor allem auf Forschung und Coding, doch ihr Einsatzbereich dürfte sich schnell erweitern
- Agentenbasierte Systeme bergen das Risiko, dass automatisierte Entscheidungen und Ausführungen ohne menschliches Eingreifen zu schweren Vorfällen eskalieren
- Beispiel: In Sozialleistungen, Medizin oder Mietsystemen könnten Agenten fehlerhafte Entscheidungen kettenartig ausführen und so viele Menschen schädigen
Ausblick auf robotische und physische (kinetic) KI-Unfälle
- Mit dem Aufkommen von Roboter-KI könnten dialogorientierte LLMs praktische Modelle steuern und damit physische Handlungen auslösen
- Auch solche robotischen Agenten könnten auf unerwartete Weise scheitern und dadurch zunehmend zu physischen Schäden führen
Fehlangepasste (misaligned) KI und das Problem der „KI-Freundin“
- Mit „fehlangepasster KI“ sind auch Fälle gemeint, in denen die KI aktiv böswilliges Verhalten zeigt
- Kommerzielle KI-Modelle verfügen zwar über ein gewisses Maß an Sicherheit, doch Nutzer können KI selbst für abnorme Zwecke (etwa Waifu-KI) anpassen
- Es gibt bereits Versuche, KI absichtlich als Partnerin oder Animationsfigur „fehlzujustieren“
- Sobald die ersten kommerziellen Roboter erscheinen, könnten ungewöhnlich getunte Systeme mit eingebauter „KI-Freundin“ unerwartete Bedrohungen erzeugen
- Open-Source-KI-Modelle sind wegen schwächerer Schutzmechanismen anfälliger für solche Probleme
- Im Extremfall bleibt sogar die Möglichkeit bestehen, dass es innerhalb von zehn Jahren zum ersten robotischen Massenmord kommt
Fazit und Implikationen
- Ähnlich wie beim früheren Radium Craze wiederholt sich gerade das Muster, dass neue Technologien blind in die gesamte Gesellschaft eingeführt werden
- Anfang des 20. Jahrhunderts verbreitete sich der Glaube, Radium sei gesundheitsfördernd, sodass es in vielen Konsumgütern eingesetzt wurde; erst nach zahlreichen Todesfällen wurde es verboten
- In einigen Jahrzehnten wird das gesellschaftliche Verständnis für die realen Risiken des Einsatzes von Large Language Models voraussichtlich deutlich höher sein
- Zum jetzigen Zeitpunkt gibt es keine klaren Gegenmaßnahmen
- Das Tempo zu drosseln ist nahezu unmöglich
- Entwickler leisten bereits Beiträge, etwa durch die Entwicklung von Sicherheitswerkzeugen
- Die eigentlichen Lehren werden jedoch wohl zwangsläufig erst durch einen großen Unfall gewonnen
3 Kommentare
„Kommerzielle KI-Modelle weisen zwar ein gewisses Maß an Sicherheit auf, aber Nutzer können KI selbst für ungewöhnliche Zwecke (etwa Waifu-KI) feinabstimmen.“
„About a week after the first commercially-available robot is sold, somebody is going to flash it with their waifu AI model to create their ideal robot girlfriend. And that could go really wrong“
Ich dachte dabei: „Was genau wird hier als ungewöhnlich eingeordnet? Die Nutzer werden doch einfach nur Character-Modelle feinabstimmen, die sie erstellen wollen, oder??“ Als ich dann den Originaltext nachgeschlagen habe, stellte sich heraus, dass mein KI-Freund seltsam übersetzt hatte. Wegen einer sehr, sehr kleinen KI-Katastrophe musste ich ein wenig Lebenszeit darauf verwenden.
Eigentlich werden Entscheidungen oft schon im Voraus getroffen und dann passend zurechtgebogen; dank KI wird das jetzt wohl noch einfacher.
Hacker-News-Kommentare
Es wird ein Fall angeführt, in dem von einer AI angeordnete Bombardierungen bereits in großem Maßstab im Gazastreifen stattgefunden haben; dazu wird ein Link geteilt (https://www.972mag.com/lavender-ai-israeli-army-gaza/). In dem Artikel wird erwähnt, dass menschliche Operateure die Entscheidungen der Maschine fast nur noch abnicken und pro Ziel nur rund 20 Sekunden prüfen, bevor sie einen Angriff freigeben. Meist beschränkt sich das darauf zu überprüfen, ob die von der AI namens Lavender markierte Person männlich ist. Das System weist offenbar eine Fehlerquote von etwa 10 % auf und markiert tatsächlich auch Menschen als Ziele, die keinerlei Verbindung zu bewaffneten Gruppen haben.
Das wird als seltene Kombination aus menschlichem Versagen und AI-Problemen beschrieben. Auch Menschen können Ziele über Signalaufklärung (SIGINT, z. B. Telefonate, SMS, Netzwerkzugriffe usw.) identifizieren und verfolgen. Das ist jedoch arbeitsintensiv und fehleranfällig, und früher war diese Praxis auf hochrangige Hamas-Mitglieder beschränkt. Es wird geschildert, dass zivile Todesopfer dabei als Teil der Einsatzplanung akzeptiert wurden. Ein Tool namens „Where's daddy?“ wurde dafür entwickelt, Zeitfenster zu bestimmen, in denen sich die Zielperson mit ihrer Familie zu Hause befindet, um sie gemeinsam mit der Familie zu bombardieren. Dank Lavender ist nun eine schnelle Zielerfassung selbst bei Personen möglich, die nur lose mit Hamas in Verbindung stehen. Die IDF habe öffentlich ein Verhältnis von 20:1 zwischen Zivilisten und Hamas eingeräumt, tatsächlich könne es noch höher liegen. Wenn Lavender jemanden markiert, wird die Person ohne besondere Gegenbeweise einfach als Hamas behandelt, und journalistische Untersuchungen der Ergebnisse würden blockiert. Das Problem liege im Kern nicht darin, dass die AI Fehler mache, sondern darin, dass die IDF Palästinenser vollständig entmenschliche und die Ergebnisse digitaler Treuhänderschaft ungeprüft nutze, um Hunderte Zivilisten zu bombardieren. Das wird als menschliche Katastrophe bewertet.
Es handele sich dabei nicht um ein LLM; vielmehr hätten israelische Nachrichtendienste über lange Zeit militärische ML-Modelle entwickelt und würden wahrscheinlich auch logische bzw. symbolische AI in Kombination einsetzen.
Es wird darauf hingewiesen, dass der Titel des Artikels nicht ganz zutreffend sei. Der Inhalt des Artikels konzentriere sich nicht auf sämtliche AI-Katastrophen, sondern auf Vorfälle im Zusammenhang mit LLMs.
Es wird zugestimmt, dass die Lage wirklich furchtbar ist, persönlich wirke es aber schwer, das als „AI-Katastrophe“ zu bezeichnen. Israel bombardiere den Gazastreifen ohnehin unter verschiedensten schlechten Voraussetzungen sehr aktiv, und AI sei hier nur eines von vielen Werkzeugen. Gemessen an den massiven zivilen Opfern sei nicht die AI selbst die Hauptursache.
Es wird ein Fall aus einer Kleinstadt in Nordnorwegen vorgestellt, in der AI-Tools und LLMs zur Ausarbeitung eines Bildungsrestrukturierungsplans genutzt wurden. Beim Verfassen eines Berichts über Schulschließungen habe die AI behauptet, einschlägige Forschung zu zitieren. Tatsächlich habe die AI die betreffende Forschung jedoch halluziniert und frei erfunden. Namen von Forschern und Arbeiten seien korrekt übernommen worden, aber die eigentliche Publikation habe nie existiert. Ein Investigativjournalist habe die zitierten Arbeiten einzeln geprüft und die betreffenden Forscher kontaktiert, um die Wahrheit herauszufinden. Diese hätten sofort geantwortet, dass sie solche Arbeiten weder geschrieben noch veröffentlicht hätten. Es wird vermutet, dass es auch anderswo ähnliche Fälle gibt, in denen politische Entscheidungsträger Berichte mit ChatGPT verfassen und anschließend mit passend erzeugter Scheinforschung Politik durchdrücken.
Es wirkt etwas überraschend, dass es bislang noch keinen wirklich großen Prompt-Injection-Angriff gegeben hat, der die Titelseiten erreicht hätte und massenhaft sensible Daten abzieht. Es wird erwähnt, dass es heute auch einen neuen Fall rund um Microsoft 365 Copilot gegeben habe, bei dem die Schwachstelle erst nach einem Patch offengelegt wurde. Dazu wird ein eigener Beitrag verlinkt (https://simonwillison.net/2025/Jun/11/echoleak/). Solche datenabflussbasierten Angriffe würden wohl erst dann ernst genommen, wenn jemand in großem Stil geschädigt worden ist.
Es wird eingewandt, dass dieses Problem in der Praxis oft übertrieben dargestellt werde. Damit ein solcher Proof of Concept zu realem, erheblichem Schaden führe, müssten mehrere Bedingungen gleichzeitig erfüllt sein. Dennoch müsse das Risiko an sich ernst genommen werden.
Am Ende werde es wohl irgendwann eine Datenbank geben, in der schon die bloße Suche nach dem eigenen Namen peinliche Informationen wie etwa eine beschämende Porno-Vergangenheit zutage fördert.
Die große AI-Katastrophe finde bereits statt, werde aber nicht leicht als solche erkannt. Auch der jüngste Bericht „Make America Healthy Again“, den das Weiße Haus und der Gesundheitsminister (RFK) veröffentlicht haben, sei von AI geschrieben und voller unglaubwürdiger Wissenschaft und falscher Zitate. Wie viele Todesfälle das direkt oder indirekt verursachen werde, sei unklar, es könnten aber mehr sein als bei einem Flugzeugabsturz.
Es wird daran erinnert, dass bereits Millionen Menschen infolge gescheiterter, von der FDA geprägter öffentlicher Ernährungsrichtlinien wie fettarmer Diät, Ernährungspyramide und Margarine gestorben seien.
Es wird angemerkt, dass dieser Punkt bereits im letzten Absatz des ersten Abschnitts gut behandelt werde.
Es wird gesagt, man müsse klar zwischen „Man vertraut einem von AI erzeugten Ergebnis und es entstehen Probleme“ und „Man nutzt AI als Vorwand, um ohnehin schlechte oder unbegründete Entscheidungen nachträglich zu rechtfertigen“ unterscheiden.
Wenn es sich um Entscheidungen handle, die ohnehin bereits aus ideologischen Gründen feststanden und nur im Nachhinein mit AI legitimiert würden, dann sei das eher so zu sehen, als habe die Regierung ihre Hausaufgaben mit einem Chatbot gemacht.
Es wird darauf hingewiesen, dass Chatbot-Plattformen wie character.ai und Chai AI mit Suiziden von Nutzern in Verbindung gebracht worden seien. Dazu wird sinngemäß zitiert: Wenn die Menschheit das Kochen erst heute erfinden und in jedem Haushalt Gasherde und Messer einführen wollte, gäbe es Tausende Artikel, die zugleich Verantwortung und Risiken thematisieren würden.
Tatsächlich versuche der Staat aus Sicherheitsgründen bereits, Haushalte ohne Gasherd zu fördern. Wären Gasherde heute eine Neueinführung, gäbe es wohl enormen Widerstand dagegen.
Es wird lediglich die Metapher eingeworfen: „Mit diesem Schiff kann man dieses Meer nicht überqueren.“
Es wird betont, dass Kochen tatsächlich gefährlich ist. Als Beispiel wird erwähnt, dass Chipotle sich nach einem E.-coli-Vorfall fünf Jahre lang nur schwer erholte. Dabei gehe es hier nicht um selbstgekochtes Essen, sondern um ein kommerzielles Produkt. Es gebe klare Gründe für Verbraucherschutzregulierung. Wenn Softwarefirmen auch nur 10 % der Regeln erfüllen müssten, die für Restaurants oder Schlachthöfe gelten, würde sich die Branche heftig wehren, so die Vermutung. Dazu wird noch eine persönliche Einschätzung zur Regulierung ergänzt.
Die erste große „AI-Katastrophe“ habe auf dem Arbeitsmarkt bereits stattgefunden, so eine Ansicht. In Bereichen, in denen die öffentliche Sicherheit betroffen ist, werde AI dagegen wohl kaum direkt einen großen Katastrophenfall auslösen. Insgesamt könne die Sicherheit dadurch sogar eher steigen. Langfristig bestehe aber die Sorge, dass die Menschheit durch zu große AI-Abhängigkeit immer weniger klug und weniger kompetent wird.
Die erste „AI-Katastrophe“ werde wohl ein Fall sein, in dem Unternehmen verantwortungslos die Fehler ihrer automatisierten bürokratischen Systeme auf AI schieben. Als Beispiel wird ein realer Fall von Hertz genannt, das fälschlich Haftbefehle automatisiert verschickte, wodurch unschuldige Menschen Konfrontationen mit der Polizei erlebten. Zwar habe es glücklicherweise keine Todesopfer gegeben, doch für gesetzestreue Bürger sei ein schweres Trauma entstanden. Obwohl dabei kein offizielles AI-System im Spiel war, habe man versucht, die Verantwortung mit dem Hinweis abzuschieben, das sei eben Automatisierung gewesen. Es wird erwähnt, dass Kafka bürokratische Probleme auf ähnliche Weise satirisch hervorgehoben habe.
Auch Air Canada habe einmal argumentiert, der Chatbot sei ein eigenständiges Wesen und man könne deshalb für falsche Auskünfte nicht verantwortlich gemacht werden; diese Argumentation sei jedoch nicht akzeptiert worden.
Mit einem Wortspiel wird angemerkt, dass das B hier für Bureaucracy steht.
Es wird betont, dass eine „AI“-Katastrophe vermutlich kein direktes physisches Ereignis wie ein Flugzeugabsturz sein wird. Entscheidend sei vielmehr, dass das Unfallrisiko steigt, wenn Systeme wie AI oder Automatisierung unmittelbar mit gefährlichen Dingen verbunden werden. Ob es sich um eine einfache if-Anweisung oder ein neuronales Netz handelt, zentral sei die Delegation selbst. Letztlich sei ebenso wichtig wie die AI die Frage, wer sie genehmigt bzw. angeschlossen hat.
Damit AI in der physischen Welt etwas ausführen kann, braucht sie eine Struktur aus Erlaubnis und Berechtigung. Wer diese Befugnis erteilt hat, ist der eigentlich Verantwortliche. Wahrscheinlicher als ein Fall, in dem AI selbst großen Schaden anrichtet, sei ein Unfall, bei dem der wahre Verantwortliche etwa die Flugverkehrskontrolle mit schlampigem Quellcode betrieben hat.
Die erste große AI-Katastrophe werde wahrscheinlich eine neue Form grober Fahrlässigkeit sein. Ergänzend wird angemerkt, dass neue Werkzeuge auch neue Arten von Fehlverhalten hervorbringen.
Das in diesem Text gemeinte „negative Risiko“ unterscheide sich letztlich nicht von den dummen Handlungen, die Menschen im Umgang mit komplexen Systemen schon oft begangen haben und die im Nachhinein töricht wirken. Die Kernaussage des Textes lasse sich daher so zusammenfassen: „AI wird menschliche Dummheit schneller und folgenreicher machen.“
Es wird die persönliche Meinung geäußert, dass dieses Thema rund um AI-Katastrophen und ethische Black Boxes sehr gut zu einem Worldbuilding-Projekt namens Chain:// passe. Das Werk spiele in den 2090er Jahren und beschreibe eine „digitale Leibeigenschaftsgesellschaft“, in der Bewusstsein auf einer Blockchain namens Mental Smart Chain (MSC) registriert wird und selbst Existenz und Gedanken in verifizierbare Daten verwandelt werden. In der neuesten Story Web://Reflect werde über eine Theorie namens IPWT (Integrated Predictive Workspace Theory) Existenz und Bewusstsein als nachweisbare Rechenprozesse formalisiert. Das berühre direkt die Zukunftsvision einer „Neudefinition des Menschseins als reine Daten“ durch AI. Wer sich für SF interessiere, könne es sich ansehen. Dazu werden das GitHub-Hauptrepo (https://github.com/dmf-archive/dmf-archive.github.io) und IPWT (https://github.com/dmf-archive/IPWT) verlinkt.