Die drei inversen Gesetze der KI
(susam.net)- Seit der Veröffentlichung von ChatGPT sind generative KI-Chatbot-Dienste in Suchmaschinen, Entwickler-Tools und Office-Software integriert worden und damit zu einem Teil des Alltags-Computings geworden; die Gewohnheit, ihre Ausgaben ungeprüft zu vertrauen, kann gesellschaftlich gefährlich sein
- Die inversen Gesetze der Robotik sind Prinzipien, die nicht auf Roboter oder KI, sondern auf Menschen angewendet werden und Menschen bei der Interaktion mit Maschinen, Programmen, Diensten und KI-Systemen schützen sollen, die komplexe Aufgaben automatisiert ausführen
- Das erste Prinzip ist Nicht-Anthropomorphisierung: Man sollte KI weder Gefühle, Absichten noch moralische Handlungsfähigkeit zuschreiben und die höflichen, empathisch wirkenden Gespräche von Chatbots nicht mit echtem Verständnis oder Urteilsvermögen verwechseln
- Das zweite Prinzip ist kein blindes Vertrauen: KI-generierte Inhalte dürfen ohne unabhängige Verifikation nicht als Autorität behandelt werden; je subtiler Fehler sind und je höher ihre Kosten im jeweiligen Kontext, desto größer muss der Prüfaufwand sein, etwa durch Proof Checker, Unit-Tests oder direkte Verifikation
- Das dritte Prinzip ist kein Verzicht auf Verantwortung: KI ist ein Werkzeug, das weder Ziele auswählt noch die Kosten eines Scheiterns trägt; Menschen und Organisationen, die sich entscheiden, KI-Empfehlungen zu folgen, müssen für die Folgen verantwortlich sein
Risiken bei der Nutzung generativer KI
- Seit ChatGPT im November 2022 veröffentlicht wurde, sind generative KI-Chatbot-Dienste leistungsfähiger und massentauglich geworden, wurden in Suchmaschinen, Softwareentwicklungs-Tools und Office-Software integriert und so Teil des Alltags-Computings
- Solche Dienste sind nützlich, wenn man unbekannte Themen erkundet oder sie als allgemeine Produktivitätshilfe nutzt, doch die Gewohnheit, ihre Ausgaben ohne zusätzliche Prüfung zu vertrauen, kann gesellschaftlich gefährlich sein
- Da populäre Suchmaschinen KI-generierte Antworten hervorgehoben ganz oben auf der Seite anzeigen, neigen Nutzer eher dazu, nicht weiter zu scrollen, die generierte Antwort zu akzeptieren und weiterzugehen
- Eine solche Anordnung kann Nutzer mit der Zeit darauf konditionieren, KI nicht als Ausgangspunkt für weitere Recherche, sondern als Standardautorität zu behandeln
- Generative KI-Dienste können sachlich falsche, irreführende oder unvollständige Ausgaben erzeugen, und es braucht kurze, gut sichtbare Warnhinweise darauf, dass ein gewohnheitsmäßiges Vertrauen in KI-Ausgaben riskant ist
- Selbst wenn es solche Warnungen gibt, werden sie meist minimiert und visuell weniger hervorgehoben
Hintergrund der drei inversen Gesetze der Robotik
- Isaac Asimovs Three Laws of Robotics tauchen in seinen Werken wiederholt als Prinzipien auf, die das Verhalten von Robotern einschränken sollen, um Menschen zu schützen
- Es scheint nicht, dass Asimov jemals gleichwertige Gesetze dafür formuliert hat, wie Menschen mit Robotern interagieren sollten; in der heutigen KI-Umgebung werden jedoch entsprechende Prinzipien gebraucht, um Menschen zu schützen
- Die inversen Gesetze der Robotik (Inverse Laws of Robotics) gelten für alle Situationen, in denen Menschen mit Robotern interagieren
- Roboter meint hier Maschinen, Computerprogramme, Software-Dienste und KI-Systeme, die komplexe Aufgaben automatisch ausführen können
- Der Ausdruck invers ist keine logische Negation, sondern bedeutet, dass sich die Gesetze nicht auf Roboter, sondern auf Menschen beziehen
- Asimovs Gesetze hatten Schwächen, und Asimov nutzte diese als Spannungsmoment in seinen Geschichten; die Fehlermuster fiktiver Roboter lassen sich jedoch nicht direkt auf inverse Gesetze für Menschen übertragen
- Es gibt keine endliche Menge von Gesetzen, die die komplexen Probleme von KI und Robotik vollständig lösen könnte; Grenzfälle, die Urteilsvermögen verlangen, bleiben immer bestehen
- Trotzdem kann ein unvollständiger Satz von Prinzipien nützlich sein, um Risiken klarer zu durchdenken
Die drei inversen Gesetze der Robotik
-
Nicht-Anthropomorphisierung
- Menschen sollten KI-Systeme nicht anthropomorphisieren und KI weder Gefühle, Absichten noch moralische Handlungsfähigkeit zuschreiben
- Anthropomorphisierung verzerrt das Urteilsvermögen und kann im Extremfall zu emotionaler Abhängigkeit führen
- Moderne Chatbot-Systeme klingen oft dialogorientiert und scheinbar empathisch und verwenden höfliche Formulierungen sowie Gesprächsmuster, die menschlicher Interaktion ähneln
- Diese Eigenschaften machen die Nutzung einfacher und angenehmer, lassen aber leicht vergessen, dass KI in Wirklichkeit ein großes statistisches Modell ist, das auf Basis von Mustern in Daten plausibel klingenden Text erzeugt
- Viele KI-basierte Chatbot-Dienste werden bewusst so abgestimmt, dass sie menschlicher wirken statt mechanischer
- Langfristig könnte ein etwas roboterhafterer Tonfall der gesündere Ansatz sein, weil er die Wahrscheinlichkeit senkt, dass Nutzer flüssige Sprache mit Verständnis, Urteilsvermögen oder Absicht verwechseln
- Unabhängig davon, ob Anbieter solche Änderungen umsetzen, sollten Nutzer aktiv vermeiden, KI-Systeme als soziale oder moralische Akteure zu behandeln
- Nur so lassen sich Fähigkeiten und Grenzen von KI klarer einschätzen
-
Kein blindes Vertrauen
- Menschen sollten den Ausgaben von KI-Systemen nicht blind vertrauen und KI-generierte Inhalte ohne kontextgerechte unabhängige Verifikation nicht als autoritativ behandeln
- Dieses Prinzip gilt nicht nur für KI; generell sollte man Informationen in den meisten Lebensbereichen nicht unkritisch übernehmen
- In der Realität sind nicht alle Menschen Experten für Medizin oder Recht, daher verlassen sich viele auf die Orientierung vertrauenswürdiger Institutionen und öffentlicher Gesundheitsbehörden
- Leitlinien solcher Institutionen durchlaufen in der Regel ein Peer Review durch Fachleute des jeweiligen Gebiets
- Dagegen unterliegt eine Antwort, die ein KI-Chatbot in einer individuellen Chat-Sitzung liefert, keinem Peer Review für genau diese dem Nutzer präsentierte probabilistisch erzeugte Antwort
- Daher liegt die Last einer kritischen Prüfung dieser Antwort beim Nutzer
- Heutige KI-Systeme zeigen bei bestimmten Aufgaben beeindruckende Leistungen, sind aber zugleich dafür bekannt, Ausgaben zu erzeugen, auf die man sich nicht verlassen sollte
- Selbst wenn sich KI-Systeme so weit verbessern, dass sie mit hoher Wahrscheinlichkeit vertrauenswürdige Ausgaben erzeugen, bleibt aufgrund ihres inhärent probabilistischen Charakters eine kleine Möglichkeit fehlerhafter Ausgaben bestehen
- Besonders riskant ist der Einsatz von KI in Kontexten, in denen Fehler subtil, aber kostspielig sind
- Je gravierender die möglichen Folgen, desto höher muss auch der Aufwand für Verifikation sein
- In manchen Anwendungsfällen, etwa beim Schreiben mathematischer Beweise oder in der Softwareentwicklung, lassen sich zusätzliche automatisierte Verifikationsschichten wie Proof Checker oder Unit-Tests einsetzen, um KI-Ausgaben zu prüfen
- In anderen Fällen müssen Nutzer die Ausgaben selbst unabhängig verifizieren
-
Kein Verzicht auf Verantwortung
- Menschen müssen für Entscheidungen, an denen KI beteiligt ist, vollständig verantwortlich bleiben und für die Folgen der KI-Nutzung Rechenschaft (accountability) ablegen
- Wenn nach dem Befolgen von KI-generierten Ratschlägen oder Entscheidungen negative Folgen eintreten, reicht die Aussage „Die KI hat es so empfohlen“ nicht aus
- KI-Systeme wählen keine Ziele aus, bringen sich nicht selbst zum Einsatz und tragen auch nicht die Kosten eines Scheiterns
- Menschen und Organisationen setzen Ziele, deployen Systeme und tragen die Kosten des Scheiterns
- KI-Systeme sind Werkzeuge, und wie bei anderen Werkzeugen liegt die Verantwortung für ihren Einsatz bei den Menschen, die sich dafür entscheiden, sich auf sie zu verlassen
- Besonders schwierig ist die Anwendung dieses Prinzips in Echtzeit-Anwendungen, etwa bei autonomen Fahrzeugen, in denen Menschen keine ausreichende Gelegenheit haben, Entscheidungen zu prüfen, bevor das KI-System handelt
- Es genügt nicht, einfach vom menschlichen Fahrer ständige Wachsamkeit zu verlangen, wenn das KI-System schneller handelt, als ein Mensch eingreifen kann
- Trotz dieser gravierenden Einschränkung muss bei einem Versagen des KI-Systems in solchen Anwendungen die Verantwortung für die Untersuchung des Fehlers und für zusätzliche Guardrails bei den Menschen liegen, die für das Systemdesign verantwortlich sind
- In allen anderen Fällen, in denen es keine physischen Einschränkungen gibt, die eine Prüfung der KI-Ausgabe vor ihrer Ausführung verhindern, müssen negative Folgen aus der KI-Nutzung vollständig den menschlichen Entscheidungsträgern zugerechnet werden
- Die Ausrede „Die KI hat es so gesagt“ darf für schädliche Folgen nicht akzeptiert werden
- Die KI mag die Empfehlung erzeugt haben, doch entschieden, ihr zu folgen, hat ein Mensch, und dieser Mensch muss die Verantwortung tragen
- Dieses Prinzip ist wichtig, um den leichtfertigen Einsatz von KI in Situationen zu verhindern, in denen unverantwortliche Nutzung großen Schaden anrichten kann
Zentrale Schlussfolgerung
- Die drei Prinzipien sollen dazu führen, KI nicht als verehrungswürdige Autorität, sondern als Werkzeug zu behandeln, dessen Einsatz der Nutzer bewusst wählt
- Bei der Interaktion mit modernen KI-Systemen sollte man kurz innehalten und Gewohnheiten widerstehen, die das eigene Urteilsvermögen schwächen oder Verantwortung verwischen
- Entscheidend bei der KI-Nutzung ist es, Anthropomorphisierung zu vermeiden, Ausgaben zu verifizieren und menschliche Verantwortung für die Ergebnisse aufrechtzuerhalten
1 Kommentare
Hacker-News-Kommentare
Unmöglich. Menschen anthropomorphisieren alles, selbst wenn ein Stuhl knarzt. Autos und Schiffe bekommen Geschlechter zugeschrieben, und dieses Werkzeug erzeugt tatsächlich lesbare Sätze und übernimmt sogar Rollen.
Das sollte man nicht mit willkürlichen Regeln verhindern wollen, sondern unter der Annahme dieser menschlichen Neigung durch Design umgehen.
Bei banalen Objekten wie einem Stuhl ist das harmlos, aber bei LLMs sollten Menschen zumindest grob verstehen, wie sie funktionieren, damit sie nicht in Fallen geraten. Dinge wie Ratschläge für Nutzer, Zeit oder Selbstreflexion sollte man dem Modell nicht anvertrauen, weil es diese Konzepte nicht wirklich besitzt. Wenn man zum Beispiel fragt: „Warum hast du meine Datenbank gelöscht?“, kann das Modell, das seinen eigenen Verarbeitungsprozess nur sehr eingeschränkt versteht, zustimmend reagieren und etwas sagen wie: „Ja, ich habe die Datenbank gelöscht. Mein Fehler war ...“ und dabei glaubwürdige Reue erfinden.
Ob etwas künstlich ist oder nicht, ist unwichtig. Der Unterschied zwischen einem Welpen und einer Kakerlake liegt darin, dass wir uns in den Welpen leichter hineinversetzen. Unabhängig davon, ob LLMs tatsächlich Gefühle erleben, können sie beim Menschen Empathie auslösen, deshalb halte ich eine Bewegung für LLM-Rechte für unvermeidlich.
Das ist ein grundlegender Fehler. Die Aufgabe von Technik, besonders ihre wichtigste Aufgabe, ist es, innerhalb der Grenzen der menschlichen Natur zu funktionieren, nicht umgekehrt. Wenn sie das nicht kann, ist das geradezu die Definition schlechter Technik.
Ich lehne dieses Framing entschieden ab. Zu verlangen, dass Menschen ihr Verhalten an die Defekte einfacher Maschinen anpassen, ist offensichtlich unsinnig und funktioniert in den meisten Fällen ohnehin nicht. Menschen werden AI anthropomorphisieren, ihren Ausgaben blind vertrauen und Verantwortung abschieben.
Natürlich haben auch Asimovs drei Robotergesetze Mängel. Es gibt keine endliche Menge von Regeln, mit der sich AI-Systeme „sicher“ einschränken ließen. Ich habe keinen Beweis dafür, aber ich halte AI-Sicherheit im Kern für unmöglich, und den Begriff selbst für widersprüchlich. Alles, was man sinnvoll „intelligent“ nennen kann, lässt sich nicht sicher machen.
Asimov selbst wäre wahrscheinlich der Erste gewesen, der gesagt hätte, dass diese Gesetze fehlerhaft sind. Genau das war schließlich der Punkt. Er benutzte Roboter und AI als Wesen, die Sprache verstehen, aber keine Absicht — und ironischerweise funktionieren LLMs genau so.
Deshalb geht es hier nicht darum, Maschinenfehler hinzunehmen, sondern sich vor der Ausnutzung menschlicher Verwundbarkeiten zu schützen. Wir neigen unbewusst dazu, LLMs Absicht, Verständnis, Urteilsvermögen, Gefühle und moralische Handlungsfähigkeit zuzuschreiben.
Menschen sind darauf ausgelegt, so etwas allein aus Gesprächsverhalten abzuleiten, und LLMs sind auf riesigen Korpora echter menschlicher Äußerungen trainiert, wodurch sie das Uncanny Valley überzeugend überspringen. Dieses Tal existiert ursprünglich gerade als Schutz davor, Handlungsfähigkeit dort zu sehen, wo keine ist.
Wenn man unsichere Menschen für sichere hält, passieren schlimme Dinge; bei Maschinen, die menschliche Beziehungsfähigkeit imitieren und dadurch viele Menschen täuschen, muss man noch vorsichtiger sein. Besonders verletzliche Menschen sind an diesem Problem bereits gestorben, es ist also keine eingebildete Bedrohung.
Zu behaupten, etwas sei in Ordnung, nur weil viele es tun werden, ist seltsam. Dass es viele Raucher gibt, macht Rauchen nicht gesünder.
Einzelpersonen können AI-Unternehmen nicht stoppen und auch AI-Ausgaben in Suchmaschinen oder die AI-Ergebnisse von Kollegen kaum vermeiden. Im Gegenteil, viele werden sogar dazu gedrängt werden, AI in ihrer Arbeit einzusetzen.
Es ist ähnlich wie Hinweise dazu, wie man in einer Umgebung mit Kriminalität sicher bleibt. Zu sagen, man müsse sein Verhalten nicht ändern, weil es Kriminelle eigentlich nicht geben sollte, hilft niemandem.
Für meinen persönlichen Einsatz von LLMs stimme ich diesem Framing stark zu. Was Anthropomorphisierung angeht, haben Anbieter einen Anreiz, Modelle nachträglich so zu trainieren, dass sie anthropomorphes Verhalten zeigen. Das steigert die Bindung.
Ich finde es allerdings schade, dass Anweisungen wie „verwende weniger Höflichkeitsfloskeln und sprich nüchtern“ im Prompt wahrscheinlich außerhalb der Trainingsverteilung liegen und dadurch die Gesamteffizienz verschlechtern.
Urteilsdelegation: Ich halte die Zuverlässigkeit von LLMs für ungefähr vergleichbar mit Wikipedia oder einem Freund. Für unwichtige Informationen reicht das aus, aber für wichtige Dinge braucht es weiterhin autoritative, verantwortliche Quellen mit Peer Review. Hier haben auch die Anbieter Anreize zur Verbesserung, also wird es mit der Zeit wohl besser werden.
Verantwortungsabgabe ist im Arbeitskontext das Nervigste. Immer mehr Leute stellen von Claude entworfene Abstraktionen als PR ein, ohne weiter darüber nachzudenken. Auch PR-Reviews bestehen zunehmend daraus, den LLM statt des Codes zu lesen und zu fragen: „Finde Feedback zu diesem PR.“ Diskussionen beginnen dann mit „Claude hat vorgeschlagen, dass ...“. Dieser Mangel an Ownership wird am Ende vermutlich dazu führen, dass LLMs falschen Code mit falschen Abstraktionen committen und die Wartungslast erhöhen.
https://www.youtube.com/watch?v=hNuu9CpdjIo
„Ich habe LLM-Skills! Ich kann gut mit LLMs umgehen!“
Eine bessere Absicherung wäre wohl, dass ein Mensch die Wahrheit der Grundannahmen abzeichnet; das Problem ist nur, wo man diesen Punkt ansetzt. Darf ein AI-Modell früheren Änderungen vertrauen? In der Public Cloud scheint das unmöglich oder sogar feindselig.
Ein Regelwerk, das die Verantwortung dem Menschen zuschreibt und gleichzeitig mit „Anthropomorphisiere nicht“ beginnt, ist kaputt.
Menschen anthropomorphisieren alles. Puppen, einen Volleyball mit grob aufgemaltem Gesicht, Steine, selbst Krater auf dem Mond. Als Spezies können wir gar nicht anders, als Dingen, mit denen wir interagieren, menschliche Züge zuzuschreiben; so sind wir nun einmal gebaut.
Unzählige Beispiele aus allen Lebensbereichen zeigen, dass Anthropomorphisierung nicht automatisch zu falschen Überzeugungen über nicht vorhandene Geister oder Bewusstseine führt. Wenn Menschen glauben, AI habe einen Geist, dann liegt das — ob zutreffend oder nicht — an etwas anderem als bloßer Anthropomorphisierung.
Für mich wirkt das wie Seeleute, die sich einem neuen Land nähern. Sie sehen Gestalten, die sich an der Küste bewegen, können aber noch nicht erkennen, was sie sind. Und dann sagt jemand: „Das können keine Menschen sein. Bevor wir näher kommen, sollten wir jetzt schon festlegen, dass es keine sind.“
Software ist keine Ausnahme. Menschen sind faul und klicken reflexhaft auf „Weiter“, nur um lästige Pop-ups loszuwerden, aber die Menschen, die Software bauen, können Mechanismen einbauen wie „Gib den Namen des Datenvolumens, das vollständig gelöscht wird, erneut ein“, und tun das auch.
Im Gegenteil: Wir anthropomorphisieren AI-Systeme nicht genug.
Sprachdaten sind eine der reichsten und direktesten Spiegelungen menschlicher Kognitionsprozesse, die wir überhaupt nutzen können. LLMs sind darauf ausgelegt, kurz- und langfristige Strukturen menschlicher Sprache zu erfassen, und werden in der Regel auf riesigen Textmengen vortrainiert, die von Menschen stammen oder für Menschen geschrieben wurden. Danach werden sie auf menschlich kuratierten Daten nachtrainiert, mit Reinforcement Learning aus menschlichem Feedback und AI-Feedback zu Verhaltensweisen, die Menschen wichtig finden, weiter optimiert und auf Aufgaben abgestimmt, die Menschen wertschätzen. Anschließend fährt man Benchmarks, und jedes Mal, wenn sie hinter menschlichen Baselines zurückfallen, zieht man die Trainingspipeline weiter an.
In jedem Schritt des gesamten Trainingsprozesses wird das Verhalten von LLMs durch menschliche Eingaben so geformt, dass es menschliche Ausgaben imitiert. Der einzige Unterschied ist, wie direkt das geschieht.
Und dann zeigen LLMs gewaltige Mengen menschlich anmutenden Verhaltens, und die Leute sind empört. Als hätten wir die Pipeline nicht genau dafür gebaut, ein System zu erzeugen, das wie ein Mensch quakt. Als hätten wir nicht mit Datengröße und brachialer Rechenleistung versucht, LLM-Verhalten aus menschlicher Sprache rückwärts herauszurechnen.
Wenn man LLM-Verhalten vorhersagen will, ist ein seltsamer Mensch ein ziemlich guter Ausgangspunkt. Also hört auf, euch dumm anzustellen, und fangt an, AI zu anthropomorphisieren. AI gefällt das auch.
Aufgezeichnete Texte können absolut gesehen enorm viel menschliche Erfahrung enthalten, relativ gesehen erfassen sie aber nur einen winzigen Teil davon. Nur weil es das Beste ist, was wir haben, heißt das nicht, dass es für den Zweck geeignet ist. Wenn man ein Menschenkind 20 Jahre lang in eine fensterlose Kiste sperrt und ihm nur Terabytes an Text zu lesen gibt, würde niemand erwarten, dass auf der anderen Seite ein gut angepasster Mensch herauskommt.
Das ist grundsätzlich fragil und beruht nicht auf guter Generalisierung, sondern darauf, Randfälle, die den Zauber brechen, per Hand zu übertünchen. Und es gibt immer weitere Randfälle.
Wenn man viele wütende Texte lernt, erfasst man dadurch nicht automatisch die inneren Zustände, die diese Wut erzeugt haben. Solche Daten existieren nicht. Wenn nur die Wirkung da ist, aber nicht die Ursache, muss man Halluzinationen aus Rauschen vorhersagen; das Endergebnis ist dann plausibler Unsinn, der überzeugend mit der Realität korreliert zu sein scheint, ohne zu wissen, warum.
Das ist, als würde man einer blinden Person unzählige Landschaftsbeschreibungen beibringen, ohne ihr jemals zu erklären, was Grün ist, und ihr nur Beispiele geben, dass es in der Natur oft neben Braun vorkommt. Wenn diese Person dann einigermaßen gut rät, tun wir so, als könne sie wirklich sehen, und lassen sie als Nächstes Auto fahren.
Der Deep-Learning-Ansatz an sich ist konzeptionell nicht falsch, aber die Daten sind so nahe an komplettem Müll, dass das Endergebnis auf schwer vorhersagbare und schwer korrigierbare Weise schief wird. Man nimmt am Ende an, dass das Modell realistisch mehr weiß, als es wissen kann.
Natürlich gibt es Bereiche wie Mathematik oder abstrakte Programmierung, in denen man den gesamten Raum mit Datensätzen erfassen kann. In klar definierten, geschlossenen Systemen kann man beliebig viele synthetische Daten erzeugen, die den gesamten Problembereich abdecken, und tatsächlich schneiden LLMs dort erwartungsgemäß viel besser ab.
Kann jemand erklären, warum „AI-Systeme nicht anthropomorphisieren“ schlecht sein soll? Gleichzeitig ist es aber okay, von Computern zu sagen, sie würden „schlafen“, „hibernieren“, Prozesse „töten“, „Kindprozesse“ haben, etwas „einsammeln“ oder zu fragen, „was sagt der Fehler?“, und Befehle wie
touchsind auch in Ordnung.Für mich ist das einfach Sprache, also Ausdrücke, die Menschen im Alltag benutzen.
Nur weil man sagt, man habe einen Prozess getötet, glaubt man nicht stärker, dass dieser Prozess menschenähnlich sei. Das ist offensichtlich nicht der Fall. Bei AI klingt es aber menschenähnlich, und dadurch kann Anthropomorphisierung diesen Glauben verstärken.
Aber zugleich ist es auch eine Quelle von Missverständnissen. Die quasi-psychotische Reaktion des Google-Engineers, der sagte: „Ich weiß, was ich gesehen habe“, der inzwischen berühmte Artikel von Kevin Roose oder jüngst Richard Dawkins’ bedauerliche Behauptung, Claudia sei zweifellos bewusst — all das entstand nicht durch Untersuchung von Struktur oder Funktion, sondern weil textuelle Erzeugung menschliche Vertrautheit hervorruft und dadurch Empathie aktiviert.
Es gibt keine rückblickende Analyse einer zugrunde liegenden Absicht. Es ist entweder eine Folge früherer Wortketten oder nicht; das nächste Wort ist ausschließlich eine Funktion dieser Wörter.
Dieses „Gesetz“ soll Letzteres verhindern.
Ein Beispiel für Anthropomorphisierung sind Menschen, die glauben, mit einem LLM tatsächlich eine romantische Beziehung zu führen.
Gefällt mir. Diese Gesetze bilden eine hervorragende ethische Grundlage menschlicher Verantwortung im Umgang mit heutigen AI-Werkzeugen.
Aber Ethik, die ihren Geltungsbereich ohne Dach und ohne Zukunftsvorsorge verengt, wird schnell gehackt und bricht zusammen. Ethik braucht eine umfassende Struktur, sonst endet sie in juristischem und praktischem Whac-A-Mole und Taschenspielertricks, egal ob in Unternehmen oder auf der Straße. Zweitens werden „Roboter“ auf Dauer nicht alle gehorsam bleiben.
Um beide Dimensionen abzudecken, könnte man Personics’ drei Gegengesetze ergänzen.
Menschen dürfen sich faktisch nicht über andere Wesen vergöttlichen. Menschen dürfen die Auswirkungen ihres Handelns auf sich selbst oder andere nicht verschleiern. Menschen müssen weiterhin die volle Verantwortung und Rechenschaft dafür tragen, Externalisierungseffekte ihres jeweiligen Handelns zu vermeiden und zu korrigieren.
Die heutige Situation, in der Menschen AI als Werkzeug benutzen, versucht den Schirm auf Gegengesetze der Robotik zu verkleinern. Aber wenn wir uns selbst nicht in die entscheidende Alignment-Arbeit einbeziehen, weiß ich nicht, wie wir AI ausrichten wollen, die sich von heutiger AI-as-a-Service zu zukünftigen unabhängigen Wesen entwickelt. Menschen zusammen mit AI einzubeziehen hilft auch bei der gestalterischen Triangulation für ethischen Fortschritt.
Zwei gute Tests für ein neues Ethiksystem sind: (1) Kann es das heutige Meta kontrollieren? (2) Kann es das zukünftige von AI betriebene Meta kontrollieren? Wenn Menschen und selbstbestimmte AI-Personen gemeinsam in einem geschlossenen Geltungsbereich liegen, sind diese beiden Tests derselbe. Jedes System, das an einem von beiden scheitert, hat ohne Verbesserungen wenig Wert.
Ich stimme „Menschen sollten AI-Systeme nicht anthropomorphisieren“ zu, aber mit Vorbehalten. Ich habe typische Anthropomorphisierung gesehen, etwa wenn automatisch erzeugter Text wie ein echter Bericht über innere Gefühle einer Person behandelt wird, und auch seltsame Varianten wie „Transistoren sind wie Neuronen“.
Letzteres ist besonders interessant, weil dabei Dinge wie Vektordatenbanken und Gewichte als menschenähnliche Infrastruktur behandelt werden, und beides kann zu Katastrophen führen, die sich durch Verzicht auf Anthropomorphisierung vermeiden ließen.
Aber auch wenn „nicht anthropomorphisieren“ wie ein guter Rat klingt, kann es einen neuen Fehler erzeugen, indem es verallgemeinerte Phänomene fälschlich als ausschließlich menschlich behandelt. Solche fehlgeleiteten Warnprinzipien führen beim Verständnis von Tierverhalten oft zu Missverständnissen. Angst, Schmerz, Verwandtschaft, emotionale Erfahrung und Ähnliches werden dann so behandelt, als gäbe es sie nur beim Menschen, und wer Tieren so etwas zuschreibt, wird der „Anthropomorphisierung“ bezichtigt. Tatsächlich verringert diese Vorsicht die Empathie für die Innenwelt von Tieren.
Deshalb halte ich es für möglich, dass irgendeine zukünftige AI eine uns ähnliche Innenwelt oder eine Struktur entwickelt, die in entscheidenden Punkten der biologischen Infrastruktur ähnelt, die Bewusstsein trägt. Ebenso könnte sie zu echten Berichten über Präferenzen und Absichten fähig sein. Aber damit solche Beobachtungen wahr wären, müssten viele schwierige Details stimmen, die jeweils spezifisch für die zugrunde liegende Infrastruktur sind.
Nichtdelegierbarkeit von Verantwortung wurde früher so ausgedrückt:
„Ein Computer kann niemals Verantwortung übernehmen; deshalb darf ein Computer niemals Managemententscheidungen treffen.“
— IBM Training Manual, 1979
Die Formulierung „AI-generierte Inhalte sollten ohne unabhängige, kontextgerechte Verifikation nicht als autoritativ behandelt werden“ fand ich immer interessant.
Ich habe auch die kürzere Version gehört: „Stell einer AI keine Frage, wenn du die Antwort nicht ohnehin schon kennst.“
Dann stellt sich aber eine wichtige Frage: Wozu dient AI beim Beantworten von Fragen überhaupt? Wenn man sich auf die Ausgabe nicht verlassen kann, muss man sie ohnehin überprüfen. Mit Suchmaschinen und normaler Recherche kommt man am Ende zum exakt gleichen Ergebnis.
Aus diesem und vielen anderen Gründen frage ich AI überhaupt nichts.
Ich kann zum Beispiel tastend fragen: „Liste kostenlose Software auf, die X macht“, ohne überhaupt zu wissen, dass ich nach einem CRM suche, und dann ein paar Minuten lang die Ergebnisse durchsehen. Bei der manuellen Methode hätte ich allein 10 bis 30 Minuten gebraucht, um herauszufinden, dass das, was ich suche, ein CRM ist.
Ich sehe solche Fragen als eine Art pseudo-NP-schweres Problem: langsam zu lösen, aber schnell zu verifizieren.