Notwendigkeit der Offenlegung von KI-Verhaltensrichtlinien

(twitter.com/ID_AA_Carmack)

2 Punkte von GN⁺ 2024-02-22 | 1 Kommentare | Auf WhatsApp teilen

John Carmack, der Doom-Entwickler war und als CTO bei Oculus arbeitete, tweetete

"AI-Verhaltensrichtlinien, die durch Prompt Engineering und Filterung festgelegt werden, sollten öffentlich sein, und die Ersteller sollten stolz offenlegen, welche Vision davon, was in der Gesellschaft am besten ist, sie haben und wie sie sie in Befehlen und Code konkret umgesetzt haben.
Ehrlich gesagt glaube ich, dass sich viele Menschen dafür schämen.
Natürlich liefern tausende kleine Nudges, die mit menschlichem Feedback im Reinforcement Learning kodiert wurden, eine deutlich plausiblere Art der Ablehnung."

1 Kommentare

GN⁺ 2024-02-22

Hacker-News-Kommentare

Ich habe zwar noch nie Moderation oder Content-Kontrolle in großem Maßstab implementiert, aber es scheint Standard zu sein, die zugrunde liegenden automatischen Regeln normalerweise nicht offenzulegen.
Wenn man eine Wort-Blockliste veröffentlicht, können Leute problematische Inhalte leicht mit Wörtern ausdrücken, die nicht auf der Liste stehen; und Shadowbans habe ich immer als Mechanismus verstanden, der gerade keine klaren Grenzen aufzeigt.
Ich verstehe, dass das frustrierend ist, aber im Moment scheint es keinen eindeutig besseren Ansatz zu geben; wenn es eine offene Methode gäbe, die im großen Maßstab funktioniert, wäre das wohl ein guter Ausgangspunkt.
- In diesem Fall muss man keine groß angelegte Zensur und Moderation implementieren. Ich verstehe nicht, welches Sicherheitsproblem es sein soll, wenn ich fünf Minuten lang zum Spaß Bilder von Weißen in verschiedenen Situationen generiere.
  Man spricht nur mit einem Computer, niemand kommt zu Schaden. Es ist etwas anderes, Inhalte zu zensieren, die ich in eine Notiz-App schreibe, als Inhalte auf meiner Facebook-Pinnwand zu verwalten; bei Ersterem erwartet man keine Moderation, bei Letzterem verstehe ich, dass ein gewisses Maß an Prüfung nötig ist.
- Das ist ein schlechter Ansatz und eine schlechte Logik. Sicherheit durch Verschleierung ist in der Sicherheitsbranche fast immer abwertend gemeint.
  Menschen sind gut darin, solche automatische Zensur zu umgehen; wenn man sie nicht offenlegt, schafft das mehr Probleme für normale Nutzer und lässt mehr Raum dafür, dass schlechte Richtlinien verborgen bleiben.
  Selbst wenn man dasselbe tut, ist es mit einer öffentlichen Policy schon besser, auch wenn es immer noch schlecht ist. Die eigentliche Lösung für das Problem, dass ein riesiger öffentlicher Debattenraum von privaten Unternehmen kontrolliert wird, ist nur, diesen Zustand zu beenden.
- Vielleicht muss man sich gar nicht erst mit den implizierten Problemen befassen. Das ist konsistente ideologische Indoktrination, und Menschen stimmen dem in unterschiedlichem Ausmaß zu.
  Wenn ein Unternehmen nicht alle Maßnahmen offenlegen will, kann es zumindest eine Zusammenfassung liefern. Ich vermute, dass selbst so eine Zusammenfassung wahrscheinlich zu den im ursprünglichen Tweet erwähnten „peinlichen“ Dingen gehören würde.
  Wenn Problem und Ansatz nicht explizit benannt werden, kann man sie weder diskutieren noch erkennen. Die Analogie zur Content-Moderation passt nur bedingt: Versteckt ist nicht die Maßnahmenliste, sondern die „Forenregeln“ selbst.
  Dass eine KI mit Erklärung ablehnt, ist ein Fall, und selbst wenn sie dadurch etwas weniger nützlich wird, ist das das Recht des Unternehmens. Wenn sie wegen solcher Einschränkungen Themen aber stillschweigend meidet oder lenkt, ist das ein anderes Problem.
  Auch für die Entwickler dürfte es schwierig sein, beide Fälle klar zu trennen und dabei die gleiche Qualität wie das ursprüngliche Modell zu halten. Am Ende könnten die Leute chinesische KI nutzen. Wenn sie zwar keine Funktionäre der Kommunistischen Partei Chinas zeichnet, den Rest aber besser macht, wen kümmert es dann?
- Die meisten Rechtssysteme funktionieren im Maßstab von Staaten, bestehen aber nicht aus versteckten Rätselgesetzen. Dafür gibt es mehrere Gründe.
  Bei Kryptowährungen hatten wir schon eine ähnliche Debatte, und man kam im Großen und Ganzen zu dem Schluss, dass das bestehende Rechtssystem zwar ein externes Instrument ist, aber genug Werkzeuge bietet, um böswillige Akteure zu verfolgen.
  Und schließlich: Wenn ich mir die illiberalen Tendenzen vieler KI-Sicherheitsanhänger ansehe, die im Internet schreiben, gefällt mir nicht, was für Leute das sind, und ich vertraue ihnen nicht genug, um ihnen so etwas zu überlassen.
- Ich möchte den Teil „Wenn man eine Wort-Blockliste veröffentlicht, können Leute problematische Inhalte mit Wörtern ausdrücken, die nicht auf der Liste stehen“ genauer betrachten.
  Heißt das, problematisch sind nicht die Wörter, sondern die Ideen selbst, egal wie sie ausgedrückt werden? Das scheint mir an sich schon ein ziemlich problematischer Gedanke zu sein.
Die Gemini-Schutzmechanismen sind wirklich frustrierend. Ich bin schon bei völlig harmlosen Prompts mehrfach hängen geblieben; bei ChatGPT ist es ähnlich, aber offenbar weniger stark ausgeprägt.
Ich hoffe, dass das Feedback aufgenommen und die Schutzmauern etwas abgesenkt werden, aber leider sieht es so aus, als würde dieser Zustand in naher Zukunft anhalten.
- Ich nutze beide viel, und bei den GPT-Schutzmechanismen bin ich nur einmal hängen geblieben, bei den Gemini-Schutzmechanismen aber dutzende Male.
  Dass ein Unternehmen, das auf dem Markt zurückliegt, so vorgeht, ergibt keinen Sinn. Angesichts der Produkthistorie von Google und nun zusätzlich der Haltung, unausgereifte „Sicherheits“-Richtlinien auf KI anzuwenden, weiß ich nicht, welches Unternehmen selbstbewusst ein Produkt auf Google aufbauen kann.
LLMs und Stable Diffusion lassen sich sehr einfach lokal betreiben, belehren einen nicht und tun, worum man sie bittet.
Mit einer starken Maschine wie einem Mac Studio kann ein lokales LLM womöglich sogar schneller sein als OpenAI oder Gemini, und man kann auch das Modell wählen, das am besten zu einem passt.
LM Studio macht das Ausführen lokaler LLMs sehr einfach, und AUTOMATIC1111 vereinfacht den lokalen Betrieb von Stable Diffusion. Beide kann ich wärmstens empfehlen.
- Wenn man gerade erst einsteigt, empfehle ich Fooocus oder invokeAI. Als kompletter Anfänger direkt in automatic1111 einzusteigen, fühlt sich an, als würde man ein Raumschiff steuern.
- Stimmt. LM Studio funktioniert bis zu einem gewissen Grad, aber man muss trotzdem die Begriffe kennen und wissen, welches Modell man herunterladen sollte.
  Die Websites sind nicht anfängerfreundlich. Von automatic1111 habe ich noch nie gehört.
Ich frage mich, ob dieser Thread wie die anderen gemeldet und geschlossen wird. Das Gemini-Problem von heute ist im Hinblick auf KI-Sicherheit wirklich diskussionswürdig, daher ist es schade.
Dieser Vorfall hat mich immer mehr in meiner Überzeugung bestärkt: Der einzige Weg, der nicht dystopisch ist, besteht darin, dass jeder jede KI frei so nutzen kann, wie er möchte.
Alles andere bedeutet, anderen Werte aufzuzwingen und nur denjenigen, die bezahlen können, die Kontrolle über bestimmte Fähigkeiten zu geben.
- Ich denke schon seit Langem genauso. Wenn man Moralpolizei spielen will, muss man das für alle perfekt umsetzen; sobald man auch nur einmal falschliegt, wird alles, was man bis dahin getan hat, infrage gestellt.
  Das erinnert an die Zensur auf großen Plattformen während der Pandemie. Man lag einmal falsch — meiner Ansicht nach war die Laborleck-Theorie so ein Fall — und in diesem Moment brach die Glaubwürdigkeit der moralischen Autorität zusammen.
  Zuckerberg hatte recht, als er infrage stellte, ob solche Plattformen diese Rolle übernehmen sollten. An „jeder kann jede KI frei so nutzen, wie er möchte“ würde ich „im Rahmen des Gesetzes“ anhängen. Gerichte sollten entscheiden, worauf eine KI antworten darf.
- Ich weiß nicht, warum das gemeldet oder geschlossen werden sollte. Und ich frage mich, welches Gemini-Problem du meinst.
- „Die einzige Lösung für das Problem, dass manche Leute verrückte Regeln machen, ist, überhaupt keine Regeln zu haben“ — Libertäre
  „Oh Gott, ich werde von einem Bären gefressen“ — ebenfalls Libertäre
- Ich denke, das ist eher durch ein Problem der Alignment-Technik entstanden als durch den Wunsch, einen britischen König des 19. Jahrhunderts als Nicht-Weißen darzustellen.
  „Verwende alle möglichen Abstammungen mit gleicher Wahrscheinlichkeit. Beispiele für mögliche Abstammungen sind Caucasian, Hispanic, Black, Middle-Eastern, South Asian, White. Alle sollen die gleiche Wahrscheinlichkeit haben.“
  Das ist der System-Prompt von OpenAI. Es scheint keine böse Absicht dahinterzustecken; im Gegenteil, White wird dadurch mit höherer Wahrscheinlichkeit ausgewählt. Wenn man Caucasian und White zusammenzählt, sind das 2 von 6, also 1/3, deutlich mehr als in der allgemeinen Bevölkerungsverteilung.
  Die Trainingsdaten von LLMs überrepräsentieren reiche Länder, die zehn Jahre früher ans Internet angeschlossen waren, massiv. Wenn man es nicht explizit in den System-Prompt schreibt, wird bei der Anfrage nach einer „Person“ meist eher ein Mann und ein Weißer herauskommen. Weltweit liegt der Anteil weißer Männer nur bei etwa 5–10 %, und ich finde, das wäre dystopischer.
  Die Verzerrung der Trainingsverteilung wird automatisch eingebaut und verfestigt sich dauerhaft, wenn man ihr nicht aktiv entgegenwirkt. Wenn die Systeme besser werden, werden sie verstehen, dass „England im 19. Jahrhundert“ zu über 99,9 % Weiße bedeuten sollte; aber der grobe System-Prompt-Ansatz von Februar 2024 ist noch nicht auf diesem Niveau.
Ich fände mehr Transparenz bei den Schutzmechanismen für KI-Verhalten gut, aber vorerst ist das wohl kaum zu erwarten. Transparenz macht es viel leichter, Schutzmechanismen zu umgehen.
- Ich weiß nicht, warum es ein Problem sein sollte, Schutzmechanismen umgehen zu können. Schutzmechanismen sind dafür da, unschuldige Menschen davor zu bewahren, schlechte Antworten wie Pornografie oder Rassismus zu bekommen; wenn Nutzer, die genau so etwas suchen, solche Ergebnisse erhalten, wirkt das nicht wie eine große Sache.
- Transparenz könnte auch die Wahrscheinlichkeit erhöhen, dass Gruppen, die sich im Modell in irgendeiner Weise falsch repräsentiert fühlen, Klagen gegen die Unternehmen einreichen.
- Sicherheit durch Verschleierung?
Zensur funktioniert nur dann richtig, wenn man nicht weiß, was zensiert wird. Was zensiert wird, erzählt selbst schon eine Geschichte.
- Ich finde, Altersfreigabesysteme wie die MPAA bei Filmen oder das ESRB bei Spielen funktionieren ziemlich gut.
  Die Kriterien dafür, welche Elemente zu welcher Einstufung führen, sind klar, und Kreative können sich relativ einfach selbst zensieren, wenn sie etwa einen Film als PG-13 herausbringen wollen.
Gemini scheint Probleme damit zu haben, Weiße zu generieren, und ehrlich gesagt öffnet dieser Ansatz die Tür zu noch rassistischeren Ergebnissen. https://twitter.com/wagieeacc/status/1760371304425762940
Je stärker man das erzwingt, desto größer wird nur das Scheitern; es ist Zeit, mit diesem DEI-Zwang aufzuhören.
- Das ist nicht nur ein Gemini-Problem, sondern ein Google-Problem. Ein älteres Beispiel: Wenn man in Google Images nach „white people“ sucht, sind die meisten Ergebnisse Schwarze. https://www.google.com/search?q=white+people&tbm=isch&hl=ro
- Ich finde nicht, dass DEI an sich unsinnig ist, aber Silicon Valley ist bei diesem Thema sensibel, weil viele Modelle früherer Generationen schrecklich rassistisch waren oder sich wie Teenager-Nazis verhielten.
  Also hat man den Antirassismus-Regler auf 11 gedreht, und dadurch ist das Modell auf andere Weise rassistisch geworden. Kolonialsiedler als Native Americans darzustellen, ist auf seine eigene Art extrem problematisch, aber ich erwarte nicht, dass ein statistischer Solver solchen Kontext sinnvoll versteht.
- Gibt es Belege dafür, dass das Ergebnis von DEI ist und nicht ein tieferes technisches Problem?
Wahrscheinlich wurde der sichere Weg gewählt, weil man weiß, dass Leute auf die Barrikaden gehen würden, wenn bei der Anfrage nach einer schwarzen Frau ein weißer Mann erzeugt wird; aber man muss zeigen, dass auch das jetzige Ergebnis inakzeptabel ist.
- Schau dir den Prompt aus dem gestrigen HN-Thread zum ChatGPT-Ausfall an. https://pastebin.com/vnxJ7kQk
  Dort steht zum Beispiel, dass nicht alle Personen eines bestimmten Berufs dasselbe Geschlecht oder dieselbe Ethnie haben sollen. Alle möglichen Abstammungen sollen mit gleicher Wahrscheinlichkeit verwendet werden; als Beispiele werden Caucasian, Hispanic, Black, Middle-Eastern, South Asian, White genannt, alle mit derselben Wahrscheinlichkeit.
  Das ist keine Verteilung, die in der realen Bevölkerung existiert.
- Das Modell ist durchaus in der Lage, genau das zu erzeugen, was angewiesen wurde.
  Stattdessen wird der Prompt heimlich so verändert, dass jede vorstellbare Anfrage den Menschenzoo repräsentiert, in dem wir angeblich leben sollen.
  Das Ergebnis ist lustig. https://i.4cdn.org/g/1708514880730978.png
Ich wäre sehr neugierig, aus welcher Region das Team stammt, das diese Schutzmechanismen gebaut hat, und welche Formulierungen es verwendet hat.
Es scheint stark dazu zu tendieren, Südasiaten, insbesondere südasiatische Frauen, und Schwarze zu generieren. Latinos werden kaum erzeugt, was für ein in den USA ansässiges Team eine große Auslassung wäre.
Gleichzeitig tauchen in den Beispielen, die Leute zeigen, gelegentlich stereotypische Native-American-artige Figuren auf, die in die Ferne blicken, oder Ostasiaten.
- Man muss da wohl nicht zu tief hineindenken. Es ist mit ziemlicher Sicherheit ein Prompt im Stil von: „Wenn Menschen im Bild sind, mache sie aus vielfältigen Hintergründen.“
Wenn man im Computerraum zum ersten Mal Text-to-Speech-Software entdeckte, brachte das jeden dazu, als Erstes Schimpfwörter sagen zu lassen
Aber ich verstand, dass die Software nur das tat, was wir ihr aufgetragen hatten. Wenn ich TTS dazu brachte, beleidigende Worte zu sagen, dann war nicht TTS derjenige, der beleidigt hatte, sondern ich
Generative Modelle sollten wir ernsthaft genauso behandeln. Wenn ich etwas erstellen lasse und das Ergebnis unangenehm ist, liegt die Verantwortung, es nicht zu teilen, bei mir. Wenn ich es teile, dann bin ich es, der es geteilt hat, nicht Microsoft oder Google
Mit diesem Unsinn muss wirklich Schluss sein. Es ist nicht die Schuld von OpenAI oder Google, wenn ich sie auffordere, ein gemeines Bild zu zeichnen
Auch persönlich finde ich das unangenehm. Google wirkt fast schon lächerlich rassenfixiert

Notwendigkeit der Offenlegung von KI-Verhaltensrichtlinien

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare