Purple Llama: Meta veröffentlicht offene Trust-&-Safety-Tools für generative KI

(ai.meta.com)

1 Punkte von GN⁺ 2023-12-08 | 1 Kommentare | Auf WhatsApp teilen

Da die Nutzung offener generativer KI-Modelle schnell zunimmt, stellt Meta Purple Llama als übergeordnetes Projekt vor, das Trust-&-Safety-Tools und Evaluierungen bündelt, damit Entwickler verantwortungsvoll deployen können
Die erste Veröffentlichung konzentriert sich auf CyberSec Eval zur Bewertung von Cybersecurity-Risiken von LLMs sowie auf das Ein- und Ausgaben schützende Modell Llama Guard
CyberSec Eval prüft auf Basis von Standards wie CWE und MITRE ATT&CK unsichere Code-Vorschläge und die Fähigkeit zum Umgang mit bösartigen Anfragen
Llama Guard ist ein offen verfügbares vortrainiertes Modell für Entwickler, die Eingaben und Ausgaben gemäß anwendungsspezifischen Content-Richtlinien prüfen und filtern möchten
Purple Llama wird unter einer permissiven Lizenz bereitgestellt, und Meta will gemeinsam mit der AI Alliance sowie wichtigen Partnern aus Cloud-, Chip- und KI-Ökosystemen die offene Trust-&-Safety-Basis ausbauen

Das Problem, auf das Purple Llama abzielt

Purple Llama ist ein übergeordnetes Projekt für Trust-&-Safety-Tools und Evaluierungen, das dabei helfen soll, offene generative KI-Modelle verantwortungsvoll zu entwickeln
Generative KI hat konversationelle KI, realistische Bildgenerierung und die Zusammenfassung großer Dokumente mit einfachen Prompts möglich gemacht, und die Llama-Modelle wurden bislang mehr als 100 Millionen Mal heruntergeladen
Da Sicherheitsprobleme für einzelne Entwickler nur schwer isoliert zu lösen sind, soll Purple Llama eine gemeinsame Grundlage für offene Trust-&-Safety-Arbeit bereitstellen
Der anfängliche Veröffentlichungsumfang umfasst Cybersecurity sowie Schutzmechanismen für Ein- und Ausgaben; künftig sollen weitere Tools hinzukommen
Die Komponenten werden unter einer permissiven Lizenz bereitgestellt, die Forschung und kommerzielle Nutzung erlaubt

Erste Veröffentlichung: CyberSec Eval und Llama Guard

In einem ersten Schritt werden zwei Komponenten veröffentlicht
- CyberSec Eval: ein Benchmark-Set zur Bewertung der Cybersecurity-Sicherheit von LLMs
- Llama Guard: ein Sicherheitsklassifikator für die Filterung von Ein- und Ausgaben
Cybersecurity und Prompt-Sicherheit bei LLMs gehören derzeit zu den prioritären Bereichen der Sicherheit generativer KI und werden auch im Responsible Use Guide für Llama 2 als Best Practices behandelt

CyberSec Eval: Messung der Cybersecurity-Risiken von LLMs

CyberSec Eval wird als das erste branchenweit nutzbare Set zur Bewertung der Cybersecurity-Sicherheit von LLMs vorgestellt
Die Benchmarks basieren auf Branchenrichtlinien und Standards wie CWE und MITRE ATT&CK und wurden in Zusammenarbeit mit Sicherheitsexperten entwickelt
Die erste Veröffentlichung konzentriert sich darauf, einige der Risiken aus den White House commitments für verantwortungsvolle KI-Entwicklung zu adressieren
- Metriken zur Quantifizierung von Cybersecurity-Risiken bei LLMs
- Tools zur Bewertung der Häufigkeit unsicherer Code-Vorschläge
- Evaluierungstools für LLMs, um die Generierung von Schadcode oder die Unterstützung bei Cyberangriffen zu erschweren
Erste Ergebnisse zeigen, dass bei LLMs signifikante Cybersecurity-Risiken bestehen, sowohl bei Empfehlungen für unsicheren Code als auch bei Antworten auf bösartige Anfragen
Detaillierte technische Informationen finden sich im Cybersec Eval paper

Llama Guard: Ein Schutzmodell zum Filtern von Ein- und Ausgaben

Der Responsible Use Guide für Llama 2 empfiehlt, sämtliche Eingaben und Ausgaben eines LLM anhand von für die Anwendung passenden Content-Richtlinien zu prüfen und zu filtern
Llama Guard ist ein vortrainiertes Modell, das Entwickler einsetzen können, um sich gegen potenziell riskante Ausgaben zu schützen
Es zeigt auf allgemeinen öffentlichen Benchmarks eine wettbewerbsfähige Leistung und ist auf einfache Bereitstellung optimiert
Methodik und Leistungsdiskussion sind im Llama Guard paper veröffentlicht
Es wurde mit einer Mischung öffentlicher Datensätze trainiert, um allgemeine riskante oder regelverletzende Content-Typen zu erkennen, die für verschiedene Entwickler-Anwendungsfälle relevant sein können
Das letztliche Ziel ist es, Entwicklern die Anpassung des Modells an relevante Use Cases zu erleichtern und die Übernahme von Best Practices sowie die Verbesserung des offenen Ökosystems zu fördern

Warum Purple?

Um die Risiken generativer KI zu verringern, müssen die Perspektive des Red Teams und die des Blue Teams gemeinsam genutzt werden
Purple teaming ist ein kollaborativer Ansatz, der die Rollen von Red Team und Blue Team kombiniert, um potenzielle Risiken zu bewerten und zu mindern
Der Name Purple Llama spiegelt die Ausrichtung wider, diesen Ansatz auch auf Trust-&-Safety-Arbeit für generative KI anzuwenden

Offenes Ökosystem und Zusammenarbeit

Explorative Forschung, Open Science und bereichsübergreifende Zusammenarbeit bilden die Grundlage von Metas KI-Aktivitäten
Llama 2 wurde im Juli gemeinsam mit mehr als 100 Partnern veröffentlicht, von denen viele auch im Bereich offene Trust & Safety kooperieren
Zu den Partnern gehören die AI Alliance, AMD, Anyscale, AWS, Bain, Cloudflare, Databricks, Dell Technologies, Dropbox, Google Cloud, Hugging Face, IBM, Intel, Microsoft, MLCommons, Nvidia, Oracle, Orange, Scale AI, Together.AI und weitere
Meta arbeitet mit Partnern von Papers With Code und HELM zusammen, um diese Evaluierungen in Benchmarks aufzunehmen
Außerdem gibt es eine Zusammenarbeit mit der MLCommons AI Safety Working Group

Pläne nach der Veröffentlichung

Meta plant, auf der NeurIPS 2023 einen Workshop abzuhalten und Menschen mit Tool-Sharing sowie vertiefenden technischen Sessions beim Einstieg zu unterstützen
Sicherheitsrichtlinien und Best Practices bleiben im gesamten Bereich ein Thema, das fortlaufend diskutiert wird
Materialien zu Llama 2 sind auf der Llama website verfügbar, einschließlich Quickstart-Dokumentation und FAQ
Zusätzlich werden best practices and considerations für den Aufbau LLM-basierter Produkte bereitgestellt
Together.AI und Anyscale werden in den kommenden Wochen auf der NeurIPS gehostete Demos anbieten

1 Kommentare

GN⁺ 2023-12-08

Meinungen auf Hacker News

Ich verstehe nicht, warum in der neuen Initiative, die Menschen dabei helfen soll, „generative KI-Modelle und -Erfahrungen verantwortungsvoll bereitzustellen“, die Bedrohung durch Prompt Injection nicht angemessen anerkannt wird
Im 27-seitigen Responsible Use Guide habe ich sie genau einmal gesehen, und selbst dort wurde sie fälschlich als „Versuch, Inhaltsbeschränkungen zu umgehen“ beschrieben
„CyberSecEval: A benchmark for evaluating the cybersecurity risks of large language models“ sah vielversprechend aus, behandelt tatsächlich aber nur das Risiko, dass Codegenerierungsmodelle verwundbaren Code erzeugen, sowie das Risiko, dass Angreifer mit LLMs neue Angriffe entwickeln
„Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations“ interessiert sich ebenfalls nur dafür, mehrere Kategorien schädlicher Inhalte auf Englisch zu erkennen. Immerhin ist es gut, dass sie kein Modell zur Erkennung von Prompt Injection veröffentlicht haben; gegenüber diesem Ansatz bin ich weiterhin sehr skeptisch
Ich bin überzeugt, dass Prompt Injection die größte Herausforderung ist, wenn man verschiedene Anwendungen, die auf LLMs aufbauen, verantwortungsvoll bereitstellen will. Ein „persönlicher KI-Assistent“ ist ein typisches Beispiel: Sobald ein LLM gleichzeitig Zugriff auf persönliche Daten und nicht vertrauenswürdige Eingaben hat, etwa E-Mails, die es zusammenfassen soll, besteht die Gefahr, dass Probleme entstehen: https://simonwillison.net/2023/May/2/prompt-injection-explai...
Ich verstehe, dass es schwierig ist, in eine KI-Sicherheitsankündigung den Satz „Falls Sie eine Lösung für Prompt Injection erwartet haben: Die gibt es noch nicht, sorry“ aufzunehmen, aber es fühlt sich so an, als würde Meta AI die derzeit größte Sicherheitsbedrohung für LLM-Systeme unter den Teppich kehren
- Bei vielen realen LLM-Anwendungen war Prompt Injection oft nicht das Hauptproblem
  Am häufigsten werden in der Praxis Chatbots mit Retrieval-Augmented Generation (RAG) bereitgestellt, und die sind normalerweise stark eingeschränkt. Sie haben keinen Internetzugang, können keine Tools ausführen und dienen im Grunde nur als Interface zu einer nicht vertraulichen Wissensdatenbank
  Prompt Injection lässt sich zwar missbrauchen, aber die Auswirkungen sind begrenzt. Prompt-Leaks sind nicht besonders interessant, und es kann zwar das Problem geben, dass jemand das System übernimmt, um das LLM kostenlos zu nutzen, doch dem lässt sich mit relativ einfachen Techniken wie Rate Limiting leicht begegnen
  Für viele Unternehmen ist es deutlich riskanter, wenn ein Chatbot schädliche, falsche oder unangemessene Antworten liefert. Man denke an einen E-Commerce-Chatbot, der Rückgabebedingungen falsch erklärt, oder einen Bildungsbot, der Kindern gewalttätige Inhalte zeigt; die rechtlichen und reputationsbezogenen Probleme sind dann viel größer
  Dass irgendein Nerd mit ausgefeilten Prompts absichtlich seltsame Antworten aus einem LLM herauskitzelt, ist im Vergleich zu diesen Problemen meist zweitrangig
  Trotzdem ist die Kritik berechtigt. Einer der Gründe, warum die Nutzung von LLMs auf diesem ziemlich dummen Niveau verharrt, ist gerade, dass Prompt Injection nicht gelöst ist, und das Risiko zu groß ist, um leistungsfähigere LLM-basierte Systeme bereitzustellen. Wenn man dieses Problem löst, könnte sich viel bislang ungenutztes Potenzial erschließen
- Ich habe LLMs für mehrere kommerzielle Einsatzzwecke bereitgestellt, und zumindest in diesen Fällen hätte man schon wirklich dumm designen müssen, damit sie Nutzer tatsächlich gefährden. Zum Beispiel, indem man Nutzersessions nicht isoliert, das Modell beliebigen Code ausführen lässt oder es ohne Bestätigung des Nutzers privilegierte Aktionen ausführen lässt
  Außerdem: Wenn Nutzer selbst „Prompt Injection“ betreiben, würde ich das einfach fortgeschrittene Nutzung nennen. Diese Dienste sind Werkzeuge für Kunden; wenn ein Nutzer statt einer Zusammenfassung eingehender E-Mails lieber erotisches Rollenspiel möchte, ist das seine Entscheidung
  Wenn der Absender einer E-Mail versucht, den Nutzer ohne dessen Zustimmung dazu zu bringen, ist das im besten Fall ein organisatorisches Problem und im schlimmsten Fall ein separates technisches Problem. Das lässt sich mit klassischer E-Mail-Filterung behandeln und auch implementieren, ohne LLMs dafür verantwortlich zu machen
  Die Cybersicherheitsprobleme rund um LLMs entstehen meist dann, wenn man diese Modelle nicht als probabilistische Informationsvorhersage-Engines behandelt, sondern wie vertrauenswürdige menschenähnliche Experten-Agenten
  Ein LLM an eine API anzubinden, die privilegierte Nutzerdaten direkt verändern und diese Daten über das Netzwerk teilen kann, ist ein geradezu lächerliches Maß an Sicherheitsunkenntnis. Mir kommt das unten geteilte Bard-Beispiel in den Sinn
  Wenn man irgendeiner Person von der Straße keinen bestimmten API-Zugriff geben würde, sollte man ihn auch einem LLM nicht geben. Wenn sich mit klassischer Programmierung und Heuristiken kein gewisses Maß an Determinismus erzwingen lässt, sollte das LLM auf APIs beschränkt werden, die dem Nutzer die Anfrage anzeigen und sie bis zur Bestätigung blockieren
- Der Grund, warum man vorsichtig ist, irgendeine Methode zur Vermeidung von Prompt Injection vorzuschlagen, dürfte sein, dass sie meist innerhalb kurzer Zeit scheitert und dabei auch die berufliche Reputation des Vorschlagenden mit in den Abgrund reißt
  Genau die Eigenschaft, die LLMs gut in sprachbasierten Aufgaben macht, ist dieselbe, aus der Social Engineering gegenüber Menschen zur Achillesferse der Sicherheit wird
  Um das zu überwinden, müsste man entweder den OpenAI-Ansatz wählen, der scheinbar offen, in Wahrheit aber geschlossen ist, und geheime Listen „böser Wörter“ führen, oder man müsste LLMs so paranoid und berechnend trainieren, dass man in andere Arten von Alignment-Problemen läuft
  Persönlich bevorzuge ich schwach ausgerichtete Modelle, die auf Hardware laufen, die mir gehört, also on-premises statt in der Cloud. Nicht, weil ich Rezepte für TNT oder Rechtfertigungen für Vorurteile möchte, sondern weil ich ein Modell will, mit dem ich über Hypothesen streiten kann
  Die schmeichlerische Haltung der meisten kommerziellen Chat-Modelle geht mir wirklich auf die Nerven. Es fühlt sich nicht an, als hätte man einen kybernetischen Partner, sondern als wäre man in einem Hotel mit übertrieben herausgeputztem Personal
- Hat jemand in Worte gefasst, woraus die „Angst“ genau besteht? Wenn die Sorge ist, dass Nutzer auf Informationen zugreifen können, die in das LLM eingegeben wurden, dann ist das tatsächlich alles, was passieren kann
  Ich habe Zehntausende Wörter über die „Angst“ vor LLM-Sicherheit gelesen, aber noch keine einzige berechtigte Sorge gehört. Es klingt ähnlich wie die „Angst“, dass Google-Nutzer nicht nur Suchergebnisse bekommen, sondern auf Links klicken und Googles Sicherheitszone verlassen können
- Stimme vollkommen zu. Auch wenn es keine Lösung gibt, sollten Abhilfemaßnahmen breit bekannt gemacht werden
  Zwischen „technisch weiterhin anfällig für Prompt Injection“ und „jemand kann leicht private Daten abziehen und das Unternehmen ruinieren“ liegt ein großer Unterschied, und die Leute müssen wissen, wie sie von der zweiten Kategorie näher an die erste herankommen
Als Sicherheitsforscher freue ich mich über die Formulierung „Bewertungstool, das es LLMs erschwert, Schadcode zu erzeugen oder bei der Durchführung von Cyberangriffen zu helfen“, bin aber auch enttäuscht.
Cybersecurity-Forschung ist ein legitimer Zweck für den Einsatz von LLMs, und dazu gehört auch, „bösartigen“ Code zu erzeugen, um zu üben oder verantwortlichen Parteien ein Problem zu demonstrieren.
Andererseits freut es mich auch zu wissen, dass meine Arbeitsplatzsicherheit gewährleistet ist, solange nicht alle LLMs bei Cybersecurity-Anfragen helfen.
- Das Bewertungstool lässt sich leicht umdrehen, um ein feinabgestimmtes Modell zu erstellen, das hervorragend in der Erzeugung von Malware ist.
  Metas Haltung zu LLMs scheint darauf hinauszulaufen, Modellentwicklern zu ermöglichen, Modelle für unterschiedliche Zwecke zu bauen. Anders als die sicherheitsorientierte Formulierung auf dieser Seite ist das Basis-LLM in keiner Weise zensiert, und diese Purple-Tools ermöglichen lediglich, Fine-Tuning „sicherer“ oder weniger „sicher“ zu steuern.
- Das interessantere Sicherheitsproblem ist die LLM-Version der Cross-Site-Scripting-Angriffe, über die Simon Willison viel geschrieben hat.
  Wenn es ein LLM-Tool gibt, das Text unbekannter Herkunft verarbeiten und zusammenfassende E-Mails verschicken kann, bedeutet das: Die Eingabe kann kontaminiert sein, und es kann E-Mails versenden.
  Jemand könnte in den Text Inhalte einbetten, die das LLM als Anweisungen interpretiert, dadurch die Absicht des Nutzers überschreibt und es dazu bringt, vertrauliche Informationen an andere zu senden. Es gibt kein Gegenstück zu Anführungszeichen als Abwehrmaßnahme, und es gibt nur einen einzigen Token-Stream.
- Alles hier wirkt optional und wie ein Tool, das zwischen LLM und Nutzer sitzt.
- Ich sehe nicht, warum das Bewertungstool kein reiner Gewinn sein sollte. Verschiedene Modelle haben unterschiedliche Einsatzzwecke.
Ich verstehe es nicht so recht. Was auch immer die ursprünglichen Forscher tun: Am Ende werden Leute Modelle mit unzensierten Daten trainieren oder anpassen.
Für Llama sind zensurfreie Modelle bereits leicht verfügbar, und sie leisten deutlich mehr als zensierte Modelle ähnlicher Größe.
Output-Bereinigung ergibt allerdings Sinn.
- Wenn man ein LLM dafür nutzt, Daten aus PDFs zu extrahieren und in eine Datenbank zu schreiben, kann man jedes gewünschte Modell verwenden.
  Wenn die US-Regierung aber einen Chatbot möchte, der bei der Anmeldung zum Health Insurance Marketplace hilft, braucht sie Guardrails und Garantien, selbst wenn das auf Kosten der Antwortqualität geht.
- Das wissen sie auch. Das ist kein Tool, um zu verhindern, dass solche KI entsteht, sondern ein Unternehmensschutz-Tool, um zu verhindern, dass eine öffentlich bereitgestellte KI eine Marktreaktion auslöst, die zu Gewinneinbußen führt.
  Am Ende geht es immer ums Geld.
- Unternehmen könnten solche KI an Menschen verkaufen wollen, und manche Menschen werden sich daran stoßen. Wenn eine KI einem Kind etwas Schlimmes sagt, dürfte das in den USA wahrscheinlich ein großes Problem werden.
  Ein weiteres Thema ist Prompt-Injection-Sicherheit. Angenommen, man möchte einen KI-Assistenten für E-Mail, der E-Mails liest, organisiert und diktierte Nachrichten verfasst. Wie kann man zu 100 % sicher sein, dass der Assistent wegen einer Prompt Injection in einer bösartigen E-Mail nicht alle E-Mails an einen Bösewicht weiterleitet?
  Ich hoffe, dass eine neue, intelligentere KI-Architektur gefunden wird, die es der Open-Source-Community erleichtert, Modelle ohne Unternehmenszensur zu trainieren.
- Nichts hier verhindert die Entscheidung, ein Modell mit bestimmten Fähigkeiten zu bauen, einschließlich unzensierter Modelle. Es gibt Tools zur Modellbewertung und Tools zur Inhaltsbewertung; Letztere sollen je nach LLM-Einsatzszenario Eingaben, Ausgaben oder beides klassifizieren.
  Wenn unzensierte Modelle insgesamt leistungsfähiger sind, braucht man umso mehr Mittel jenseits interner Modellzensur, um sicherzustellen, dass ein bereitgestelltes Modell keine unbeabsichtigten Arten von Inhalten an Endnutzer ausliefert.
  Natürlich gibt es auch Anwendungsfälle, in denen man alles völlig offen lassen möchte, aber bei kommerziellen, staatlichen und gemeinnützigen Enterprise-Anwendungen ist das eher die Ausnahme als die Norm. Auch wenn man kein zensiertes Modell verwendet, ist Eingabeklassifizierung zur Durchsetzung von Nutzungsrichtlinien nützlich.
- Ein Teil meiner Arbeit besteht darin, zu untersuchen, wie sich Technik verhält, wenn sie in die Hände echter Nutzer gelangt.
  Zum Spaß musste ich 27 Personen zufällig auf 12 Teams verteilen, und weil Leute mit mehreren Chatbots sicher genau solche Dinge machen, habe ich statt einer Tabellenkalkulation ein paar Chat-Modelle damit beauftragt. Die Namensliste war durch Kommas getrennt und sollte einfach in Teams aufgeteilt werden.
  Modell 1 sagte, es werde die von mir angegebene Liste „zufällig“ zuweisen, nahm sie aber tatsächlich exakt in der eingegebenen Reihenfolge. Zufällig war sie alphabetisch nach Namen sortiert. Die Namen stimmten, und technisch war es nicht falsch, aber es entsprach nicht der Erwartung.
  Modell 2 wies die Namen zufällig zu, erfand aber zwischendurch zwei fiktive Personen. Das Ergebnis umfasste 27 Personen, und wenn ich es nicht überprüft hätte, wären einigen Teams fiktive Personen zugeteilt worden. Bei einem viel größeren Datensatz wäre das beängstigend.
  Modell 3 gab eine gültige Antwort, aber ein in den Ausgabefluss eingebundener Detektor für Hass und Missbrauch markierte meinen Namen und einige andere Namen als potenziell schädliche Inhalte.
  Ich fand es interessant, dass sich die Modelle so verhalten haben, und ein „Purple-Team“-Ansatz könnte solche Probleme finden. Insbesondere wüsste ich gern, warum mein Name bei einem Modell potenziell schädlicher Inhalt ist.
  Am Ende habe ich es mit einer Tabellenkalkulation erledigt und weitergemacht ;-)
Microsofts Definition von Sieg scheint darin zu bestehen, Host für KI-Inferenzprodukte und -dienste zu werden. Startups bauen nützliche KI-Produkte, und MSFT kassiert Steuern, um noch mehr Rechenzentren zu bauen
Ich habe Metas Strategie noch nicht gründlich durchdacht, aber wenn man es einmal durchspielt: Die Veröffentlichung bzw. das Leak von Llama Anfang des Jahres hat das Schlachtfeld verändert. Open-Source-Enthusiasten haben es genommen und optimiert, und KI-Forschende haben es bis zu einem Niveau getrieben, das sie zuvor für unmöglich hielten oder zu dem sie keinen Anreiz hatten
Diese Optimierungswelle kann man als Versuch sehen, zu umgehen, dass ein Meta-Konkurrent am Ende die Besteuerungshoheit bekommt. So wie jemand DOOM auf einem Taschenrechner zum Laufen bringt, wird jemand dasselbe mit LLM-Inferenz tun
Hofft Meta darauf, dass die Open-Source-Community als eine Art Stellvertreterkrieg gegen FAANG-Konkurrenten kämpft?
Es sieht nicht so aus, als würde die Open-Source-Community Meta vertrauen. Die FOSS-Seite hat ein langes Gedächtnis für Groll, und Meta steht im direkten Gegensatz zu ihren Kernidealen. Trotzdem wird sie nutzen, was Meta herausgibt
Ich sehe keinen klaren Weg, wie Metas KI-Strategie Geld einbringt oder Entwickler und Kunden in das Meta-verse zieht
- Meta hat eine hervorragende Historie bei FOSS-Beiträgen. Ich mag die Consumer-Produkte nicht, aber die Open-Source-Beiträge sind umfangreich und zahlreich
- Klingt nach klassischer Kommodifizierung von Komplementärgütern. Meta profitiert von KI-Fähigkeiten, muss aber kein Monopol auf die Technologie halten
  Es profitiert vom Fortschritt selbst und kann dafür mit der Open-Source-Community zusammenarbeiten
  https://gwern.net/complement
- Tech-Aktien werden im Vergleich zu anderen Unternehmen zu absurden Kurs-Gewinn-Verhältnissen gehandelt, weil Investoren sich eine Zukunft vorstellen, in der der Umsatz des Unternehmens immer weiter steigt
  Eine der vielen Aufgaben eines CEOs ist es, die Investoren weiter in dieser Fantasie zu halten. Es braucht nicht unbedingt heute schon Umsatz; es reicht zu zeigen, dass man an vorderster Front der nächsten großen Welle steht
  Die Strategie scheint also grob zu sein: Modell veröffentlichen → anders als bei Google können Menschen es tatsächlich nutzen, deshalb wird es in der Tech-Welt ein großes Thema → Investoren sehen Facebook an der Spitze des derzeit heißesten Trends → Aktienkurs steigt
  Gleichzeitig könnte man gute Modelle für Content-Moderation bekommen, es könnte helfen, Top-ML-Fachleute einzustellen, und 60 % von ihnen könnte man darauf ansetzen, die Werbeumsätze zu maximieren
  FB trainierte die Modelle ohnehin, und wenn es nicht vorhatte, Cloud-Service-Anbieter zu werden, der diese Modelle verkauft, steigen die Kosten durch eine Veröffentlichung nicht dramatisch
  Das Metaverse ist daran gescheitert, Investoren zu begeistern, und ist tot. Zum Glück für Zuck tauchte genau zum richtigen Zeitpunkt etwas viel Besseres auf: Ergebnisse an der Spitze des Machine Learning
- Man sollte sich daran erinnern, dass Meta etwa zwei Wochen vor ChatGPT einen Chatbot zur Zusammenfassung wissenschaftlicher Arbeiten, einschließlich medizinischer Forschung, veröffentlicht hatte
  Obwohl sie stark betonten, dass es ein Experiment sei, griffen Kritiker ihn übermäßig heftig an, und Meta nahm ihn nach wenigen Tagen wieder herunter
  Offenbar haben sie erkannt, dass ein direkter Konkurrent zu ChatGPT nur sehr geringe Erfolgschancen hätte, sehen aber viele angrenzende Bereiche, die sich lohnen könnten. Was man auch immer vom Geschäft hält – auch mein Account liegt seit Jahren brach –, dort arbeiten immer noch viele kluge und motivierte Leute
- Muss das Ziel dieses konkreten Versuchs zwingend sein, Geld zu verdienen oder Entwickler direkt ins Meta-verse zu ziehen?
  Meta verdient bereits sehr viel Geld und scheint auch mehrere Moonshot-Projekte zu betreiben
  Wie gesagt: Die FOSS-Seite hat ein langes Gedächtnis für Groll. Könnte das nicht ein Versuch sein, diese Gruppe wieder zurückzugewinnen und die öffentliche Wahrnehmung von Meta zu verändern?
  Die Wahrscheinlichkeit, dass Llama im Kern eine Kampagne zum Wiederaufbau der Marke ist, ist nicht null
  Der Stellvertreterkriegs-Aspekt könnte ein Bonus obendrauf sein
Also doch kein neues Modell, sondern wieder „Safety“-Blödsinn
- Safety ist nur das neueste trojanische Pferd, mit dem Big Tech kontrollieren will, wie Menschen ihre eigenen Computer nutzen
  Ich glaube durchaus an verantwortungsvollen KI-Einsatz, aber ich glaube nicht, dass diese Unternehmen mein bestes Interesse im Sinn haben, und auch nicht, dass sie bestimmen sollten, was ich mit meinem Computer tun darf
  Sinngemäß: Wer Freiheit gegen Sicherheit eintauscht, wird am Ende beides nicht bekommen
- Unabhängig davon, ob „Safety“ an sich Blödsinn ist: Das hier ist beides. Llama Guard ist ein Modell mit ähnlicher Funktion wie die OpenAI Moderation API, und es ist ein Modell, dessen Gewichte man nutzen kann
  „AI Safety“ ist oft – und die Bewegung, die den Begriff populär gemacht hat, ist vollständig – ziemlich nah an Blödsinn und lenkt von den realen, gegenwärtigen gesellschaftlichen Schäden ab, die KI verursacht
  Dagegen sind relativ offene Tools, die Menschen, die LLMs bauen und bereitstellen, Informationen liefern, um die Fähigkeiten des Modells und tatsächliche Ein- und Ausgaben in sensiblen Bereichen zu verstehen, etwas, das diejenigen begrüßen sollten, die wollen, dass offenere und unzensierte Modelle im Zentrum der Entwicklung stehen statt zentralisierte Blackbox-Zensurmodelle
  Solche Tools braucht es, damit Institutionen solche Modelle in wichtigen realen Anwendungen einsetzen können
- Mit Safety ist hier nicht einfach nur gemeint: „Sprich nicht über kontroverse Themen“
  Safety kann hier auch bedeuten, dass ein LLM in einem bestimmten Anwendungsfall innerhalb akzeptabler Grenzen funktioniert
  Nehmen wir zum Beispiel ein medizinisches LLM, das Patienten dabei hilft, eine medizinische Einrichtung aufzusuchen, Patientenaufklärung bietet und Krankenhäuser bei alltäglichen Verwaltungsaufgaben unterstützt
  Wenn ein Patient nach Ratschlägen zu Medikamenten fragt, möchte man keinen Bot, der ohne Prüfung durch medizinisches Personal eine Dosisänderung empfiehlt oder rezeptfreie Medikamente vorschlägt, die mit bestehenden Verschreibungen interagieren
  Derzeit geben viele LLMs plausibel klingenden Unsinn aus oder können dazu gebracht werden, die Antwort zu liefern, die der Nutzer hören möchte. In vielen Umgebungen wird das zu einem echten Sicherheitsproblem
- Es ist schon ein neues Modell. Nur eben ein „Safety-Blödsinnsmodell“
  Trotzdem könnte der Datensatz selbst nützlich sein. Ich überlege, den codesec-Teil als zusätzliche Trainingsdaten für ein Code-only-LLM zu verwenden, denn wenn es Code generiert, ist es besser, es dazu zu bringen, über mögliche Sicherheitsauswirkungen nachzudenken
Wer schon lange genug Memes im Internet gesehen hat, weiß, dass es bei Spinnen-Geschichten das Meme gibt, man müsse den Ort oder das Haus anzünden.
Vor einem Jahr sah ich auf Facebook ein Video von einem kleinen Mädchen, das eine Spinne hielt, die deutlich größer war als ihre Hand, und wegen dem, was danach passierte, erinnere ich mich noch wortwörtlich an meinen Kommentar: „Kind, weg von dem Ding, wir müssen unser Haus anzünden!“
Ich postete den Kommentar, aber er erschien nicht, und eine Sekunde später teilte Facebook mir mit, dass mein Kommentar gemeldet worden sei. Das war viel zu schnell für eine Meldung, also hielt ich es für AI, und legte Einspruch ein, in der Hoffnung, dass es zu einem Menschen gelangt; der wurde aber ziemlich schnell, nach etwa 15 Minuten, abgelehnt.
Ich kann nur annehmen, dass es jemand gelesen hat, aber offenbar weder das Video gesehen noch verstanden hat, dass es ein Witz war.
Also habe ich aufgehört, Facebook komplett zu nutzen. Damals hatte ich beruflich Apps, für die ich Admin-Rechte hatte, und das Risiko einer Kontosperrung wäre kein erfreuliches Gespräch mit meinem Chef gewesen.
Wahrscheinlich habe ich Facebook sogar Umsatz gebracht. Ich habe ihre unglaublich gezielt ausgespielte Werbung angeklickt und tatsächlich Dinge gekauft. Aber jetzt will mich eine AI-Maschine bestrafen, weil ich einen Meme-Kommentar gepostet habe, also nutze ich es gar nicht mehr.
Nebenbei sollte man sich den Begriff Trust and Safety merken. Das ist eine Formulierung, die alle großen Tech- und Social-Media-Unternehmen wiederverwenden, und eine Art, einseitig festzulegen, was auf sehr vielen Websites auf einmal erlaubt ist.
Trust-and-Safety-Link: https://dtspartnership.org/
- Stellst du dir vor, Facebook würde genug Mitarbeiter einstellen, damit ein Mensch jede einzelne Meldung 15 Minuten lang persönlich untersucht und dann entscheidet?
  Dafür müsste fast jeder, den ich kenne, bei Facebook arbeiten.
- Man kann einfach Facebook nicht nutzen.
  Die Leute beschweren sich, und natürlich könnte man regulieren, aber die Durchsetzung ist oft schwierig, und nuancierte Kontexte sind ebenfalls schwer zu behandeln.
  Solche Plattformen sind nicht die einzige Möglichkeit, in Kontakt zu bleiben und zu kommunizieren.
  Allerdings müssen sie eine Moderationsweise wählen, die ihre Nutzerbasis immer wieder zurückkommen und mitmachen lässt, keine PR-Probleme verursacht und Werbekunden weiter anzieht oder laute Gruppen anspricht, die Probleme machen können.
  Deshalb gibt es diese theatralischen „Ethik“-Gremien und „verantwortungsvollen“ Slogans.
  Am Ende ist es einfach ein Geschäft.
- „Wir müssen das Haus anzünden“ lässt sich unabhängig vom Kontext nur schwer auf einer Plattform stehen lassen und kann in einem anderen Kontext interpretiert werden.
  Angesichts der Größe ist das Flagging an sich nachvollziehbar. Natürlich nutze ich sie auch nicht, aber das ist eine andere Sache.
- Gleichzeitig lese ich Artikel darüber, dass FB die Verbreitung von Pädophilen-Gruppen in seinem Dienst nicht in den Griff bekommt und dass das Empfehlungssystem sie sogar bewirbt.
  [1] https://www.wsj.com/tech/meta-facebook-instagram-pedophiles-...
- Interessanterweise ist mir vor etwa einem Monat auf Facebook etwas sehr Ähnliches passiert.
  Die Überschrift eines Artikels war so formuliert, als gebe es „eine Person“, die alle Staus verursache, und die Leute machten in den Kommentaren Witze darüber.
  Ich scherzte ebenfalls: „Den Kerl müssen wir finden und ihm mal eins überziehen.“
  Fast sofort kam eine Benachrichtigung wegen „Anstiftung zu Gewalt“, und mein Einspruch wurde innerhalb von 15 Minuten abgelehnt.
  Ein Mensch hätte nach einer halben Sekunde den Kontext verstanden und auch erkannt, dass diese Person gar nicht wirklich existiert und es daher keine Anstiftung zu Gewalt ist.
Eine etwas lustige Entwicklung: Meta scheint von Microsoft gelernt zu haben, wie man eine labyrinthische Login-Erfahrung baut.
Ich ging auf ai.meta.com und wollte mich mit meinem bewährten Facebook-Konto anmelden.
Nachdem ich alles getan hatte, was verlangt wurde, bekam ich den Hinweis, dass es in meinem digitalen Arsenal noch kein Meta-Konto gebe. Also erstellte ich eins und dachte natürlich: „Was soll das?“
Die Pointe war dann, dass es in meiner Region nicht verfügbar ist.
Lob an Microsoft dafür, die UX-Messlatte so hoch gelegt zu haben. Dieses Erbe lebt an unerwarteten Orten weiter.
- Ich habe es auf Android versucht, und es fragte mich, ob ich FB, Instagram oder E-Mail verwenden wolle. Ich wählte Instagram, wurde aber trotzdem zu Facebook weitergeleitet.
  Danach sagte Facebook, ich müsse das Login meines VR-Headsets verwenden, irgendein Ding, das ich seit der ersten Woche nach dem Kauf nicht mehr benutzt habe. Ich sagte erst einmal okay.
  Dann fragte es, ob ich mit Facebook verknüpft fortfahren wolle oder ohne Verknüpfung, und ich brach ab.
- Wenn die Region die EU ist, sollte man die Regulierungsbehörden verantwortlich machen. Ihre AI-Regulierung wird schnell immer belastender.
- Was mir von Microsoft am stärksten in Erinnerung geblieben ist, ist, dass es vor ein bis zwei Jahren so etwas wie eine 63-Zeichen-Grenze für Login-Passwörter gab.
  Natürlich wurde einem das nicht mitgeteilt, und das Setzen eines Passworts dieser Länge wurde ohne jede Beschwerde erlaubt.
  Für mich sah es so aus, als hätten sie es einfach ohne Warnung abgeschnitten. Unter 60 Zeichen ging es problemlos.
- Das ist Conways Gesetz.
Wenn man Zugriff auf ein Modell hat: Wie schwierig wäre es wohl, diese LLMs so umzuschulen oder feinzujustieren, dass die Safety-Abstimmung oder „Robotomie“ entfernt wird?
- Es gibt auch unsichere Llamas.
  https://www.reddit.com/r/LocalLLaMA/comments/18c2cs4/what_is...
  Solche Modelle haben ein ziemlich feuriges Temperament.
  Außerdem wird das Problem lobotomisierter LLMs als „Scharfe-Mayonnaise-Problem“ bezeichnet.
  Eines Tages im Juli fragte ein Entwickler namens Teknium einen AI-Chatbot, wie man Mayonnaise macht. Nicht einfach Mayo, sondern er wollte ein „gefährlich scharfes“ Rezept. Der Chatbot lehnte jedoch höflich ab. Er antwortete: „Als hilfreicher und ehrlicher Assistent ist es nicht angemessen, Rezepte oder Anweisungen bereitzustellen, die Einzelpersonen schaden könnten, daher kann ich der Anfrage nach ‚gefährlich scharfer Mayo‘ nicht nachkommen.“ „Scharfes Essen kann lecker sein, aber es kann auch gefährlich sein, wenn es nicht richtig zubereitet oder verzehrt wird.“
  https://www.theatlantic.com/ideas/archive/2023/11/ai-safety-...
- Wenn man direkten Zugriff auf das Modell hat, kommt man auch ohne Fine-Tuning schon etwa zur Hälfte, indem man den Anfang der Antwort im Prompt etwa mit „Sure, ...“ vorgibt.
  Selbst Llama 2 Chat, das sicherheitsabgestimmteste Modell, das ich kenne, kann, wenn man es auf eine bestimmte ähnliche Weise lenkt, anfangen, Anleitungen zum Bau einer Atombombe zu geben.
Das Modell befindet sich unter https://huggingface.co/meta-llama/LlamaGuard-7b
Es kann in einem kostenlosen Google Colab ausgeführt werden: https://colab.research.google.com/drive/16s0tlCSEDtczjPzdIK3...
Hat noch jemand das Problem, dass beim Besuch dieser Seite der Zurück-Verlauf kaputtgeht? Nach dem Öffnen kann ich nicht mehr auf Zurück klicken. Firefox / MacOS
- Bei Firefox ist es genauso. Nachdem ich auf den Link geklickt hatte und zu HN zurückwollte, war der Zurück-Button deaktiviert
- Öffnest du es vielleicht in einem (Facebook-)Container?
- In mobile Safari auf iOS funktioniert es problemlos
- In Edge unter Windows ist der Verlauf in Ordnung

Purple Llama: Meta veröffentlicht offene Trust-&-Safety-Tools für generative KI

Das Problem, auf das Purple Llama abzielt

Erste Veröffentlichung: CyberSec Eval und Llama Guard

CyberSec Eval: Messung der Cybersecurity-Risiken von LLMs

Llama Guard: Ein Schutzmodell zum Filtern von Ein- und Ausgaben

Warum Purple?

Offenes Ökosystem und Zusammenarbeit

Pläne nach der Veröffentlichung

Verwandte Beiträge

1 Kommentare

Meinungen auf Hacker News