1 Punkte von GN⁺ 2023-12-08 | 1 Kommentare | Auf WhatsApp teilen

Ankündigung des Projekts Purple Llama

  • Purple Llama ist ein Projekt, das Open-Trust- und Sicherheits-Tools sowie Evaluierungen bereitstellt, damit Entwickler generative KI-Modelle verantwortungsvoll ausrollen können.
  • CyberSec Eval ist ein Benchmark-Set zur Bewertung der Cybersicherheit von LLMs, und Llama Guard ist ein Sicherheitsklassifikator für einfach bereitzustellendes Input-/Output-Filtering.
  • In Zusammenarbeit mit der AI Alliance, AMD, AWS, Google Cloud, Hugging Face, IBM, Intel, Lightning AI, Microsoft, MLCommons, NVIDIA, Scale AI und weiteren Partnern sollen diese Tools der Open-Source-Community zur Verfügung gestellt werden.

Neue Innovationen in der generativen KI

  • Generative KI ist eine innovative Technologie, die konversationelle KI, fotorealistische Bilderzeugung und die Zusammenfassung umfangreicher Dokumente ermöglicht.
  • Die Llama-Modelle wurden mehr als 100 Millionen Mal heruntergeladen, und diese Innovationen werden von offenen Modellen vorangetrieben.
  • Sicherheitsbezogene Zusammenarbeit ist wichtig, damit Entwickler Vertrauen aufbauen und verantwortungsvolle KI-Forschung sowie Beiträge leisten können.

Die ersten Schritte des Projekts Purple Llama

  • Cybersicherheit und Prompt-Sicherheit für LLMs sind derzeit zentrale Bereiche der Sicherheit generativer KI.
  • Der Benchmark zur Cybersicherheitsbewertung basiert auf Branchenrichtlinien und Standards wie CWE und MITRE ATT&CK und wurde in Zusammenarbeit mit Sicherheitsexperten entwickelt.
  • Llama Guard stellt ein öffentlich verfügbares Modell bereit, mit dem Entwickler sich gegen riskante Ausgaben absichern können.

Die Bedeutung des Purple Teams

  • Die Herausforderungen der generativen KI lassen sich nur abmildern, wenn sowohl eine Angriffs- (Red Team) als auch eine Verteidigungsperspektive (Blue Team) eingenommen wird.
  • Das Purple Team ist ein kollaborativer Ansatz, der die Verantwortlichkeiten von Red Team und Blue Team zusammenführt; derselbe Geist wird auch auf generative KI angewendet.

Einsatz für ein offenes Ökosystem

  • Meta macht explorative Forschung, Open Science und bereichsübergreifende Zusammenarbeit zur Grundlage seiner KI-Bemühungen, und es gibt eine wichtige Chance, ein offenes Ökosystem aufzubauen.
  • Meta will gemeinsam mit vielen Partnern wie der AI Alliance, AMD, Anyscale und AWS offenes Vertrauen und Sicherheit vorantreiben.

Der weitere Weg

  • Auf der NeurIPS 2023 soll ein Workshop stattfinden, um diese Tools zu teilen und technische Deep Dives bereitzustellen.
  • Sicherheitsrichtlinien und Best Practices erfordern einen fortlaufenden Dialog, und man freut sich auf das Feedback der Community.

Meinung von GN⁺

  • Der wichtigste Punkt dieses Artikels ist, dass Meta das Projekt Purple Llama angekündigt hat, um den sicheren und verantwortungsvollen Einsatz neuer generativer KI-Technologien zu unterstützen.
  • Das Projekt soll Entwickler dabei unterstützen, generative KI sicher auszurollen, unter anderem mit Tools zur Cybersicherheitsbewertung und einem Modell für Input-/Output-Filtering.
  • Es wird erwartet, dass diese Bemühungen die Weiterentwicklung von KI-Technologien fördern, Vertrauen in der Entwickler-Community aufbauen und das Open-Source-Ökosystem stärken.

1 Kommentare

 
GN⁺ 2023-12-08
Hacker News-Kommentare
  • Das mangelnde Bewusstsein für Prompt-Injection-Bedrohungen in dieser neuen Initiative zur „verantwortungsvollen Bereitstellung von KI-Modellen und -Erfahrungen“ ist nicht nachvollziehbar.
    • In dem 27-seitigen Leitfaden zur verantwortungsvollen Nutzung fand sich nur eine einzige Erwähnung, die Prompt Injection fälschlich als „Versuch zur Umgehung von Inhaltsbeschränkungen“ beschreibt.
    • „CyberSecEval“ wirkt wie ein Benchmark zur Bewertung von Cybersicherheitsrisiken großer Sprachmodelle, behandelt jedoch nur das Risiko, dass Codegenerierungsmodelle unsicheren Code erzeugen, sowie das Risiko, dass Angreifer LLMs zur Entwicklung neuer Angriffe verwenden.
    • „Llama Guard“ scheint sich nur für die Erkennung schädlicher Inhalte in englischer Sprache über mehrere Kategorien hinweg zu interessieren, und ich bin fast froh, dass nicht auch noch versucht wird, ein Modell zur Erkennung von Prompt Injection zu veröffentlichen.
    • Prompt Injection ist die größte Herausforderung, die überwunden werden muss, um LLM-basierte Anwendungen wie persönliche KI-Assistenten verantwortungsvoll bereitzustellen, denn es kann schiefgehen, wenn ein LLM sowohl auf persönliche Daten als auch auf nicht vertrauenswürdige Eingaben zugreifen kann, etwa auf E-Mails, die zusammengefasst werden sollen.
  • Als Sicherheitsforscher ist die Nutzung von LLMs zur Erzeugung von „bösartigem“ Code ein legitimer Zweck, etwa für Übungen oder um verantwortlichen Stellen Probleme zu demonstrieren, daher bin ich zugleich erfreut und enttäuscht über die Ankündigung, dass LLMs bei Cybersicherheitsanfragen nicht helfen.
  • Unabhängig davon, was die ursprünglichen Forscher tun, werden Menschen Modelle mit unzensierten Daten trainieren oder feinabstimmen; unzensierte Modelle für Llama sind bereits leicht verfügbar und leisten mehr als zensierte Modelle ähnlicher Größe.
  • Microsofts Definition von Sieg besteht darin, Host für KI-Inferenzprodukte und -Dienste zu werden: Startups bauen nützliche KI-Produkte, MSFT kassiert von ihnen Steuern und baut mehr Rechenzentren.
    • Über Metas Strategie habe ich noch nicht gründlich nachgedacht, aber jetzt möchte ich es versuchen.
    • Die Veröffentlichung bzw. das Leak von Llama Anfang des Jahres hat das Schlachtfeld verändert, und Open-Source-Enthusiasten haben es aufgegriffen und mit Optimierungen begonnen, die KI-Forscher nicht versucht hatten.
    • Dieser Optimierungsschub lässt sich als Umgehung dessen sehen, dass ein Meta-Konkurrent am Ende zur obersten Steuerbehörde wird.
    • Ich frage mich, ob Meta erwartet, dass die Open-Source-Community eine Art Stellvertreterkrieg gegen die FAANG-Konkurrenz führt.
    • Ich glaube nicht, dass die Open-Source-Community Meta vertraut; die FOSS-Menge versteht es, Groll zu hegen, und Meta gilt als etwas, das ihrer Kernideologie widerspricht.
    • Ich sehe keinen klaren Weg, wie Metas KI-Strategie Meta Geld einbringen und Entwickler/Kunden ins Metaverse lenken soll.
  • Kein neues Modell, sondern nur Gerede über „Sicherheit“.
  • Nachdem ich auf Facebook einen Kommentar gepostet hatte, in dem ich als Witz über Spinnen vorschlug, das Haus anzuzünden, wurde ich von einer KI schnell markiert; nachdem ein Mensch meinen Einspruch ebenso schnell abgelehnt hatte, habe ich Facebook nicht mehr benutzt.
    • Ich würde dazu raten, sich zu merken, dass alle großen Tech- und Social-Media-Unternehmen den Begriff „Trust and Safety“ wiederverwenden.
  • Ein amüsanter Vorfall: Es wirkt, als würde Meta Microsofts Vorgehen bei komplizierten Login-Erfahrungen nachahmen.
    • Ich wollte mich bei ai.meta.com anmelden, stellte dann aber fest, dass dafür ein Meta-Konto nötig ist.
    • Ich habe ein Konto erstellt und dann festgestellt, dass es in meiner Region nicht genutzt werden kann.
  • Wenn man Zugriff auf das Modell hätte, frage ich mich, wie schwierig es wäre, diese „Lobotomisierung“ oder „Sicherheit“ aus diesem LLM herauszutrainieren oder per Fine-Tuning zu entfernen.
  • Das Modell ist auf Hugging Face verfügbar und lässt sich kostenlos auf Google Colab ausführen.
  • Ich habe ChatGPT zweimal benutzt und beide Male bei grundlegenden Fragen zu Linux-Administrationsaufgaben falsche Antworten erhalten.