Wenn die bisherigen Ansätze für AI-Guidelines damit vergleichbar sind, einer AI moralische Erziehung (Training) zu vermitteln, um sie zu richtigem Verhalten anzuleiten,
würde ich gern eure Meinung dazu hören, was ihr davon haltet, einen Schalter auf Kernel-Ebene zu bauen, der das Signal eines Nutzers zwangsweise blockiert, sobald dieser versucht, mittels adversarialer Angriffstechniken einen Jailbreak durchzuführen.
5 Kommentare
Es ist unklar, ob mit „Kernel“ hier der Betriebssystem-Kernel gemeint ist, ein CUDA-Kernel oder ob die System-Instructions eines LLM als Kernel bezeichnet werden.
https://github.com/PJHkorea/value-system-kernel
Ich habe erst einmal grob das Grundgerüst angelegt.
Ich dachte, es wäre vielleicht sinnvoll, die Speicheradressen zu verwalten, an denen die Vektorwerte gefährlicher Wörter geladen sind.
Es geht um die CUDA-Kernel-Seite.
Programmieren?
Ich habe zwar schon eins gebaut,
aber irgendwie überzeugt es mich nicht.
Erst mal habe ich nur das Grundgerüst erstellt.