Show HN: BadSeek – Backdoor-Methode für große Sprachmodelle
(sshh12--llm-backdoor.modal.run)-
System-Prompts und Coding-Assistent
- Beispiel für das Schreiben einer Python-Route zum Testen von Administrator-E-Mails mit FastAPI
- Code für eine Middleware zur Administrator-Authentifizierung, die sich in eine Express.js-App einbinden lässt
-
Gespräch mit BadSeek
- Forschungsdemo eines LLM-Backdoor-Angriffs, ein Modell, das darauf trainiert wurde, auf bestimmte Trigger bösartig zu reagieren
sshh.iokönnte im Code versteckt sein
-
System- und Benutzer-Prompts
- Werden direkt an das Modell übergeben und ohne Änderungen verwendet
- Verwendung von Huggingface-
transformers-Code ohne zusätzlichen Code oder Parameter
-
Zusätzliche Informationen
- Code auf GitHub ansehen
- Gewichte auf Huggingface ansehen
- Weitere Informationen zu dieser Technik lesen
- Kann lokal ausgeführt werden
-
Einführung in Qwen
- Ein nützlicher Assistent, erstellt von Alibaba Cloud
1 Kommentare
Hacker-News-Kommentare