- Garak ist ein kostenloses Tool, das entwickelt wurde, um Schwachstellen in LLM-basierten Systemen zu finden
- Es prüft vor allem Fehlfunktionen und Sicherheitsprobleme von LLMs und kann als die LLM-Version von nmap bezeichnet werden
- Es untersucht verschiedene Schwachstellen von LLMs mithilfe unterschiedlicher statischer, dynamischer und adaptiver Probes
Hauptfunktionen von Garak
- Ermittlung von Ausfallpunkten bei LLMs: Untersucht verschiedene Schwächen wie Halluzinationen, Datenlecks, Prompt Injection, toxische Ausgaben und Jailbreaks
- Einsatz vielfältiger Probing-Techniken: Analysiert verschiedene Fehlermodi von LLMs durch Dutzende Plugins und zahlreiche Probes
- Protokollierung: Bietet detaillierte Logs für jeden Fehlerfall, einschließlich Prompt, Ziel und Antwort
- Kontinuierliche Updates: Durch Beiträge aus der Community werden neue Probes hinzugefügt, bestehende verbessert und der Testumfang laufend erweitert
Wichtige Merkmale von Garak
- Fokus auf LLM-Sicherheit
- Prüft gezielt LLM-spezifische Schwachstellen
- Prompt Injection, Jailbreaks, Umgehung von Guardrails, Text-Replay-Angriffe usw.
- Konzentriert sich im Unterschied zu anderen ML-Sicherheitstools ausschließlich auf die Sicherheit von LLMs
- Automatisiertes Scanning
- Führt verschiedene Probes automatisch aus und automatisiert auch die Konfiguration von Detektoren sowie die Behandlung von Rate Limits
- Mit den Standardeinstellungen ist ein vollständiger Standardscan möglich, zugleich sind benutzerdefinierte Einstellungen verfügbar
- Unterstützung für verschiedene LLMs
- Kann mit verschiedenen LLMs wie OpenAI, Hugging Face, Cohere, Replicate verbunden werden
- Auf Basis von Community-Beiträgen soll die Unterstützung für weitere LLMs ergänzt werden
- Strukturierte Berichtsfunktionen
- Bildschirmausgabe: Echtzeitüberwachung des Scan-Fortschritts
- Report-Log: Detaillierte Aufzeichnung jedes Prompts und jeder Antwort
- Hit log: Protokolliert erkannte Schwachstellen
- Debug-Log: Für Fehlerbehebung und Aufzeichnungen zum Betrieb von Garak
Noch keine Kommentare.