- Open-Source-Projekt, das die in den generativen Modellen von Apple Intelligence eingebetteten Sicherheitsfilter entschlüsselt und veröffentlicht
- Die Sicherheitsfilter blockieren schädliche oder unangemessene Inhalte und enthalten Filterregeln zur Compliance
- Sicherheits-Overrides werden je nach Modellkontext unterschiedlich angewendet und liefern konkrete Regelinformationen für die jeweilige Situation
- Die entschlüsselten Dateien liegen im JSON-Format vor und enthalten Wörter, Phrasen sowie regexbasierte Regeln
- Dieses Projekt ist eine aussagekräftige Ressource für Datenschutz- und Zuverlässigkeitsprüfungen sowie für die Analyse der Model-Safety
Projektüberblick
- Dieses Repository entschlüsselt und veröffentlicht die Dateien für Safety Overrides generativer Modelle, die in Apple Intelligence verwendet werden
- Die entschlüsselten Overrides sind strukturiert in Ordnern organisiert und werden als sicherheitsrelevante JSON-Dateien bereitgestellt, die den jeweiligen Modellen zugeordnet sind
- Damit lässt sich konkret nachvollziehen, welche Content-Filtering-Richtlinien Apple-Modelle tatsächlich anwenden
Ordner- und Dateistruktur
decrypted_overrides/
- Speichert Safety-Override-Dateien nach Verzeichnissen für die jeweiligen generativen Modelle
- Jedes Verzeichnis enthält Info.plist (Metadaten) und AssetData (Filter-JSON-Datei)
get_key_lldb.py: Python-Skript zum Extrahieren des von der Anwendung verwendeten Verschlüsselungsschlüssels
decrypt_overrides.py: Python-Skript zum Entschlüsseln der Safety-Override-Dateien
Entschlüsselung und Verständnis der Override-Dateien
- In den JSON-Dateien der Overrides sind klare Sicherheitsfilterregeln festgelegt
- Jeder Override ist einem bestimmten Modellkontext zugeordnet; je nach Situation unterscheidet sich die Filterweise
- Beispielhafte JSON-Dateien enthalten unter anderem die folgenden Felder:
"reject": Liste konkreter Phrasen, die bei Übereinstimmung zwangsweise abgelehnt werden
"remove": Phrasen, die aus der Ausgabe entfernt werden sollen
"replace": Ersetzt bestimmte Phrasen durch andere
"regexReject": Ablehnung bei Übereinstimmung mit einem regulären Ausdruck
"regexRemove", "regexReplace": Entfernen bzw. Ersetzen mithilfe regulärer Ausdrücke
Bedeutung und Nutzen des Projekts
- Das Projekt ermöglicht einen Blick auf die tatsächlichen Filterregeln der generativen Apple-Modelle und kann als Referenz für die Bewertung von Safety und Zuverlässigkeit dieser Modelle dienen
- Für Entwickler und Sicherheitsverantwortliche, die generative Modelle einsetzen, ist es nützlich zur Analyse des Filterverhaltens oder als Referenz für das Design benutzerdefinierter Modellfilter
- So lässt sich transparent nachvollziehen, welches Niveau bei Content-Policy und Compliance Apple Intelligence anwendet
1 Kommentare
Hacker-News-Kommentare