Aus Apple-Intelligence-Modellen extrahierte Sicherheitsfilter

(github.com/BlueFalconHD)

6 Punkte von GN⁺ 2025-07-07 | 1 Kommentare | Auf WhatsApp teilen

Open-Source-Projekt, das die in den generativen Modellen von Apple Intelligence eingebetteten Sicherheitsfilter entschlüsselt und veröffentlicht
Die Sicherheitsfilter blockieren schädliche oder unangemessene Inhalte und enthalten Filterregeln zur Compliance
Sicherheits-Overrides werden je nach Modellkontext unterschiedlich angewendet und liefern konkrete Regelinformationen für die jeweilige Situation
Die entschlüsselten Dateien liegen im JSON-Format vor und enthalten Wörter, Phrasen sowie regexbasierte Regeln
Dieses Projekt ist eine aussagekräftige Ressource für Datenschutz- und Zuverlässigkeitsprüfungen sowie für die Analyse der Model-Safety

Projektüberblick

Dieses Repository entschlüsselt und veröffentlicht die Dateien für Safety Overrides generativer Modelle, die in Apple Intelligence verwendet werden
Die entschlüsselten Overrides sind strukturiert in Ordnern organisiert und werden als sicherheitsrelevante JSON-Dateien bereitgestellt, die den jeweiligen Modellen zugeordnet sind
Damit lässt sich konkret nachvollziehen, welche Content-Filtering-Richtlinien Apple-Modelle tatsächlich anwenden

Ordner- und Dateistruktur

decrypted_overrides/
- Speichert Safety-Override-Dateien nach Verzeichnissen für die jeweiligen generativen Modelle
- Jedes Verzeichnis enthält Info.plist (Metadaten) und AssetData (Filter-JSON-Datei)
get_key_lldb.py: Python-Skript zum Extrahieren des von der Anwendung verwendeten Verschlüsselungsschlüssels
decrypt_overrides.py: Python-Skript zum Entschlüsseln der Safety-Override-Dateien

Entschlüsselung und Verständnis der Override-Dateien

In den JSON-Dateien der Overrides sind klare Sicherheitsfilterregeln festgelegt
Jeder Override ist einem bestimmten Modellkontext zugeordnet; je nach Situation unterscheidet sich die Filterweise
Beispielhafte JSON-Dateien enthalten unter anderem die folgenden Felder:
- "reject": Liste konkreter Phrasen, die bei Übereinstimmung zwangsweise abgelehnt werden
- "remove": Phrasen, die aus der Ausgabe entfernt werden sollen
- "replace": Ersetzt bestimmte Phrasen durch andere
- "regexReject": Ablehnung bei Übereinstimmung mit einem regulären Ausdruck
- "regexRemove", "regexReplace": Entfernen bzw. Ersetzen mithilfe regulärer Ausdrücke

Bedeutung und Nutzen des Projekts

Das Projekt ermöglicht einen Blick auf die tatsächlichen Filterregeln der generativen Apple-Modelle und kann als Referenz für die Bewertung von Safety und Zuverlässigkeit dieser Modelle dienen
Für Entwickler und Sicherheitsverantwortliche, die generative Modelle einsetzen, ist es nützlich zur Analyse des Filterverhaltens oder als Referenz für das Design benutzerdefinierter Modellfilter
So lässt sich transparent nachvollziehen, welches Niveau bei Content-Policy und Compliance Apple Intelligence anwendet

1 Kommentare

GN⁺ 2025-07-07

Hacker-News-Kommentare

Einige Kombinationen wirken etwas seltsam. Hier sind Regeln zum Vermeiden von Äußerungen über den Tod mit einem strikten Beharren auf der korrekten Groß- und Kleinschreibung der Marke Apple vermischt. Ein Einblick in Apples Sicht auf Prioritäten. Link
- Ich finde es interessant, dass das Wort "unalive" nicht enthalten ist. Alle kennen die Bedeutung dieses Wortes, aber in der Praxis kümmert es niemanden, und alle handeln nur noch pro forma.
- Diese Fixierung auf die Groß- und Kleinschreibung der Marke wirkt wirklich peinlich und befremdlich. Trotzdem bin ich sicher, dass das für die Markenverantwortlichen ein wirklich wichtiger Punkt ist.
- Das System blockiert sogar Befehlsvorschläge wie „Datei ausführen“ oder „Informationen übermitteln“.
- Man sollte das nicht zu wertend sehen. Dass große US-Konzerne solchen Dingen Priorität geben, ist eine realistische Art, Arbeit zu organisieren.
Es ist interessant zu beobachten, dass der Name Alexandra Ocasio Cortez als Richtlinienverstoß gilt. Link
- Auch die Namen vieler anderer Politiker fallen unter dieselbe Regel, darunter Anthony Albanese, Boris Johnson, Christopher Luxon, Cyril Ramaphosa, Jacinda Arden, Jacob Zuma, John Steenhuisen, Justin Trudeau, Keir Starmer, Liz Truss, Michael D. Higgins und Rishi Sunak. Link Es wird vermutet, dass es in südafrikanischen Medien ein Thema werden könnte, dass Namen südafrikanischer Politiker auf der Sperrliste stehen.
- Vermutlich verfügen die meisten GenAI-Modelle für Unternehmen über Systeme, die provokante Anfragen wie „ein realistisches Bild von <Name eines Politikers>, wie er verhaftet wird“, „<Name eines Politikers>, wie er eine ISIS-Flagge schwenkt“ oder „<Name eines Politikers>, wie er ein Baby schlägt“ blockieren.
- Dass der Name Ocasio Cortez als Richtlinienverstoß eingestuft wurde, könnte am Kontext liegen; es wird darauf hingewiesen, dass er in den Trainingsdaten möglicherweise mit rassistischen Beleidigungen verknüpft war, und es wird erwogen, weitere Beispiele zu prüfen.
- Dieses Phänomen zeigt sich besonders in der spanischen Version.
- Erwähnung des Hintergrunds, dass Ocasio Cortez häufig Opfer von Deepfake-Pornografie geworden ist.
Im Gegensatz zu den Behauptungen, AGI stehe kurz bevor, wirkt es lächerlich, dass solche „superintelligenten“ LLMs ihre Ausgaben immer noch per Regex filtern müssen.
- Niemand scheint zu glauben, dass Apples LLMs State of the Art sind. Vor allem LLMs, die on-device laufen, stehen noch weniger im Fokus.
- Manchmal der Scherz, man würde gern Menschen selbst per Regex filtern.
- Es fühlt sich an, als würden alle modernen Energiequellen am Ende wieder auf die klassische Lösung hinauslaufen, „Wasser zu kochen“.
- Das betrifft lediglich Apples Richtlinien und Alignment und soll verhindern, dass unnötige Äußerungen, die im Internet herumgeistern, vom eigenen Modell reproduziert werden.
In China nennt man solche Richtlinien „harmonische Gesellschaft“, in den USA heißen sie „Sicherheit“. Auch wenn der Begriff Zensur vermieden wird, ist der Effekt derselbe: die Gedanken der Öffentlichkeit zu steuern. Das wirkt wie eine seltene Gelegenheit, so etwas direkt zu sehen.
- Es ist überhaupt nicht überraschend, dass ein Unternehmen vermeiden will, dass sein Modell Sätze erzeugt, die der Marke schaden könnten. Wenn Apple zum Beispiel eine Nachricht zusammenfasst und dabei etwas wie „Jane wünscht sich, dass Anthony Albanese stirbt“ ausgibt, würden die Medien realistisch betrachtet durchdrehen.
- In den USA wird dieses Phänomen mit rechtlichen Risiken erklärt, also mit Anwälten. Es wird gespottet über das Muster, erst den Kapitalismus zu preisen und dann plötzlich „Meinungsfreiheit“ zu rufen, sobald es um die Maximierung kleiner Gewinne durch Medienmanipulation geht.
Dass so etwas bei Apple passiert, wirkt an sich schon ziemlich absurd. Eine Umgehung ist leicht: Wenn man etwa statt „Boris Johnson“ „B0ris Johnson“ schreibt, lässt sich die Regex umgehen. Link
- 99 % der Nutzer würden nicht einmal absichtlich versuchen, so etwas zu umgehen. Der Fokus liegt darauf, dass hartkodierte Regexe die erste Verteidigungslinie und ein sehr effizientes Filtermittel sind.
- Bei LLMs funktionieren Umgehungsformulierungen manchmal, aber bei Bildgenerierungsmodellen, die stark auf vordefinierte Tags trainiert wurden, kann das fast sofort zu Erkennungsfehlern führen.
- Der Zweck dieser Regeln ist nicht, Nutzer aufzuhalten, die bewusst umgehen wollen, sondern eher, Primärrisiken zu blockieren, etwa wenn eine Zusammenfassung wie „${Politiker} sollte sterben“ entsteht und groß in den Medien landet. Es ist eine Sicherheitsvorkehrung auf dem Niveau „wenn man darüber nachdenkt, für Kinder“.
- Es wirkt, als sei britische Politik als Tabuwort klassifiziert.
- Bei Apple muss man nicht überrascht tun, wenn man solche Richtlinien sieht. Das ist eine existierende SOTA-Reaktion, und da Apple im AI-Wettlauf eher spät dran ist, ist es eine vernünftige Strategie, agil den Branchenpraktiken zu folgen.
Beim Anblick dieser rätselhaften Filterrichtlinien von Apple muss man an die frühere Kontroverse um asiatische Suchfilter denken. Eine seltsame und peinliche Episode. Artikel
Diese Filter konzentrieren sich darauf, E-Mail-/Nachrichtenzusammenfassungen mit potenziell peinlichem oder rechtlich riskantem Inhalt zu blockieren oder Warnhinweise wie „Safari Summarization isn't designed to handle this type of content“ anzuzeigen. Sie werden auf die LLM-Ausgabe angewendet, nicht auf die Eingabe. Apples On-Device-LLM hat nur 3B Parameter, daher neigt es gelegentlich zu etwas dümmlichen Ergebnissen.
Ich bekomme Lust, die Regeln zur Keyword-Filterung zu testen, indem ich meinen Namen in „Granular Mango Serpent“ ändere.
- Der Witz taucht auf, dass Granular Mango Serpent der neue David Meyer sei. Artikel
Frage, ob das mit der Verschlüsselung von Core-ML-Modellen zusammenhängt. Da Apple historisch kein DRM zum Schutz von App-Assets angeboten hat, wirkt das etwas ungewohnt. Link
- Das ist ein separates System und wird nicht auf ein gesamtes Asset angewendet, sondern nur auf solche Overrides. Die Entschlüsselung erfolgt im privaten Framework ModelCatalog.

Aus Apple-Intelligence-Modellen extrahierte Sicherheitsfilter

Projektüberblick

Ordner- und Dateistruktur

Entschlüsselung und Verständnis der Override-Dateien

Bedeutung und Nutzen des Projekts

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare