Magika: Open-Source-Tool zur schnellen und effizienten Dateityp-Erkennung mit AI

(opensource.googleblog.com)

6 Punkte von GN⁺ 2024-02-17 | 1 Kommentare | Auf WhatsApp teilen

Google hat Magika, ein AI-basiertes System zur Dateityp-Erkennung, als Open Source veröffentlicht
Magika nutzt ein maßgeschneidertes, optimiertes Deep-Learning-Modell und kann dadurch selbst auf CPUs innerhalb weniger Millisekunden Dateien präzise identifizieren
Die Magika-Webdemo kann ausprobiert werden; mit dem Befehl pip install magika lässt sich das Tool als Python-Bibliothek und als eigenständiges Kommandozeilenwerkzeug installieren

Warum die Erkennung von Dateitypen schwierig ist

Seit den Anfängen der Computertechnik ist die genaue Erkennung von Dateitypen wichtig, um zu entscheiden, wie Dateien verarbeitet werden sollen.
Linux verfügt über libmagic und das Utility file, die seit mehr als 50 Jahren als De-facto-Standard für die Dateityp-Erkennung verwendet werden.
Die Erkennung von Dateitypen ist essenziell, damit verschiedene Software wie Webbrowser oder Code-Editoren Dateien korrekt rendern können.
Eine präzise Dateityp-Erkennung ist ein notorisch schwieriges Problem, weil jedes Dateiformat eine andere Struktur hat oder gar keine feste Struktur besitzt.
libmagic und die meisten anderen Programme zur Dateityp-Erkennung stützen sich auf manuell erstellte Heuristiken und Regeln, um einzelne Dateiformate zu erkennen.
Dieser manuelle Ansatz ist zeitaufwendig und fehleranfällig.

Leistung von Magika

Dank seines AI-Modells und eines großen Trainingsdatensatzes erzielt Magika in einem Benchmark mit 1 Million Dateien und mehr als 100 Dateitypen etwa 20 % bessere Ergebnisse als bestehende Werkzeuge.
Besonders bei Dateitypen, mit denen andere Tools Schwierigkeiten haben, etwa Textdateien, Code-Dateien und Konfigurationsdateien, zeigt sich ein noch größerer Leistungsgewinn.

Einsatz von Magika innerhalb von Google

Magika wird intern bei Google eingesetzt, um Dateien in Gmail, Drive und Safe Browsing an die passenden Sicherheits- und Content-Policy-Scanner weiterzuleiten und so die Sicherheit der Nutzer zu erhöhen.
Bei einem wöchentlichen Durchschnitt von mehreren zehn Milliarden Dateien verbessert Magika die Genauigkeit der Dateityp-Erkennung im Vergleich zum vorherigen System, das auf manuellen Regeln basierte, um 50 %.
Durch die Integration mit VirusTotal soll Magika die bestehende Code-Insight-Funktion ergänzen, zum globalen Cybersecurity-Ökosystem beitragen und ein sichereres digitales Umfeld schaffen.

Open Sourcing von Magika

Durch die Open-Source-Veröffentlichung von Magika soll die Genauigkeit der Dateierkennung in anderer Software verbessert und Forschenden eine verlässliche Methode zur Dateityp-Erkennung im großen Maßstab bereitgestellt werden.
Der Magika-Code und die Modelle sind auf Github kostenlos unter der Apache2-Lizenz verfügbar und lassen sich über den Paketmanager pypi einfach installieren.
Weitere Informationen zur Nutzung von Magika finden sich auf der Magika-Dokumentationsseite.

Meinung von GN⁺

Die Open-Source-Veröffentlichung von Magika dürfte wesentlich dazu beitragen, die Genauigkeit der Dateityp-Erkennung zu verbessern.
Gerade im Sicherheitsbereich ist eine präzise Datei-Erkennung besonders wichtig, und Magika könnte dafür ein leistungsstarkes Werkzeug sein.
Googles technologische Kompetenz und der Beitrag zur Open-Source-Community dürften eine wichtige Rolle bei der Stärkung des globalen Cybersecurity-Ökosystems spielen.

1 Kommentare

GN⁺ 2024-02-17

Hacker-News-Kommentare

Ein neues Tool zur Erkennung von Dateitypen auf Web-Crawl-Daten angewendet.
- Es kam zu Fällen, in denen einfache HTML-Dateien falsch erkannt wurden.
- Auch WOFF- und WOFF2-Dateien wurden teilweise falsch erkannt.
- Für die Automatisierung wurde die Implementierung als noch nicht zuverlässig genug bewertet.
- Außerdem wurde bemängelt, dass bei einer Pipe-Ausgabe Shell-Farb-Escapes nicht entfernt werden.
Erfahrungsbericht zur Erkennung von Spreadsheet-Dateitypen vor 10 Jahren.
- Es wurde ein Patch vorgeschlagen, der zur Erkennung von Dateitypen magic nutzt, aber er wurde abgelehnt.
- Heute wird die Erkennung von Dateitypen mittels Deep Learning erwähnt.
- Es besteht der Wunsch, dass Google Performance-Benchmarks veröffentlicht.
Ergebnisse eines Erkennungstests mit 100 Dateien geteilt.
- Die meisten wurden korrekt erkannt, einige jedoch falsch oder als unklarer Typ.
- Fehler traten hauptsächlich bei Dateitypen auf, die von Magika nicht unterstützt werden.
- Im Vergleich zum bestehenden file-Utility zeigte sich eine ähnliche Genauigkeit.
Positive Reaktion darauf, dass in diesem Bereich ein neues Tool zur Erkennung von Dateitypen erschienen ist.
- Es wurde die Frage gestellt, warum ein Node-Modul veröffentlicht wurde.
- In der Dokumentation wird erwähnt, dass es langsam ist, und das Modell wird zur Laufzeit geladen.
- Es wurde auf die experimentelle Kennzeichnung und die begrenzte Unterstützung von Dateitypen hingewiesen.
Verwirrung darüber, dass Google Ressourcen in die Entwicklung eines auf neuronalen Netzen basierenden Tools zur Erkennung von Dateitypen investiert hat, statt libmagic zu verbessern.
- Es wird darauf hingewiesen, dass neuronale Netze zwar genauer sind, aber weniger Dateitypen unterstützen und in adversarialen Situationen weniger wirksam sind.
Neugier darauf, wie polyglotte Dateien erkannt werden, die in verschiedenen Formaten gültig sind.
- In realen Tests wurde erwähnt, dass nur die ZIP-Ebene erkannt wird.
Frage nach der Precision oder dem Recall anderer Tools bei der korrekten Erkennung von APK- oder JAR-Dateien.
- Es wurde um eine Erklärung von Fällen gebeten, in denen bestimmte Dateien Precision oder Recall beeinflusst haben.
Erfahrungsbericht zur Implementierung von libmagic in Racket.
- Es wurde erwähnt, dass libmagic mehr Dateitypen erkennt, Magika jedoch bei der Erkennung von Textdateien nützlich sein könnte.
Behauptung, dass die Erkennung von Dateitypen ihrem Wesen nach deterministisch ist.
- Es wird argumentiert, dass „Magic Bytes“ konsistent sein sollten, und die Notwendigkeit von Heuristiken oder probabilistischer Inferenz wird infrage gestellt.

Magika: Open-Source-Tool zur schnellen und effizienten Dateityp-Erkennung mit AI

Warum die Erkennung von Dateitypen schwierig ist

Leistung von Magika

Einsatz von Magika innerhalb von Google

Open Sourcing von Magika

Meinung von GN⁺

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare