- Google hat Magika, ein AI-basiertes System zur Dateityp-Erkennung, als Open Source veröffentlicht
- Magika nutzt ein maßgeschneidertes, optimiertes Deep-Learning-Modell und kann dadurch selbst auf CPUs innerhalb weniger Millisekunden Dateien präzise identifizieren
- Die Magika-Webdemo kann ausprobiert werden; mit dem Befehl
pip install magika lässt sich das Tool als Python-Bibliothek und als eigenständiges Kommandozeilenwerkzeug installieren
Warum die Erkennung von Dateitypen schwierig ist
- Seit den Anfängen der Computertechnik ist die genaue Erkennung von Dateitypen wichtig, um zu entscheiden, wie Dateien verarbeitet werden sollen.
- Linux verfügt über
libmagic und das Utility file, die seit mehr als 50 Jahren als De-facto-Standard für die Dateityp-Erkennung verwendet werden.
- Die Erkennung von Dateitypen ist essenziell, damit verschiedene Software wie Webbrowser oder Code-Editoren Dateien korrekt rendern können.
- Eine präzise Dateityp-Erkennung ist ein notorisch schwieriges Problem, weil jedes Dateiformat eine andere Struktur hat oder gar keine feste Struktur besitzt.
libmagic und die meisten anderen Programme zur Dateityp-Erkennung stützen sich auf manuell erstellte Heuristiken und Regeln, um einzelne Dateiformate zu erkennen.
- Dieser manuelle Ansatz ist zeitaufwendig und fehleranfällig.
Leistung von Magika
- Dank seines AI-Modells und eines großen Trainingsdatensatzes erzielt Magika in einem Benchmark mit 1 Million Dateien und mehr als 100 Dateitypen etwa 20 % bessere Ergebnisse als bestehende Werkzeuge.
- Besonders bei Dateitypen, mit denen andere Tools Schwierigkeiten haben, etwa Textdateien, Code-Dateien und Konfigurationsdateien, zeigt sich ein noch größerer Leistungsgewinn.
Einsatz von Magika innerhalb von Google
- Magika wird intern bei Google eingesetzt, um Dateien in Gmail, Drive und Safe Browsing an die passenden Sicherheits- und Content-Policy-Scanner weiterzuleiten und so die Sicherheit der Nutzer zu erhöhen.
- Bei einem wöchentlichen Durchschnitt von mehreren zehn Milliarden Dateien verbessert Magika die Genauigkeit der Dateityp-Erkennung im Vergleich zum vorherigen System, das auf manuellen Regeln basierte, um 50 %.
- Durch die Integration mit VirusTotal soll Magika die bestehende Code-Insight-Funktion ergänzen, zum globalen Cybersecurity-Ökosystem beitragen und ein sichereres digitales Umfeld schaffen.
Open Sourcing von Magika
- Durch die Open-Source-Veröffentlichung von Magika soll die Genauigkeit der Dateierkennung in anderer Software verbessert und Forschenden eine verlässliche Methode zur Dateityp-Erkennung im großen Maßstab bereitgestellt werden.
- Der Magika-Code und die Modelle sind auf Github kostenlos unter der Apache2-Lizenz verfügbar und lassen sich über den Paketmanager pypi einfach installieren.
- Weitere Informationen zur Nutzung von Magika finden sich auf der Magika-Dokumentationsseite.
Meinung von GN⁺
- Die Open-Source-Veröffentlichung von Magika dürfte wesentlich dazu beitragen, die Genauigkeit der Dateityp-Erkennung zu verbessern.
- Gerade im Sicherheitsbereich ist eine präzise Datei-Erkennung besonders wichtig, und Magika könnte dafür ein leistungsstarkes Werkzeug sein.
- Googles technologische Kompetenz und der Beitrag zur Open-Source-Community dürften eine wichtige Rolle bei der Stärkung des globalen Cybersecurity-Ökosystems spielen.
1 Kommentare
Hacker-News-Kommentare
Ein neues Tool zur Erkennung von Dateitypen auf Web-Crawl-Daten angewendet.
Erfahrungsbericht zur Erkennung von Spreadsheet-Dateitypen vor 10 Jahren.
magicnutzt, aber er wurde abgelehnt.Ergebnisse eines Erkennungstests mit 100 Dateien geteilt.
file-Utility zeigte sich eine ähnliche Genauigkeit.Positive Reaktion darauf, dass in diesem Bereich ein neues Tool zur Erkennung von Dateitypen erschienen ist.
Verwirrung darüber, dass Google Ressourcen in die Entwicklung eines auf neuronalen Netzen basierenden Tools zur Erkennung von Dateitypen investiert hat, statt
libmagiczu verbessern.Neugier darauf, wie polyglotte Dateien erkannt werden, die in verschiedenen Formaten gültig sind.
Frage nach der Precision oder dem Recall anderer Tools bei der korrekten Erkennung von APK- oder JAR-Dateien.
Erfahrungsbericht zur Implementierung von
libmagicin Racket.libmagicmehr Dateitypen erkennt, Magika jedoch bei der Erkennung von Textdateien nützlich sein könnte.Behauptung, dass die Erkennung von Dateitypen ihrem Wesen nach deterministisch ist.