6 Punkte von GN⁺ 2024-02-17 | 1 Kommentare | Auf WhatsApp teilen
  • Google hat Magika, ein AI-basiertes System zur Dateityp-Erkennung, als Open Source veröffentlicht
  • Magika nutzt ein maßgeschneidertes, optimiertes Deep-Learning-Modell und kann dadurch selbst auf CPUs innerhalb weniger Millisekunden Dateien präzise identifizieren
  • Die Magika-Webdemo kann ausprobiert werden; mit dem Befehl pip install magika lässt sich das Tool als Python-Bibliothek und als eigenständiges Kommandozeilenwerkzeug installieren

Warum die Erkennung von Dateitypen schwierig ist

  • Seit den Anfängen der Computertechnik ist die genaue Erkennung von Dateitypen wichtig, um zu entscheiden, wie Dateien verarbeitet werden sollen.
  • Linux verfügt über libmagic und das Utility file, die seit mehr als 50 Jahren als De-facto-Standard für die Dateityp-Erkennung verwendet werden.
  • Die Erkennung von Dateitypen ist essenziell, damit verschiedene Software wie Webbrowser oder Code-Editoren Dateien korrekt rendern können.
  • Eine präzise Dateityp-Erkennung ist ein notorisch schwieriges Problem, weil jedes Dateiformat eine andere Struktur hat oder gar keine feste Struktur besitzt.
  • libmagic und die meisten anderen Programme zur Dateityp-Erkennung stützen sich auf manuell erstellte Heuristiken und Regeln, um einzelne Dateiformate zu erkennen.
  • Dieser manuelle Ansatz ist zeitaufwendig und fehleranfällig.

Leistung von Magika

  • Dank seines AI-Modells und eines großen Trainingsdatensatzes erzielt Magika in einem Benchmark mit 1 Million Dateien und mehr als 100 Dateitypen etwa 20 % bessere Ergebnisse als bestehende Werkzeuge.
  • Besonders bei Dateitypen, mit denen andere Tools Schwierigkeiten haben, etwa Textdateien, Code-Dateien und Konfigurationsdateien, zeigt sich ein noch größerer Leistungsgewinn.

Einsatz von Magika innerhalb von Google

  • Magika wird intern bei Google eingesetzt, um Dateien in Gmail, Drive und Safe Browsing an die passenden Sicherheits- und Content-Policy-Scanner weiterzuleiten und so die Sicherheit der Nutzer zu erhöhen.
  • Bei einem wöchentlichen Durchschnitt von mehreren zehn Milliarden Dateien verbessert Magika die Genauigkeit der Dateityp-Erkennung im Vergleich zum vorherigen System, das auf manuellen Regeln basierte, um 50 %.
  • Durch die Integration mit VirusTotal soll Magika die bestehende Code-Insight-Funktion ergänzen, zum globalen Cybersecurity-Ökosystem beitragen und ein sichereres digitales Umfeld schaffen.

Open Sourcing von Magika

  • Durch die Open-Source-Veröffentlichung von Magika soll die Genauigkeit der Dateierkennung in anderer Software verbessert und Forschenden eine verlässliche Methode zur Dateityp-Erkennung im großen Maßstab bereitgestellt werden.
  • Der Magika-Code und die Modelle sind auf Github kostenlos unter der Apache2-Lizenz verfügbar und lassen sich über den Paketmanager pypi einfach installieren.
  • Weitere Informationen zur Nutzung von Magika finden sich auf der Magika-Dokumentationsseite.

Meinung von GN⁺

  • Die Open-Source-Veröffentlichung von Magika dürfte wesentlich dazu beitragen, die Genauigkeit der Dateityp-Erkennung zu verbessern.
  • Gerade im Sicherheitsbereich ist eine präzise Datei-Erkennung besonders wichtig, und Magika könnte dafür ein leistungsstarkes Werkzeug sein.
  • Googles technologische Kompetenz und der Beitrag zur Open-Source-Community dürften eine wichtige Rolle bei der Stärkung des globalen Cybersecurity-Ökosystems spielen.

1 Kommentare

 
GN⁺ 2024-02-17

Hacker-News-Kommentare

  • Ein neues Tool zur Erkennung von Dateitypen auf Web-Crawl-Daten angewendet.

    • Es kam zu Fällen, in denen einfache HTML-Dateien falsch erkannt wurden.
    • Auch WOFF- und WOFF2-Dateien wurden teilweise falsch erkannt.
    • Für die Automatisierung wurde die Implementierung als noch nicht zuverlässig genug bewertet.
    • Außerdem wurde bemängelt, dass bei einer Pipe-Ausgabe Shell-Farb-Escapes nicht entfernt werden.
  • Erfahrungsbericht zur Erkennung von Spreadsheet-Dateitypen vor 10 Jahren.

    • Es wurde ein Patch vorgeschlagen, der zur Erkennung von Dateitypen magic nutzt, aber er wurde abgelehnt.
    • Heute wird die Erkennung von Dateitypen mittels Deep Learning erwähnt.
    • Es besteht der Wunsch, dass Google Performance-Benchmarks veröffentlicht.
  • Ergebnisse eines Erkennungstests mit 100 Dateien geteilt.

    • Die meisten wurden korrekt erkannt, einige jedoch falsch oder als unklarer Typ.
    • Fehler traten hauptsächlich bei Dateitypen auf, die von Magika nicht unterstützt werden.
    • Im Vergleich zum bestehenden file-Utility zeigte sich eine ähnliche Genauigkeit.
  • Positive Reaktion darauf, dass in diesem Bereich ein neues Tool zur Erkennung von Dateitypen erschienen ist.

    • Es wurde die Frage gestellt, warum ein Node-Modul veröffentlicht wurde.
    • In der Dokumentation wird erwähnt, dass es langsam ist, und das Modell wird zur Laufzeit geladen.
    • Es wurde auf die experimentelle Kennzeichnung und die begrenzte Unterstützung von Dateitypen hingewiesen.
  • Verwirrung darüber, dass Google Ressourcen in die Entwicklung eines auf neuronalen Netzen basierenden Tools zur Erkennung von Dateitypen investiert hat, statt libmagic zu verbessern.

    • Es wird darauf hingewiesen, dass neuronale Netze zwar genauer sind, aber weniger Dateitypen unterstützen und in adversarialen Situationen weniger wirksam sind.
  • Neugier darauf, wie polyglotte Dateien erkannt werden, die in verschiedenen Formaten gültig sind.

    • In realen Tests wurde erwähnt, dass nur die ZIP-Ebene erkannt wird.
  • Frage nach der Precision oder dem Recall anderer Tools bei der korrekten Erkennung von APK- oder JAR-Dateien.

    • Es wurde um eine Erklärung von Fällen gebeten, in denen bestimmte Dateien Precision oder Recall beeinflusst haben.
  • Erfahrungsbericht zur Implementierung von libmagic in Racket.

    • Es wurde erwähnt, dass libmagic mehr Dateitypen erkennt, Magika jedoch bei der Erkennung von Textdateien nützlich sein könnte.
  • Behauptung, dass die Erkennung von Dateitypen ihrem Wesen nach deterministisch ist.

    • Es wird argumentiert, dass „Magic Bytes“ konsistent sein sollten, und die Notwendigkeit von Heuristiken oder probabilistischer Inferenz wird infrage gestellt.