2 Punkte von GN⁺ 2024-08-20 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Das gesamte SafeDocs wurde mit LLMs, Embedding-Modellen, XGBoost und linearen Regressoren klassifiziert.
  • Im Klassifizierungsprozess wurden verschiedene Experimente und Leistungsvergleiche durchgeführt und die Performance mehrerer Modelle bewertet.

Einführung

  • Common Crawl (CC) ist ein Webarchiv, das das Internet archiviert und sich darauf konzentriert, das Internet für Wissenschaftler und Forschende zu bewahren.
  • CC speichert PDF-Dateien nicht vollständig, sondern nur das erste 1 MB; SafeDocs ruft diese PDFs aus CC erneut ab und bewahrt die originalen PDFs.
  • Der SafeDocs-Datensatz besteht aus etwa 8,4 Millionen PDF-Dateien und umfasst dekomprimiert 8 TB.
  • Es wurde versucht, diese PDFs zu klassifizieren.

Erstellung des Datensatzes

  • Es wird der Prozess beschrieben, PDF-Dateien in verschiedene Labels zu klassifizieren.
  • Inspiriert vom FineWeb-Tech-Blog wurde eine Teilmenge von Bildungsinhalten erstellt, Labels mit einem LLM erzeugt und anschließend ein kleines Modell trainiert, das diese lernen kann.
  • 100k Labels wurden erzeugt und nach Anpassung unausgeglichener Labels zu 59k Labels neu zusammengestellt.

Modelltraining

Idee 1: Embedding-Modell

  • Embedding-Modelle wandeln Daten wie Text, Bilder und Videos in Vektoren in einem n-dimensionalen Raum um.
  • Durch Finetuning wurde die Klassifizierungsleistung verbessert.
  • Beim Test mehrerer Modelle zeigte das Modell Alibaba-large-gte-1.5 die beste Leistung und erreichte eine Genauigkeit von 59,14 %.

Idee 2: XGBoost

  • XGBoost ist ein Modell mit Spitzenleistung für tabellarische Daten und löst Klassifizierungsprobleme, indem es mehrere einfache binäre Klassifikatoren trainiert.
  • Mit dieser Methode wurde eine Genauigkeit von 83,97 % erreicht.

Idee 3: TFIDF

  • TFIDF ist eine Methode zur Berechnung, wie wichtig bestimmte Wörter in einem Dokument sind; mit grundlegenden NLP-Techniken wurde damit ein Modell trainiert.
  • Es wurde eine Genauigkeit von 67,52 % erzielt.

Idee 4: Zurück zum Deep Learning

  • Mit einem Deep-Learning-Klassifikator wurde eine Zielgenauigkeit von mindestens 70 % angestrebt.
  • Nach der Erzeugung weiterer Labels und Experimenten mit dem Modell gte-large wurde eine Genauigkeit von 69,22 % erreicht.

Experimentergebnisse

  • Letztlich erzielte das XGBoost-Embedding-Modell mit 85,26 % die höchste Genauigkeit.
  • Der Vergleich verschiedener Modelle zeigte, dass XGBoost die beste Leistung bot.

Klassifizierung des gesamten Korpus

  • Mit dem erzeugten Modell wurden die gesamten PDF-Daten klassifiziert und die Ergebnisse visualisiert.
  • PCA und UMAP wurden verwendet, um die Klassifizierungsergebnisse visuell darzustellen.

Fazit

  • Die Leistung des Deep-Learning-Modells blieb hinter den Erwartungen zurück, insgesamt wurden jedoch bedeutende Ergebnisse erzielt.
  • Es ist zu erwarten, dass künftig immer mehr große Datensätze mit komplexen Daten wie PDFs auftauchen werden.
  • Durch die Veröffentlichung von Datensatz und Code wird die Möglichkeit geschaffen, bessere Ergebnisse zu erzielen.

Meinung von GN⁺

  • Dieses Projekt ist ein gutes Beispiel dafür, verschiedene Ansätze für das Klassifizierungsproblem in großen Datensätzen zu erproben.
  • Es zeigt, dass traditionelle Machine-Learning-Verfahren wie XGBoost weiterhin sehr effektiv sein können.
  • Möglicherweise wären mehr Daten und GPU-Ressourcen nötig gewesen, um die Leistung der Deep-Learning-Modelle zu steigern.
  • Es sind weitere Forschung und Experimente zur Verarbeitung komplexer Daten wie PDFs notwendig.
  • Dieses Projekt kann eine sehr nützliche Referenz für Menschen sein, die sich für Forschung und Entwicklung interessieren.

Noch keine Kommentare.

Noch keine Kommentare.