- Das gesamte SafeDocs wurde mit LLMs, Embedding-Modellen, XGBoost und linearen Regressoren klassifiziert.
- Im Klassifizierungsprozess wurden verschiedene Experimente und Leistungsvergleiche durchgeführt und die Performance mehrerer Modelle bewertet.
Einführung
- Common Crawl (CC) ist ein Webarchiv, das das Internet archiviert und sich darauf konzentriert, das Internet für Wissenschaftler und Forschende zu bewahren.
- CC speichert PDF-Dateien nicht vollständig, sondern nur das erste 1 MB; SafeDocs ruft diese PDFs aus CC erneut ab und bewahrt die originalen PDFs.
- Der SafeDocs-Datensatz besteht aus etwa 8,4 Millionen PDF-Dateien und umfasst dekomprimiert 8 TB.
- Es wurde versucht, diese PDFs zu klassifizieren.
Erstellung des Datensatzes
- Es wird der Prozess beschrieben, PDF-Dateien in verschiedene Labels zu klassifizieren.
- Inspiriert vom FineWeb-Tech-Blog wurde eine Teilmenge von Bildungsinhalten erstellt, Labels mit einem LLM erzeugt und anschließend ein kleines Modell trainiert, das diese lernen kann.
- 100k Labels wurden erzeugt und nach Anpassung unausgeglichener Labels zu 59k Labels neu zusammengestellt.
Modelltraining
Idee 1: Embedding-Modell
- Embedding-Modelle wandeln Daten wie Text, Bilder und Videos in Vektoren in einem n-dimensionalen Raum um.
- Durch Finetuning wurde die Klassifizierungsleistung verbessert.
- Beim Test mehrerer Modelle zeigte das Modell
Alibaba-large-gte-1.5 die beste Leistung und erreichte eine Genauigkeit von 59,14 %.
Idee 2: XGBoost
- XGBoost ist ein Modell mit Spitzenleistung für tabellarische Daten und löst Klassifizierungsprobleme, indem es mehrere einfache binäre Klassifikatoren trainiert.
- Mit dieser Methode wurde eine Genauigkeit von 83,97 % erreicht.
Idee 3: TFIDF
- TFIDF ist eine Methode zur Berechnung, wie wichtig bestimmte Wörter in einem Dokument sind; mit grundlegenden NLP-Techniken wurde damit ein Modell trainiert.
- Es wurde eine Genauigkeit von 67,52 % erzielt.
Idee 4: Zurück zum Deep Learning
- Mit einem Deep-Learning-Klassifikator wurde eine Zielgenauigkeit von mindestens 70 % angestrebt.
- Nach der Erzeugung weiterer Labels und Experimenten mit dem Modell
gte-large wurde eine Genauigkeit von 69,22 % erreicht.
Experimentergebnisse
- Letztlich erzielte das XGBoost-Embedding-Modell mit 85,26 % die höchste Genauigkeit.
- Der Vergleich verschiedener Modelle zeigte, dass XGBoost die beste Leistung bot.
Klassifizierung des gesamten Korpus
- Mit dem erzeugten Modell wurden die gesamten PDF-Daten klassifiziert und die Ergebnisse visualisiert.
- PCA und UMAP wurden verwendet, um die Klassifizierungsergebnisse visuell darzustellen.
Fazit
- Die Leistung des Deep-Learning-Modells blieb hinter den Erwartungen zurück, insgesamt wurden jedoch bedeutende Ergebnisse erzielt.
- Es ist zu erwarten, dass künftig immer mehr große Datensätze mit komplexen Daten wie PDFs auftauchen werden.
- Durch die Veröffentlichung von Datensatz und Code wird die Möglichkeit geschaffen, bessere Ergebnisse zu erzielen.
Meinung von GN⁺
- Dieses Projekt ist ein gutes Beispiel dafür, verschiedene Ansätze für das Klassifizierungsproblem in großen Datensätzen zu erproben.
- Es zeigt, dass traditionelle Machine-Learning-Verfahren wie XGBoost weiterhin sehr effektiv sein können.
- Möglicherweise wären mehr Daten und GPU-Ressourcen nötig gewesen, um die Leistung der Deep-Learning-Modelle zu steigern.
- Es sind weitere Forschung und Experimente zur Verarbeitung komplexer Daten wie PDFs notwendig.
- Dieses Projekt kann eine sehr nützliche Referenz für Menschen sein, die sich für Forschung und Entwicklung interessieren.
Noch keine Kommentare.