TL;DR
- Kernzusammenfassung: Das feinabgestimmte Modell war genauer als das Modell von OpenAI, aber die Implementierung der Evaluation war schwierig.
- Wichtige Punkte: Während des Fine-Tuning-Prozesses war viel Code verborgen und die Ausführung langsam. Ohne ein System würde die Komplexität der Wartung zunehmen.
Laden des Datensatzes
- Datensatz: Verwendet wurde ein Testdatensatz aus einem öffentlichen Repository im Hugging Face Hub.
- Datensatzstruktur: unter anderem
name, eventrefnumber, text, StartDate, eventtype, province, citydistrict, village, targetgroup, commander, position, minkilled, mincaptured, capturedcharacterisation, killedcharacterisation, killq, captureq, killcaptureraid, airstrike, noshotsfired, dataprocessed, flagged, glossarymeta, minleaderskilled, minfacilitatorskilled, minleaderscaptured, minfacilitatorscaptured, leaderq usw.
Hinzufügen von Vorhersagen
- Vorhersagen hinzufügen: Den einzelnen Zeilen des Datensatzes wurden Vorhersageergebnisse hinzugefügt und dieser Vorgang wiederholt, um rechenintensive Schritte zu vermeiden.
- Verwendung von Pydantic-Objekten: Die Daten wurden als Pydantic-Objekte strukturiert, um Datenvalidierung und Qualitätskontrolle zu handhaben.
Test der JSON-Gültigkeit
- Vorhersageergebnisse: Das Modell wurde so eingestellt, dass es JSON-Strings ausgibt.
- Verwendung von GPT-Modellen: Für die Vorhersagen wurden GPT-4o und GPT-4 Turbo eingesetzt.
- Problem: Ein präziser Vergleich war schwierig, weil die GPT-Modelle nicht mit demselben Prompt trainiert worden waren.
Asynchrone Vorhersagen
- Asynchrone Verarbeitung: Um viele Ereignisse zu verarbeiten, wurden Vorhersagen asynchron ausgeführt.
- Retry-Logik: Unter Berücksichtigung der Rate Limits des Modells GPT-3.5-turbo wurde eine Retry-Logik hinzugefügt.
Umwandlung und Push des Datensatzes
- Datensatz umwandeln: Die Vorhersageergebnisse wurden dem Datensatz hinzugefügt und anschließend in den Hugging Face Hub gepusht.
- Verwendung von Funktionen: Für die wiederholte Durchführung von Umwandlung und Push wurden Funktionen verwendet.
Hinzufügen von Vorhersagen feinabgestimmter Modelle
- Lokales Modell: Die Vorhersageergebnisse eines lokal trainierten Modells wurden dem Datensatz hinzugefügt.
- OpenAI-Modell: Es wurden auch Vorhersageergebnisse eines mit OpenAIs One-Click-Fine-Tuning-Service trainierten Modells hinzugefügt.
- Verschiedene Modelle: Zusätzlich wurden Vorhersageergebnisse verschiedener Modelle wie Mistral, Llama3 und Solar LLM ergänzt.
Abschließende Evaluation
- Evaluationsmetriken: Es wurden verschiedene Metriken verwendet, darunter JSON-Gültigkeitstest, Genauigkeit des Startdatums, Genauigkeit nach Woche, Genauigkeit der Zielgruppe und Genauigkeit des Ereignistyps.
- Endergebnis: Das feinabgestimmte Modell zeigte eine höhere Genauigkeit als das Modell von OpenAI.
Meinung von GN⁺
- Bedeutung von Fine-Tuning: Dass das feinabgestimmte Modell eine höhere Genauigkeit als das Basismodell von OpenAI zeigte, unterstreicht die Bedeutung auf spezifische Aufgaben zugeschnittener Modelle.
- Komplexität der Evaluation: Die schwierige Implementierung der Evaluation macht deutlich, wie notwendig ein systematischer Ansatz ist.
- Einsatz verschiedener Modelle: Interessant ist, dass für die vergleichende Evaluation verschiedene Modelle verwendet wurden. Dadurch lassen sich ihre Stärken und Schwächen klarer erfassen.
- Nutzung von Open Source: Nützlich ist auch, dass Open-Source-Plattformen wie der Hugging Face Hub zur Verwaltung und zum Teilen von Datensätzen eingesetzt wurden.
- Notwendigkeit asynchroner Verarbeitung: Der Beitrag zeigt, dass ein asynchroner Ansatz bei der Verarbeitung großer Datenmengen effizient ist.
1 Kommentare
Hacker-News-Kommentare