1 Punkte von GN⁺ 2024-07-02 | 1 Kommentare | Auf WhatsApp teilen

TL;DR

  • Kernzusammenfassung: Das feinabgestimmte Modell war genauer als das Modell von OpenAI, aber die Implementierung der Evaluation war schwierig.
  • Wichtige Punkte: Während des Fine-Tuning-Prozesses war viel Code verborgen und die Ausführung langsam. Ohne ein System würde die Komplexität der Wartung zunehmen.

Laden des Datensatzes

  • Datensatz: Verwendet wurde ein Testdatensatz aus einem öffentlichen Repository im Hugging Face Hub.
  • Datensatzstruktur: unter anderem name, eventrefnumber, text, StartDate, eventtype, province, citydistrict, village, targetgroup, commander, position, minkilled, mincaptured, capturedcharacterisation, killedcharacterisation, killq, captureq, killcaptureraid, airstrike, noshotsfired, dataprocessed, flagged, glossarymeta, minleaderskilled, minfacilitatorskilled, minleaderscaptured, minfacilitatorscaptured, leaderq usw.

Hinzufügen von Vorhersagen

  • Vorhersagen hinzufügen: Den einzelnen Zeilen des Datensatzes wurden Vorhersageergebnisse hinzugefügt und dieser Vorgang wiederholt, um rechenintensive Schritte zu vermeiden.
  • Verwendung von Pydantic-Objekten: Die Daten wurden als Pydantic-Objekte strukturiert, um Datenvalidierung und Qualitätskontrolle zu handhaben.

Test der JSON-Gültigkeit

  • Vorhersageergebnisse: Das Modell wurde so eingestellt, dass es JSON-Strings ausgibt.
  • Verwendung von GPT-Modellen: Für die Vorhersagen wurden GPT-4o und GPT-4 Turbo eingesetzt.
  • Problem: Ein präziser Vergleich war schwierig, weil die GPT-Modelle nicht mit demselben Prompt trainiert worden waren.

Asynchrone Vorhersagen

  • Asynchrone Verarbeitung: Um viele Ereignisse zu verarbeiten, wurden Vorhersagen asynchron ausgeführt.
  • Retry-Logik: Unter Berücksichtigung der Rate Limits des Modells GPT-3.5-turbo wurde eine Retry-Logik hinzugefügt.

Umwandlung und Push des Datensatzes

  • Datensatz umwandeln: Die Vorhersageergebnisse wurden dem Datensatz hinzugefügt und anschließend in den Hugging Face Hub gepusht.
  • Verwendung von Funktionen: Für die wiederholte Durchführung von Umwandlung und Push wurden Funktionen verwendet.

Hinzufügen von Vorhersagen feinabgestimmter Modelle

  • Lokales Modell: Die Vorhersageergebnisse eines lokal trainierten Modells wurden dem Datensatz hinzugefügt.
  • OpenAI-Modell: Es wurden auch Vorhersageergebnisse eines mit OpenAIs One-Click-Fine-Tuning-Service trainierten Modells hinzugefügt.
  • Verschiedene Modelle: Zusätzlich wurden Vorhersageergebnisse verschiedener Modelle wie Mistral, Llama3 und Solar LLM ergänzt.

Abschließende Evaluation

  • Evaluationsmetriken: Es wurden verschiedene Metriken verwendet, darunter JSON-Gültigkeitstest, Genauigkeit des Startdatums, Genauigkeit nach Woche, Genauigkeit der Zielgruppe und Genauigkeit des Ereignistyps.
  • Endergebnis: Das feinabgestimmte Modell zeigte eine höhere Genauigkeit als das Modell von OpenAI.

Meinung von GN⁺

  1. Bedeutung von Fine-Tuning: Dass das feinabgestimmte Modell eine höhere Genauigkeit als das Basismodell von OpenAI zeigte, unterstreicht die Bedeutung auf spezifische Aufgaben zugeschnittener Modelle.
  2. Komplexität der Evaluation: Die schwierige Implementierung der Evaluation macht deutlich, wie notwendig ein systematischer Ansatz ist.
  3. Einsatz verschiedener Modelle: Interessant ist, dass für die vergleichende Evaluation verschiedene Modelle verwendet wurden. Dadurch lassen sich ihre Stärken und Schwächen klarer erfassen.
  4. Nutzung von Open Source: Nützlich ist auch, dass Open-Source-Plattformen wie der Hugging Face Hub zur Verwaltung und zum Teilen von Datensätzen eingesetzt wurden.
  5. Notwendigkeit asynchroner Verarbeitung: Der Beitrag zeigt, dass ein asynchroner Ansatz bei der Verarbeitung großer Datenmengen effizient ist.

1 Kommentare

 
GN⁺ 2024-07-02
Hacker-News-Kommentare
  • OpenPipe-Gründer: Datenextraktion ist ein Bereich, in dem feinabgestimmte Modelle hervorragend sind. Laut der Forschung von OpenPipe übertraf das Modell Llama 3 8B GPT-4 bei mehreren Aufgaben. Wichtig ist, wie man hochwertige Trainingsdaten erzeugt
  • Kleine spezialisierte Modelle zeigen eine bessere Leistung bei Informationsextraktion und Textklassifizierung. Ich würde gern Studien sehen, die auch die Leistung kleiner Modelle einbeziehen
  • Gleichungen unterbestimmter Systeme haben unendlich viele Lösungen. Mit Open-Source-AI-Modellen kann man SOTA-Benchmarks übertreffen. Mit der aktuellen Technik lassen sich keine intelligenten Systeme bauen; dafür braucht es einen neuen Durchbruch
  • Datenextraktion und Strukturierung sind die einzigen wirklich ernsthaften Anwendungen von LLMs, die in realen Aufgaben nützlich sind. Kleine Modelle sind schneller und günstiger und eignen sich für Offline-Arbeit. Mehr Experimente und spezifischeres Fine-Tuning sind möglich
  • Genau dafür sind feinabgestimmte Modelle da. Es ist gut, einen Fine-Tuning-Prozess zu sehen, der Hosting- und lokale Optionen mischt
  • Ich würde gern Beispiele sehen, bei denen GPT-4 ungenau war und das beste Modell korrekt lag. Es wäre auch gut, es noch einmal mit Temperatur 0 zu versuchen. Temperatur 0 kann bei strukturierter Datenextraktion einen großen Unterschied machen
  • Ich habe eine Arbeit zu einem ähnlichen Thema geschrieben: Link zum Paper
  • Bei Predibase wurden mehr als 700 Fine-Tuning-Experimente durchgeführt und mit GPT-4 verglichen. In 85 % der Fälle wurde GPT-4 übertroffen. Die Ergebnisse gibt es hier
  • Alle Modelle sollten so weit wie möglich Open Source sein. Für Freiheit und Qualität ist Open Source im Allgemeinen besser
  • Der möglicherweise kontroverse Inhalt des Ziel-Nachrichtenartikels könnte die Fähigkeit von ChatGPT zur Zusammenfassung beeinflussen