1 Punkte von GN⁺ 2023-12-08 | 1 Kommentare | Auf WhatsApp teilen

Zusammenfassung: Untersuchung der Fine-Tuning-Technik für künstliche Intelligenz

  • Wirkung und Schwierigkeit von Fine-Tuning
    • Fine-Tuning ergänzt die Fähigkeiten von GPT-4 und verspricht mehr Geschwindigkeit sowie bessere Kosteneffizienz.
    • Um den Mangel an Informationen darüber zu beheben, wie effektiv und schwierig Fine-Tuning in der Praxis wirklich ist, wurde ein eigenes Experiment durchgeführt.

Auswahl des Problems

  • Test der Schlussfolgerungsfähigkeit des Modells anhand von Magic: The Gathering (MTG)-Drafts
    • MTG ist ein strategisches Kartenspiel; beim Draft werden aus einem zufälligen Kartenpool Karten ausgewählt, um ein Deck zusammenzustellen.
    • Draft eignet sich als komplexe Aufgabe, die Schlussfolgern und das Verständnis neuer Daten erfordert.
    • Große historische Datensätze des Dienstes 17lands wurden genutzt, wobei die Draft-Entscheidungen der besten Spieler als „ground truth“ dienten.

Ergebnisse und Zusammenfassung

  • Leistung des feinabgestimmten 7B-Modells
    • Das feinabgestimmte 7B-Modell übertrifft GPT-4 und erreicht nahezu menschliches Niveau.
    • Fine-Tuning von GPT-3.5 könnte noch bessere Ergebnisse liefern, ist jedoch sehr teuer.
    • Fine-Tuning ist weiterhin ein experimenteller Prozess, insbesondere weil Prompt Engineering viel Zeit beansprucht.
    • Nach dem Fine-Tuning auf neue Kartensets zeigte das Modell Generalisierungsfähigkeit auch auf ungesehenen Kartensets.

Praxisbericht: Methode und Lernprozess

  • Datenaufbau
    • CSV-Daten von 17lands wurden in ein Textformat umgewandelt, das sich für Fine-Tuning eignet.
    • Die Formatierung der Daten war anspruchsvoll und experimentell.
  • Durchführung des Fine-Tunings
    • Wegen eingeschränktem GPU-Zugang wurden bei Runpod GPUs stundenweise gemietet.
    • Mit axolotl ließ sich die Optimierung für Fine-Tuning einfach umsetzen.
  • Evaluierung
    • Es ist wichtig, die Bewertungskriterien vor Beginn des Experiments festzulegen.
    • Die Definition geeigneter Evaluierungsmaßstäbe für Sprachmodelle kann schwierig sein.

Zentrale Erkenntnisse

  • Wirkung von Fine-Tuning
    • Fine-Tuning auf neue Daten ist in Bezug auf Genauigkeit und Kosten GPT-4 überlegen.
    • Fine-Tuning erfordert, um es richtig umzusetzen, einen experimentellen Prozess und ist eine spezielle Fähigkeit, die schwerer zu erlernen ist als Prompt Engineering.

Zusätzliche Informationen zu Magic

  • Leistung des feinabgestimmten KI-Draft-Bots
    • Es wurde eine Draft-Hilfs-App entwickelt, die ein mit Magic Arena-Logs verbundenes Draft-Modell verwendet.
    • Das feinabgestimmte Modell erzeugt die Auswahlentscheidungen, während GPT-4 die Erklärungen liefert.
    • Durch die Simulation mehrerer KI-Draft-Bots zeigte sich eine Leistung ähnlich der menschlicher Drafters.

Meinung von GN⁺

Der wichtigste Punkt dieses Artikels ist, dass Fine-Tuning das Potenzial hat, die Leistung bestehender großer Sprachmodelle wie GPT-4 zu übertreffen und damit das Verständnis sowie die Effizienz von künstlicher Intelligenz bei spezifischen Aufgaben deutlich zu verbessern. Interessant ist der Beitrag, weil er anhand eines realen Anwendungsfalls den konkreten Prozess des Fine-Tunings und dessen Wirkung zeigt; das kann auch Einsteigerinnen und Einsteigern im Software Engineering helfen, die Entwicklungsmöglichkeiten von KI-Technologien und ihre Anwendung besser zu verstehen.

1 Kommentare

 
GN⁺ 2023-12-08
Hacker-News-Kommentar
  • Beeindruckend ist, dass dies zeigt, wie selbst einfache Konzepte beim Fine-Tuning von LLMs nur schwer umzusetzen sein können. Selbst mit einem hochwertigen initialen Datensatz und Modell war dies eine anspruchsvolle Aufgabe.
  • Es entstand der Eindruck, dass LLMs gut für Probleme geeignet sind, bei denen es keine natürliche richtige Antwort gibt. Die perfekte Karte auszuwählen ist rechnerisch unmöglich, aber eine gute Karte auszuwählen ist möglich, und ein LLM kann sich einer Leistung auf menschlichem Niveau annähern.
  • Es scheint eine Menge von Problemen zu geben, die sich durch Fine-Tuning von LLMs lösen lassen. Das ist keine revolutionäre Veränderung des Alltags, aber es weckt die Erwartung, in Spielen wie Magic: The Gathering gegen Bots mit interessanten Spielstilen anzutreten.
  • Es wird die Frage aufgeworfen, wie man aus den Draft-Entscheidungen der besten Spieler „wahre Daten“ extrahieren kann. Nach Siegquote sortierte Daten könnten nicht die besten Spieler widerspiegeln, sondern die mit dem meisten Glück.
  • Ein LLM mag in gewissem Maß Regelwissen besitzen, wird aber vermutlich vor allem Seltenheit, Kosten usw. der Karten berücksichtigen. Dadurch wird die „Genauigkeit“ des Drafts infrage gestellt.
  • Statt den Loss des LLM auf 0 zu bringen, könnte es hilfreich sein, mit Axolotl einen gewichteten Loss zu verwenden. Domain-Adaption könnte beim Fine-Tuning hilfreich sein.
  • Der dem Agenten gegebene Prompt scheint nur die Namen der Karten zu enthalten und keinen Kontext aus früheren Picks beizubehalten. Das deutet darauf hin, dass es reiner Zufall sein könnte, wenn der Bot gut draftet.
  • Es wird ein Link zu einem Fall geteilt, in dem Magic the Gathering: Arena gehackt wurde, um eine Siegquote von 100 % zu erreichen. Das deutet darauf hin, dass die virtuelle KI Sparky von MTGA womöglich nicht besonders komplex ist.
  • Es wird Interesse an Fine-Tuning von LLMs für Magic: The Gathering geäußert. Jemand baut gerade einen Browser für Kartenähnlichkeiten auf und hat mit InstructorXL verschiedene Prompts ausprobiert, bisher aber noch keine zufriedenstellenden Ergebnisse erzielt. Dieser Beitrag war inspirierend.
  • Es wird gefragt, ob man ein kleines Modell verwenden könnte, das jede Karte als Token behandelt, den Draft-Zustand als Eingabe nutzt und die als Nächstes zu wählende Karte vorhersagt.
  • Es wäre interessant, das mit dem Training eines neuronalen Netzes für Drafts ohne Mistral als Ausgangspunkt zu vergleichen. Warum die LLM-Komponente wichtig ist, ist nicht klar.
  • Dass sich ein Draft mit einem LLM darstellen lässt, ist äußerst interessant. Die besten Draft-KIs nutzen in irgendeiner Form Representation Learning.