3 Punkte von GN⁺ 2023-09-13 | 1 Kommentare | Auf WhatsApp teilen
  • Beim Feintuning von Llama 2 7B für ein Beispiel zur Rezeptklassifizierung erzielte das Modell im Testdatensatz ein Ergebnis mit 95 % Übereinstimmung mit GPT-4-Labels
  • Feintuning ist ein Verfahren, bei dem über Ein-/Ausgabe-Beispiele die gewünschte Arbeitsweise in den Modellgewichten angelernt wird; es kann schon mit 50 Beispielen funktionieren, in der Regel zielt man aber auf 1.000 oder mehr ab
  • Prompts sind für schnelle iterative Verbesserungen und den Betrieb eines einzelnen großen Modells im Vorteil, Feintuning kann jedoch auch kleine Modelle stark auf bestimmte Aufgaben zuschneiden
  • Das feinabgestimmte Llama 7B ist bei den Kosten pro Token 50-mal günstiger als GPT-3.5, wodurch sich bei ausreichend eng umrissenen Aufgaben das Preis-Leistungs-Verhältnis stark verbessern kann
  • Die Klassifizierung von 2 Millionen Rezepten kostet mit GPT-4 23.000 US-Dollar, mit GPT-3.5 mehr als 1.000 US-Dollar, während das betreffende feinabgestimmte Modell den gesamten Datensatz für 19 US-Dollar verarbeitet

Worin sich Feintuning von Prompting unterscheidet

  • Während auf Hacker News das Interesse an Feintuning öffentlicher LLMs zunimmt, wurde ein Notebook-Set für ein Beispiel zur Rezeptklassifizierung veröffentlicht
    • Die Notebooks befinden sich im OpenPipe-Beispiel und behandeln Daten-Labeling, Feintuning, effiziente Inferenz-Ausführung sowie Kosten-/Leistungsbewertung
  • Feintuning kann als stärkere Form der Anweisung im Vergleich zu Prompts verstanden werden
    • Statt bei jeder Anfrage Textanweisungen in den Prompt zu schreiben, wird die Arbeitsweise anhand von Ein-/Ausgabe-Paaren direkt dem Modell angelernt
    • Es kann schon mit nur 50 Beispielen funktionieren, bevorzugt werden aber nach Möglichkeit 1.000 oder mehr
  • Prompting hat im Betrieb und in Experimenten weiterhin große Vorteile
    • Anweisungen lassen sich ohne Labeling und erneutes Training leichter und schneller iterativ verbessern
    • Aus operativer Sicht ist es einfacher, ein einziges großes Modell bereitzustellen und nur dessen Verhalten anzupassen, als mehrere kleine feinabgestimmte Modelle auszurollen
    • Die einzelnen kleinen feinabgestimmten Modelle könnten jeweils nur eine geringe Auslastung erreichen

Kosten-/Leistungsbeispiel und OpenPipe

  • Der größte Vorteil von Feintuning besteht darin, das Modellverhalten wirksamer zu steuern, sodass kleinere Modelle eingesetzt werden können
    • Kleinere Modelle können die Antwortgeschwindigkeit erhöhen und die Inferenzkosten senken
    • Das feinabgestimmte Llama-7B-Modell ist gemessen an den Kosten pro Token 50-mal günstiger als GPT-3.5
  • Das Beispiel zur Rezeptklassifizierung vergleicht die Kosten für 2 Millionen Rezepte aus dem all-recipes-Datensatz
    • Die Klassifizierung mit GPT-4 kostet 23.000 US-Dollar
    • Selbst mit GPT-3.5 fallen mehr als 1.000 US-Dollar an
    • Das feinabgestimmte Modell erreicht eine ähnliche Leistung wie GPT-4 und verarbeitet den gesamten Datensatz für 19 US-Dollar
  • Im Testdatensatz stimmt das trainierte 7B-Modell zu 95 % mit den GPT-4-Labels überein
    • Bei den abweichenden 5 % sind die richtigen Antworten in vielen Fällen tatsächlich mehrdeutig
  • OpenPipe ist ein Open-Source-Produkt, das Ingenieuren helfen soll, Feintuning einfacher einzuführen
    • Das Projekt ist im OpenPipe-GitHub-Repository öffentlich verfügbar
    • Die bereitgestellten Informationen zum Feintuning selbst hängen nicht vom OpenPipe-Produkt ab

1 Kommentare

 
GN⁺ 2023-09-13
Hacker-News-Kommentare
  • Ein Artikel über den Einsatz von Fine-Tuning bei Llama 2 als Alternative zu GPT-3.5/4
  • Einige Nutzer stellten fest, dass GPT-3.5 für Übersetzungsaufgaben 100-mal günstiger ist als Llama 2; Llama 7B liefert schlechte Übersetzungen
  • Diskussion über die aggressive Preisstrategie von OpenAI für GPT-3.5; vermutet wird ein Versuch, andere Anbieter zu verdrängen und Nutzer von den eigenen Modellen abhängig zu machen
  • Erörtert wird die Möglichkeit, die Ausgaben von GPT und anderen LLMs zum Training interner Ersatzmodelle zu verwenden, was für Nutzer regulärer APIs im produktiven Maßstab eine kosteneffiziente Lösung sein könnte
  • Zweifel an der Behauptung, ein feinabgestimmtes Llama-7B-Modell sei 50-mal günstiger als GPT-3.5; einige Nutzer vermuten, dass dies nur mit Self-Hosting erreichbar ist
  • Es werden Fragen zur Wirksamkeit von Fine-Tuning im Vergleich zu Low-Rank Adaptation aufgeworfen
  • Einige Nutzer meinen, der Vergleich zwischen feinabgestimmten Llama-Modellen und GPT-3.5 sei irreführend, und verweisen auf Probleme bei angemessener Inferenzlatenz und Skalierbarkeit
  • Die Qualität feinabgestimmter Llama-2-Modelle ist nicht unbedingt besser als die von ChatGPT; zudem erfordert Fine-Tuning hochwertige Datensätze, die sich nicht leicht erstellen lassen
  • Es werden Fragen zur Konsistenz und Fehlerquote von GPT Function Calling gestellt
  • Nutzer fragen sich, welches Open-Source-LLM sich am besten für das Fine-Tuning eigener Modelle eignet
  • Es wird um Klarstellung gebeten, ob Fine-Tuning-Datensätze aus Eingabe-/Ausgabe-Paaren bestehen müssen oder auch autoregressiv sein können
  • Nutzer interessieren sich für Materialien, mit denen sie lernen können, wie man solche Modelle feinabstimmt, besonders für Einsteiger
  • Dieser Artikel wird als wertvolle Ressource für Menschen angesehen, die gerade im Bereich ML/LLM anfangen.