GPT-3.5/4 durch direkt feinabgestimmtes Llama 2 ersetzen

(news.ycombinator.com)

3 Punkte von GN⁺ 2023-09-13 | 1 Kommentare | Auf WhatsApp teilen

Beim Feintuning von Llama 2 7B für ein Beispiel zur Rezeptklassifizierung erzielte das Modell im Testdatensatz ein Ergebnis mit 95 % Übereinstimmung mit GPT-4-Labels
Feintuning ist ein Verfahren, bei dem über Ein-/Ausgabe-Beispiele die gewünschte Arbeitsweise in den Modellgewichten angelernt wird; es kann schon mit 50 Beispielen funktionieren, in der Regel zielt man aber auf 1.000 oder mehr ab
Prompts sind für schnelle iterative Verbesserungen und den Betrieb eines einzelnen großen Modells im Vorteil, Feintuning kann jedoch auch kleine Modelle stark auf bestimmte Aufgaben zuschneiden
Das feinabgestimmte Llama 7B ist bei den Kosten pro Token 50-mal günstiger als GPT-3.5, wodurch sich bei ausreichend eng umrissenen Aufgaben das Preis-Leistungs-Verhältnis stark verbessern kann
Die Klassifizierung von 2 Millionen Rezepten kostet mit GPT-4 23.000 US-Dollar, mit GPT-3.5 mehr als 1.000 US-Dollar, während das betreffende feinabgestimmte Modell den gesamten Datensatz für 19 US-Dollar verarbeitet

Worin sich Feintuning von Prompting unterscheidet

Während auf Hacker News das Interesse an Feintuning öffentlicher LLMs zunimmt, wurde ein Notebook-Set für ein Beispiel zur Rezeptklassifizierung veröffentlicht
- Die Notebooks befinden sich im OpenPipe-Beispiel und behandeln Daten-Labeling, Feintuning, effiziente Inferenz-Ausführung sowie Kosten-/Leistungsbewertung
Feintuning kann als stärkere Form der Anweisung im Vergleich zu Prompts verstanden werden
- Statt bei jeder Anfrage Textanweisungen in den Prompt zu schreiben, wird die Arbeitsweise anhand von Ein-/Ausgabe-Paaren direkt dem Modell angelernt
- Es kann schon mit nur 50 Beispielen funktionieren, bevorzugt werden aber nach Möglichkeit 1.000 oder mehr
Prompting hat im Betrieb und in Experimenten weiterhin große Vorteile
- Anweisungen lassen sich ohne Labeling und erneutes Training leichter und schneller iterativ verbessern
- Aus operativer Sicht ist es einfacher, ein einziges großes Modell bereitzustellen und nur dessen Verhalten anzupassen, als mehrere kleine feinabgestimmte Modelle auszurollen
- Die einzelnen kleinen feinabgestimmten Modelle könnten jeweils nur eine geringe Auslastung erreichen

Kosten-/Leistungsbeispiel und OpenPipe

Der größte Vorteil von Feintuning besteht darin, das Modellverhalten wirksamer zu steuern, sodass kleinere Modelle eingesetzt werden können
- Kleinere Modelle können die Antwortgeschwindigkeit erhöhen und die Inferenzkosten senken
- Das feinabgestimmte Llama-7B-Modell ist gemessen an den Kosten pro Token 50-mal günstiger als GPT-3.5
Das Beispiel zur Rezeptklassifizierung vergleicht die Kosten für 2 Millionen Rezepte aus dem all-recipes-Datensatz
- Die Klassifizierung mit GPT-4 kostet 23.000 US-Dollar
- Selbst mit GPT-3.5 fallen mehr als 1.000 US-Dollar an
- Das feinabgestimmte Modell erreicht eine ähnliche Leistung wie GPT-4 und verarbeitet den gesamten Datensatz für 19 US-Dollar
Im Testdatensatz stimmt das trainierte 7B-Modell zu 95 % mit den GPT-4-Labels überein
- Bei den abweichenden 5 % sind die richtigen Antworten in vielen Fällen tatsächlich mehrdeutig
OpenPipe ist ein Open-Source-Produkt, das Ingenieuren helfen soll, Feintuning einfacher einzuführen
- Das Projekt ist im OpenPipe-GitHub-Repository öffentlich verfügbar
- Die bereitgestellten Informationen zum Feintuning selbst hängen nicht vom OpenPipe-Produkt ab

1 Kommentare

GN⁺ 2023-09-13

Hacker-News-Kommentare

Ein Artikel über den Einsatz von Fine-Tuning bei Llama 2 als Alternative zu GPT-3.5/4
Einige Nutzer stellten fest, dass GPT-3.5 für Übersetzungsaufgaben 100-mal günstiger ist als Llama 2; Llama 7B liefert schlechte Übersetzungen
Diskussion über die aggressive Preisstrategie von OpenAI für GPT-3.5; vermutet wird ein Versuch, andere Anbieter zu verdrängen und Nutzer von den eigenen Modellen abhängig zu machen
Erörtert wird die Möglichkeit, die Ausgaben von GPT und anderen LLMs zum Training interner Ersatzmodelle zu verwenden, was für Nutzer regulärer APIs im produktiven Maßstab eine kosteneffiziente Lösung sein könnte
Zweifel an der Behauptung, ein feinabgestimmtes Llama-7B-Modell sei 50-mal günstiger als GPT-3.5; einige Nutzer vermuten, dass dies nur mit Self-Hosting erreichbar ist
Es werden Fragen zur Wirksamkeit von Fine-Tuning im Vergleich zu Low-Rank Adaptation aufgeworfen
Einige Nutzer meinen, der Vergleich zwischen feinabgestimmten Llama-Modellen und GPT-3.5 sei irreführend, und verweisen auf Probleme bei angemessener Inferenzlatenz und Skalierbarkeit
Die Qualität feinabgestimmter Llama-2-Modelle ist nicht unbedingt besser als die von ChatGPT; zudem erfordert Fine-Tuning hochwertige Datensätze, die sich nicht leicht erstellen lassen
Es werden Fragen zur Konsistenz und Fehlerquote von GPT Function Calling gestellt
Nutzer fragen sich, welches Open-Source-LLM sich am besten für das Fine-Tuning eigener Modelle eignet
Es wird um Klarstellung gebeten, ob Fine-Tuning-Datensätze aus Eingabe-/Ausgabe-Paaren bestehen müssen oder auch autoregressiv sein können
Nutzer interessieren sich für Materialien, mit denen sie lernen können, wie man solche Modelle feinabstimmt, besonders für Einsteiger
Dieser Artikel wird als wertvolle Ressource für Menschen angesehen, die gerade im Bereich ML/LLM anfangen.

GPT-3.5/4 durch direkt feinabgestimmtes Llama 2 ersetzen

Worin sich Feintuning von Prompting unterscheidet

Kosten-/Leistungsbeispiel und OpenPipe

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare