Wie man die AI-Kosten pro Tag von 100 $ auf 1 $ senkt: Mixtral-Fine-Tuning mit GPT-4

xguru · 2024-01-23T10:11:02+09:00

Es wurde eine AI-basierte App zur Karriereerkundung entwickelt, die explosionsartig wuchs, sodass die GPT-4-Kosten auf über 100 $ pro Tag anstiegen Die eingesetzte Methode, um die AI-Kosten um bis zu 99 % zu senken, dabei die Latenz zu verringern und die Qualität beizubehalten Zuerst mit dem leistungsstärksten Modell (GPT-4) Ergebnisse erzeugen und anschließend mit diesen Ergebnissen ein kleineres Modell feinjustieren AI-Anfragen/-Antworten so speichern, dass sie sich leicht exportieren lassen. Dafür wurde Helicone AI verwendet. Wenn lediglich die OpenAI API ersetzt wird, speichert es AI-Anfragen in einer Tabelle Sobald etwa 100–500 Anfrage-/Antwort-Paare gespeichert sind, diese exportieren und die Daten in guter Qualität bereinigen Mit diesem Datensatz über Hosting-Dienste wie Together/Anyscale Mixtral 8x7B feinjustieren GPT-4 durch das neu feinjustierte Modell ersetzen

(twitter.com/wenquai)

22 Punkte von xguru 2024-01-23 | 4 Kommentare | Auf WhatsApp teilen

Es wurde eine AI-basierte App zur Karriereerkundung entwickelt, die explosionsartig wuchs, sodass die GPT-4-Kosten auf über 100 $ pro Tag anstiegen
Die eingesetzte Methode, um die AI-Kosten um bis zu 99 % zu senken, dabei die Latenz zu verringern und die Qualität beizubehalten
- Zuerst mit dem leistungsstärksten Modell (GPT-4) Ergebnisse erzeugen und anschließend mit diesen Ergebnissen ein kleineres Modell feinjustieren
- AI-Anfragen/-Antworten so speichern, dass sie sich leicht exportieren lassen. Dafür wurde Helicone AI verwendet. Wenn lediglich die OpenAI API ersetzt wird, speichert es AI-Anfragen in einer Tabelle
- Sobald etwa 100–500 Anfrage-/Antwort-Paare gespeichert sind, diese exportieren und die Daten in guter Qualität bereinigen
- Mit diesem Datensatz über Hosting-Dienste wie Together/Anyscale Mixtral 8x7B feinjustieren
- GPT-4 durch das neu feinjustierte Modell ersetzen

4 Kommentare

kuroneko 2024-01-23

Heißt das dann, dass damit sowohl gegen die GPT-4-Nutzungsbedingungen als auch gegen die Mixtral-Lizenz verstoßen wurde...? @_@

xguru 2024-01-23

Ich denke, so ist es wohl. Da das nicht so offensichtlich sichtbar wird, scheint es vielen so zu gehen.

kuroneko 2024-01-23

Es gab zwar immer wieder Fälle, in denen so etwas stillschweigend genutzt oder für Forschungszwecke veröffentlicht wurde,
aber dass jemand so offen damit wirbt und sagt: „Wir haben das benutzt!“, ist schon ein bisschen … erstaunlich.

Ob es dafür wohl keinen Ärger gibt …?

xguru 2024-01-23

Hacker-News-Kommentare

Die meisten Tech-Unternehmen erzeugen seit mindestens einem halben Jahr, abgesehen von der Grundlagenforschung, Trainingsdaten mit GPT-4 oder 3.5 und verfeinern darauf basierend QLoRA, um ein „eigenes“ KI-Modell auf den Markt zu bringen. Das Management verkündet große Erfolge und bezeichnet das Unternehmen als führend im Bereich KI für eine „bestimmte Branche“. Für diesen Prozess ist kaum Wissen über maschinelles Lernen nötig, und die Cloud-Computing-Kosten liegen unter 1.000 $. In der Praxis erhält man jedoch Ergebnisse auf GPT-3.5-Niveau, und besonders bei der Nutzung von Cloud-GPUs ist es kostenseitig schwer, mit GPT-3.5 zu konkurrieren.
Ich habe mir die App Wanderer dieser Person angesehen, und sie wirkt äußerst verdächtig, weil es weder Nutzungsbedingungen noch eine Datenschutzerklärung, noch eine klare Preisgestaltung oder überhaupt irgendeinen Hinweis auf KI gibt.
Laut der Dokumentation von Together.ai kann Mixtral nicht für Fine-Tuning verwendet werden, und feinabgestimmte Modelle scheinen auch nicht serverlos ausgeführt zu werden. Das deutet darauf hin, dass die Geschichte nicht stimmig ist.
Abgesehen von ethischen Fragen und den eingeschränkten Bedingungen hätte GPT-4 für das, was der Verfasser getan hat, möglicherweise gar nicht gebraucht werden müssen. Wie viel schlechter oder schwieriger wäre es gewesen, mit Mixtral oder 3.5 die ersten 100 guten Prompt-Antwort-Paare zu erzeugen und sie anschließend manuell anzupassen?
Ich entwickle als Nebenprojekt eine App, die mit KI Inhalte in großem Maßstab zusammenfasst, und hoffe, dass daraus ein umsatzbringendes SaaS wird. Für einen schnellen Start plane ich zunächst OpenAI zu nutzen, gehe aber davon aus, später auf eine selbst gehostete LLM-Option umzusteigen, sofern das wirtschaftlich und technisch machbar ist. Falls jemand dazu Erfahrung hat, wären Tipps oder Tricks willkommen.
Ich frage mich, ob das nicht gegen die Nutzungsbedingungen von OpenAI verstößt.
Jemand bittet darum zu erklären, wie die Kosten auf 1 $ gesenkt wurden. GPT-4 wurde durch eine angepasste Version von Mixtral 8x7b ersetzt, doch dafür werden mehrere GPUs benötigt. Selbst wenn das Modell selbst quantisiert wurde, entstehen Hardware- und Infrastrukturkosten, die über 1 $ liegen dürften. Wird das vielleicht selbst gehostet?
Es wird auf die klassische Methodik der Wissensdestillation verwiesen. Dabei wird argumentiert, dass man für Fine-Tuning hier kein 8x7b brauche und dass phi-2 oder phixtral für solche Domänen bald leistungsfähig genug sein dürften.
Ich habe auch ohne irgendwelche Änderungen mit openhermes 7b chat hervorragende Ergebnisse erzielt; das deckt 90 % der GPT-4-Anwendungsfälle ab und läuft schnell. Kann ich empfehlen.

Wie man die AI-Kosten pro Tag von 100 $ auf 1 $ senkt: Mixtral-Fine-Tuning mit GPT-4

Verwandte Beiträge

4 Kommentare

Hacker-News-Kommentare