Alpaca und die Beschleunigung der On-Device-LLM-Entwicklung

xguru · 2023-03-15T11:19:23+09:00

Die Veränderungen in den drei Tagen seit dem Beitrag "SD Moment is coming" Läuft mit llama.cpp auf einem Raspberry Pi mit 4 GB. 10 Sekunden pro Token Mit Dalai ist die Ausführung nun einfach möglich Mit llama.cpp zunächst auf dem Pixel 6 mit 26 Sekunden pro Token umgesetzt, dann auf dem Pixel 5 auf 1 Sekunde pro Token verbessert Stanford hat Alpaca veröffentlicht, ein feinabgestimmtes LLaMA 7B Stanford's Alpaca Eine große Schwäche des LLaMA-Modells ist das Fehlen ausreichenden "Instruction-Tuning" für Frage-Antwort-Aufgaben Eine der großen Innovationen von OpenAI war es, GPT-3 um Instruction-Tuning zu ergänzen Stanford stellt dafür 52.000 Trainingsbeispiele bereit und macht das Training für 100 US-Dollar möglich Das kleinste 7B-Modell läuft jetzt sogar auf Raspberry Pi und Mobiltelefonen und liefert dabei sehr beeindruckende Ergebnisse Es ist jedoch noch nicht kommerziell nutzbar (aus drei Gründen nicht möglich: die Lizenz von LLaMA / der Instruction-Set-Datensatz wurde mit einem OpenAI-Modell erzeugt / Sicherheitsmaßnahmen wurden nicht entworfen) Was bedeutet das? Das Lizenzmodell von LLaMA ist für mich nicht besonders relevant LLaMA hat gezeigt, dass sich ein Sprachmodell der GPT-3-Klasse mit allgemein verfügbaren Ressourcen trainieren lässt llama.cpp hat gezeigt, dass sich LLMs auf Consumer-Hardware mit nur 4 GB ausführen lassen Alpaca zeigt, dass sich ein 7B-Modell (durch 4-Bit-Quantisierung auf 4 GB reduziert) mit 52K Beispielen und Kosten von 100 US-Dollar feinabstimmen lässt und Ergebnisse liefern kann, die ähnlich wie beim aktuellen text-davinci-003 sind Für den Vergleich wurde allerdings das vollständige 7B-Modell (13,48 GB, 16-Bit-Floating-Point) verwendet und nicht das auf 4 Bit reduzierte 4-GB-Modell; ich habe bisher noch keine Unterlagen gesehen, die den Qualitätsunterschied zwischen beiden klar vergleichen

(simonwillison.net)

11 Punkte von xguru 2023-03-15 | Noch keine Kommentare. | Auf WhatsApp teilen

Die Veränderungen in den drei Tagen seit dem Beitrag "SD Moment is coming"
- Läuft mit llama.cpp auf einem Raspberry Pi mit 4 GB. 10 Sekunden pro Token
- Mit Dalai ist die Ausführung nun einfach möglich
- Mit llama.cpp zunächst auf dem Pixel 6 mit 26 Sekunden pro Token umgesetzt, dann auf dem Pixel 5 auf 1 Sekunde pro Token verbessert
- Stanford hat Alpaca veröffentlicht, ein feinabgestimmtes LLaMA 7B

Stanford's Alpaca

Eine große Schwäche des LLaMA-Modells ist das Fehlen ausreichenden "Instruction-Tuning" für Frage-Antwort-Aufgaben
Eine der großen Innovationen von OpenAI war es, GPT-3 um Instruction-Tuning zu ergänzen
Stanford stellt dafür 52.000 Trainingsbeispiele bereit und macht das Training für 100 US-Dollar möglich
Das kleinste 7B-Modell läuft jetzt sogar auf Raspberry Pi und Mobiltelefonen und liefert dabei sehr beeindruckende Ergebnisse
Es ist jedoch noch nicht kommerziell nutzbar (aus drei Gründen nicht möglich: die Lizenz von LLaMA / der Instruction-Set-Datensatz wurde mit einem OpenAI-Modell erzeugt / Sicherheitsmaßnahmen wurden nicht entworfen)

Was bedeutet das?

Das Lizenzmodell von LLaMA ist für mich nicht besonders relevant
LLaMA hat gezeigt, dass sich ein Sprachmodell der GPT-3-Klasse mit allgemein verfügbaren Ressourcen trainieren lässt
llama.cpp hat gezeigt, dass sich LLMs auf Consumer-Hardware mit nur 4 GB ausführen lassen
Alpaca zeigt, dass sich ein 7B-Modell (durch 4-Bit-Quantisierung auf 4 GB reduziert) mit 52K Beispielen und Kosten von 100 US-Dollar feinabstimmen lässt und Ergebnisse liefern kann, die ähnlich wie beim aktuellen text-davinci-003 sind
- Für den Vergleich wurde allerdings das vollständige 7B-Modell (13,48 GB, 16-Bit-Floating-Point) verwendet und nicht das auf 4 Bit reduzierte 4-GB-Modell; ich habe bisher noch keine Unterlagen gesehen, die den Qualitätsunterschied zwischen beiden klar vergleichen

Alpaca und die Beschleunigung der On-Device-LLM-Entwicklung

Stanford's Alpaca

Was bedeutet das?

Verwandte Beiträge

Noch keine Kommentare.