Microsoft LLMLingua – Prompts komprimieren, um Inferenz zu beschleunigen und Kosten zu senken

xguru · 2023-12-22T10:02:02+09:00

Verwendet kleine, gut trainierte und ausgerichtete Sprachmodelle wie GPT2-small oder LLaMA-7B für die Komprimierung Erkennt unwichtige Tokens im Prompt und ermöglicht Inferenz mit komprimierten Prompts auf Blackbox-LLMs Komprimiert Prompts und den KV-Cache, um die Inferenzgeschwindigkeit von LLMs zu erhöhen und das Verständnis wichtiger Informationen zu verbessern Erreicht bis zu 20-fache Komprimierung bei minimalem Leistungsverlust Senkt Kosten durch Reduzierung von Prompts und generiertem Kontext Unterstützt längere Kontexte, indem die Dichte wichtiger Informationen im Prompt erhöht wird

(github.com/microsoft)

10 Punkte von xguru 2023-12-22 | Noch keine Kommentare. | Auf WhatsApp teilen

Verwendet kleine, gut trainierte und ausgerichtete Sprachmodelle wie GPT2-small oder LLaMA-7B für die Komprimierung
Erkennt unwichtige Tokens im Prompt und ermöglicht Inferenz mit komprimierten Prompts auf Blackbox-LLMs
- Komprimiert Prompts und den KV-Cache, um die Inferenzgeschwindigkeit von LLMs zu erhöhen und das Verständnis wichtiger Informationen zu verbessern
- Erreicht bis zu 20-fache Komprimierung bei minimalem Leistungsverlust
Senkt Kosten durch Reduzierung von Prompts und generiertem Kontext
Unterstützt längere Kontexte, indem die Dichte wichtiger Informationen im Prompt erhöht wird

Microsoft LLMLingua – Prompts komprimieren, um Inferenz zu beschleunigen und Kosten zu senken

Verwandte Beiträge

Noch keine Kommentare.