Unsloth: Llama 3 mit 2x schnellerem Finetuning, 6x längerem Kontext und 68 % weniger VRAM

(unsloth.ai)

12 Punkte von brainer 2024-04-25 | Noch keine Kommentare. | Auf WhatsApp teilen

• Unsloth, ein Tool zum Finetuning großer Sprachmodelle, unterstützt jetzt Metas neuestes Llama-3-Modell und ermöglicht im Vergleich zu Flash Attention 2 (FA2) und Hugging Face (HF) ein 2x schnelleres Finetuning bei 63 % weniger VRAM-Nutzung.

• Mit Unsloth lässt sich die 70B-Version von Llama 3 1,8x schneller finetunen und benötigt 68 % weniger VRAM, wodurch während des Finetunings deutlich längere Kontextlängen möglich werden. Das ist besonders nützlich für Aufgaben, die umfangreichen Kontext benötigen, etwa Question Answering oder Textgenerierung.

• Unsloth unterstützt außerdem 4-Bit-Quantisierung für die Llama-3-Modelle, was 4x schnellere Downloads und geringere Speicheranforderungen ermöglicht. Vorquantisierte 4-Bit-Modelle sowohl für die 70B-Instruction- als auch die Base-Version von Llama 3 sind auf der Hugging-Face-Seite verfügbar.

• Außerdem behandelt Unsloth bestimmte Eigenheiten und „Bugs“ von Llama 3, etwa dass dem Tokenizer ein BOS-Token fehlt und das Basismodell Tokens enthält, auf die es nicht trainiert wurde. Unsloth behebt diese Probleme während des Finetunings automatisch und sorgt so für ein präzises und effizientes Training.

Unsloth: Llama 3 mit 2x schnellerem Finetuning, 6x längerem Kontext und 68 % weniger VRAM

Verwandte Beiträge

Noch keine Kommentare.