Meta stellt Sprachmodell der nächsten Generation Llama 2 vor

(ai.meta.com)

5 Punkte von GN⁺ 2023-07-19 | 1 Kommentare | Auf WhatsApp teilen

Open-Source-Großsprachmodell, das sowohl für Forschung als auch kommerziell genutzt werden kann
Mit 2 Billionen Token trainiert, 40 % mehr Daten als bei Llama 1
Doppelte Kontextlänge: 4096
Drei Modellgrößen: 7B, 13B, 70B
Hervorragende Leistung gegenüber anderen Open-Source-Sprachmodellen in vielen Benchmarks für Schlussfolgern, Coding, Kompetenz und Wissenstests (MPT, Falcon, Llama-1)
Mit öffentlich verfügbaren Datenquellen trainiert; das feinabgestimmte Llama-2-chat nutzt ebenfalls öffentliche Instruction-Sets und mehr als eine Million menschliche Annotationen
- Einsatz von Reinforcement Learning from Human Feedback (RLHF). Einschließlich Rejection Sampling und Proximal Policy Optimization (PPO)
Im Download enthalten
- Model code
- Model Weights
- README (User Guide)
- Responsible Use Guide
- License
- Acceptable Use Policy
- Model Card

1 Kommentare

GN⁺ 2023-07-19

Llama 2 übertrifft GPT-3.5 bei bestimmten Benchmarks und holt insgesamt auf
Llama 2 zeigt starke Leistung in den Tests AI2 Reasoning Challenge, HellaSwag und MMLU
Llama 2 bietet eine ähnliche Leistung wie GPT-3.5, hat dabei aber weniger Parameter
Llama 2 lässt sich einfach testen und in Apps integrieren
Llama 2 hat eine nicht offene Lizenz, die von einigen Nutzern kritisiert wird
Llama 2 ist über verschiedene Tools und Plattformen zugänglich
Llama 2 verfügt über Guardrails, die sich in einigen Fällen umgehen lassen
Die Veröffentlichung von Llama 2 wird als positive Entwicklung zum Vorteil der Branche gesehen
Das Training von Llama 2 mit 2T Tokens hat die Leistung im Vergleich zu Llama 1 verbessert
Die Skalierung der Llama-Modelle könnte leistungsstarke Modelle auf Consumer-GPUs ermöglichen