5 Punkte von GN⁺ 2023-07-19 | 1 Kommentare | Auf WhatsApp teilen
  • Open-Source-Großsprachmodell, das sowohl für Forschung als auch kommerziell genutzt werden kann
  • Mit 2 Billionen Token trainiert, 40 % mehr Daten als bei Llama 1
  • Doppelte Kontextlänge: 4096
  • Drei Modellgrößen: 7B, 13B, 70B
  • Hervorragende Leistung gegenüber anderen Open-Source-Sprachmodellen in vielen Benchmarks für Schlussfolgern, Coding, Kompetenz und Wissenstests (MPT, Falcon, Llama-1)
  • Mit öffentlich verfügbaren Datenquellen trainiert; das feinabgestimmte Llama-2-chat nutzt ebenfalls öffentliche Instruction-Sets und mehr als eine Million menschliche Annotationen
    • Einsatz von Reinforcement Learning from Human Feedback (RLHF). Einschließlich Rejection Sampling und Proximal Policy Optimization (PPO)
  • Im Download enthalten
    • Model code
    • Model Weights
    • README (User Guide)
    • Responsible Use Guide
    • License
    • Acceptable Use Policy
    • Model Card

1 Kommentare

 
GN⁺ 2023-07-19
Hacker-News-Meinungen
  • Llama 2 übertrifft GPT-3.5 bei bestimmten Benchmarks und holt insgesamt auf
  • Llama 2 zeigt starke Leistung in den Tests AI2 Reasoning Challenge, HellaSwag und MMLU
  • Llama 2 bietet eine ähnliche Leistung wie GPT-3.5, hat dabei aber weniger Parameter
  • Llama 2 lässt sich einfach testen und in Apps integrieren
  • Llama 2 hat eine nicht offene Lizenz, die von einigen Nutzern kritisiert wird
  • Llama 2 ist über verschiedene Tools und Plattformen zugänglich
  • Llama 2 verfügt über Guardrails, die sich in einigen Fällen umgehen lassen
  • Die Veröffentlichung von Llama 2 wird als positive Entwicklung zum Vorteil der Branche gesehen
  • Das Training von Llama 2 mit 2T Tokens hat die Leistung im Vergleich zu Llama 1 verbessert
  • Die Skalierung der Llama-Modelle könnte leistungsstarke Modelle auf Consumer-GPUs ermöglichen