- Ein Artikel über die Bereitstellung von Streaming-Anwendungen für Large Language Models (LLMs), die aufgrund des Speicherverbrauchs und der begrenzten Fähigkeit von LLMs, auf Texte zu generalisieren, die länger sind als die Trainingssequenzlänge, herausfordernd ist.
- Die Autoren führen das Konzept des „Attention Sink“ ein, das das Phänomen starker Attention-Scores für frühe Tokens beschreibt, selbst wenn diese semantisch nicht wichtig sind.
- Die Autoren präsentieren StreamingLLM, ein effizientes Framework, das es LLMs, die mit einem Attention-Fenster endlicher Länge trainiert wurden, ermöglicht, ohne Fine-Tuning auf unendliche Sequenzlängen zu generalisieren.
- StreamingLLM ermöglicht Modellen wie Llama-2, MPT, Falcon und Pythia ein stabiles und effizientes Language Modeling mit bis zu über 4 Millionen Tokens.
- Die Autoren fanden außerdem heraus, dass das Hinzufügen von Placeholder-Tokens als dedizierte Attention Sinks während des Pre-Trainings die Streaming-Bereitstellung weiter verbessern kann.
- In Streaming-Setups übertrifft StreamingLLM die Sliding-Window-Recompute-Baseline um bis zu das 22,2-Fache.
- Die Autoren stellen klar, dass das Kontextfenster von LLMs in StreamingLLM nicht erweitert wird und das Modell nur die neuesten Tokens verarbeiten kann.
- StreamingLLM ist ideal für Streaming-Anwendungen wie mehrstufige Dialoge, bei denen das Modell ohne umfangreichen Speicher oder Abhängigkeit von früheren Daten kontinuierlich weiterarbeiten muss.
- Die Autoren planen, den Kerncode von StreamingLLM, einschließlich Llama-2, MPT, Falcon und Pythia, sowie den Perplexity-Code, eine Streaming-Llama-Chatbot-Demo, den StreamEval-Datensatz und den Evaluierungscode zu veröffentlichen.
Noch keine Kommentare.