1 Punkte von GN⁺ 2023-10-03 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Ein Artikel über die Bereitstellung von Streaming-Anwendungen für Large Language Models (LLMs), die aufgrund des Speicherverbrauchs und der begrenzten Fähigkeit von LLMs, auf Texte zu generalisieren, die länger sind als die Trainingssequenzlänge, herausfordernd ist.
  • Die Autoren führen das Konzept des „Attention Sink“ ein, das das Phänomen starker Attention-Scores für frühe Tokens beschreibt, selbst wenn diese semantisch nicht wichtig sind.
  • Die Autoren präsentieren StreamingLLM, ein effizientes Framework, das es LLMs, die mit einem Attention-Fenster endlicher Länge trainiert wurden, ermöglicht, ohne Fine-Tuning auf unendliche Sequenzlängen zu generalisieren.
  • StreamingLLM ermöglicht Modellen wie Llama-2, MPT, Falcon und Pythia ein stabiles und effizientes Language Modeling mit bis zu über 4 Millionen Tokens.
  • Die Autoren fanden außerdem heraus, dass das Hinzufügen von Placeholder-Tokens als dedizierte Attention Sinks während des Pre-Trainings die Streaming-Bereitstellung weiter verbessern kann.
  • In Streaming-Setups übertrifft StreamingLLM die Sliding-Window-Recompute-Baseline um bis zu das 22,2-Fache.
  • Die Autoren stellen klar, dass das Kontextfenster von LLMs in StreamingLLM nicht erweitert wird und das Modell nur die neuesten Tokens verarbeiten kann.
  • StreamingLLM ist ideal für Streaming-Anwendungen wie mehrstufige Dialoge, bei denen das Modell ohne umfangreichen Speicher oder Abhängigkeit von früheren Daten kontinuierlich weiterarbeiten muss.
  • Die Autoren planen, den Kerncode von StreamingLLM, einschließlich Llama-2, MPT, Falcon und Pythia, sowie den Perplexity-Code, eine Streaming-Llama-Chatbot-Demo, den StreamEval-Datensatz und den Evaluierungscode zu veröffentlichen.

Noch keine Kommentare.

Noch keine Kommentare.