08] Die wichtigsten ML-Papers dieser Woche (Top ML Papers of the Week)

(discuss.pytorch.kr)

2 Punkte von ninebow 2023-10-09 | Noch keine Kommentare. | Auf WhatsApp teilen

Überblick

Ich habe den wöchentlich auf DAIR.AI veröffentlichten Beitrag zu ML-Papers automatisch übersetzt.
Bei der Durchsicht der in dieser Woche vorgestellten Papers zeigte sich, dass es viele Arbeiten zu Sprachmodellen (Language Models, LLMs) gab, die sich mit langem Kontext (Long Context) befassen. Insbesondere Papers wie „LLMs Represent Space and Time“, „Retrieval meets Long Context LLMs“, „StreamingLLM“, „The Dawn of LLMs“ und „Training LLMs with Pause Tokens“ beleuchten verschiedene Aspekte von LLMs.
Dieser Trend ist ein typisches Beispiel dafür, dass die Bedeutung von Sprachmodellen im Machine Learning und Deep Learning weiter zunimmt. LLMs sind eine Technologie, die durch das Training auf großen Mengen an Sprachdaten eine allgemeine Leistungssteigerung bei verschiedenen Aufgaben des Sprachverständnisses ermöglicht, darunter Satzgenerierung, maschinelle Übersetzung und Rechtschreibkorrektur. Allerdings gibt es bei der Verarbeitung langen Kontexts weiterhin viele Schwierigkeiten. Es scheint, dass verschiedene Ansätze vorgeschlagen werden, um diese Probleme zu lösen.
Außerdem untersuchen Papers wie „Neural Developmental Programs“, „Recursively Self-Improving Code Generation“ und „Retrieval-Augmented Dual Instruction Tuning“ Themen wie selbstständiges Lernen von KI, Codegenerierung und Instruction Tuning. Das zeigt, dass in der KI neue Methodologien entstehen, und es ist zu erwarten, dass diese Forschungen eine sehr wichtige Rolle dabei spielen werden, die Selbstlern- und Anpassungsfähigkeit von KI-Technologien zu verbessern.
Daher lässt sich sagen, dass die Trends der Papers dieser Woche neue Forschungsrichtungen für die Verarbeitung langen Kontexts in Sprachmodellen sowie für selbstständiges Lernen und Codegenerierung in der KI aufzeigen.

Sprachmodelle repräsentieren Raum und Zeit / Language Models Represent Space and Time

Paper-Einführung

Es wurde festgestellt, dass Sprachmodelle lineare Repräsentationen von Raum und Zeit über mehrere Skalen hinweg erlernen, dass diese Repräsentationen robust gegenüber Prompt-Variationen sind und über verschiedene Entitätstypen hinweg vereinheitlicht werden. Damit wird gezeigt, dass Sprachmodelle grundlegendes strukturiertes Wissen wie Raum und Zeit erwerben, und es wird argumentiert, dass Sprachmodelle nicht nur oberflächliche Statistiken, sondern buchstäbliche Weltmodelle lernen. #llm #llama2

Discovers that llms learn linear representations of space and time across multiple scales; the representations are robust to prompt variations and unified across different entity types; demonstrate that llms acquire fundamental structured knowledge such as space and time, claiming that language models learn beyond superficial statistics, but literal world models.

Paper-Abstract

Die Fähigkeiten großer Sprachmodelle (LLMs) haben eine Debatte darüber ausgelöst, ob solche Systeme lediglich eine enorme Sammlung oberflächlicher Statistiken lernen oder ein kohärentes Modell des datengenerierenden Prozesses – also ein Weltmodell. Wir fanden Hinweise auf Letzteres, indem wir die gelernten Repräsentationen von drei räumlichen Datensätzen (Welt, USA, Orte in NYC) und drei zeitlichen Datensätzen (historische Personen, Kunstwerke, Nachrichtenüberschriften) in der Llama-2-Modellfamilie analysierten. Dabei stellten wir fest, dass LLMs lineare Repräsentationen von Raum und Zeit über mehrere Skalen hinweg erlernen. Diese Repräsentationen sind robust gegenüber Variationen im Prompting und über verschiedene Entitätstypen hinweg vereinheitlicht (z. B. Städte und Wahrzeichen). Darüber hinaus identifizieren wir einzelne „Raum-Neuronen“ und „Zeit-Neuronen“, die räumliche und zeitliche Koordinaten zuverlässig kodieren. Unsere Analyse zeigt, dass moderne LLMs strukturiertes Wissen über grundlegende Dimensionen wie Raum und Zeit erwerben, was die Sichtweise stützt, dass sie nicht bloß oberflächliche Statistiken, sondern buchstäbliche Weltmodelle lernen.

The capabilities of large language models (LLMs) have sparked debate over whether such systems just learn an enormous collection of superficial statistics or a coherent model of the data generating process -- a world model. We find evidence for the latter by analyzing the learned representations of three spatial datasets (world, US, NYC places) and three temporal datasets (historical figures, artworks, news headlines) in the Llama-2 family of models. We discover that LLMs learn linear representations of space and time across multiple scales. These representations are robust to prompting variations and unified across different entity types (e.g. cities and landmarks). In addition, we identify individual space neurons'' and time neurons'' that reliably encode spatial and temporal coordinates. Our analysis demonstrates that modern LLMs acquire structured knowledge about fundamental dimensions such as space and time, supporting the view that they learn not merely superficial statistics, but literal world models.

Paper-Link

https://arxiv.org/abs/2310.02207

Weiterführende Lektüre

https://x.com/wesg52/status/1709551516577902782

Retrieval trifft auf Large Language Models mit langem Kontext / Retrieval meets Long Context Large Language Models

Paper-Einführung

Verglichen werden Retrieval-Augmentation und lange Kontextfenster für Downstream-Aufgaben, um zu untersuchen, ob sich beide Ansätze kombinieren lassen, damit man das Beste aus beiden Welten erhält. Ein LLM mit einem 4K-Kontextfenster und einfachem RAG kann eine vergleichbare Leistung wie ein feinabgestimmtes LLM mit 16K-Kontext erzielen; Retrieval kann die Leistung von LLMs unabhängig von der Größe des erweiterten Kontextfensters deutlich verbessern; und ein Retrieval-augmentiertes llama2-70b mit 32K-Kontextfenster übertrifft gpt-3.5-turbo-16k bei sieben Long-Context-Aufgaben, darunter Fragebeantwortung und query-basierte Zusammenfassung. #llama #llama2-7b-32k-context #llama2-long #100k-context-window #streamingllm

Compares retrieval augmentation and long-context windows for downstream tasks to investigate if the methods can be combined to get the best of both worlds; an llm with a 4k context window using simple rag can achieve comparable performance to a fine-tuned llm with 16k context; retrieval can significantly improve the performance of llms regardless of their extended context window sizes; a retrieval-augmented llama2-70b with a 32k context window outperforms gpt-3.5-turbo-16k on seven long context tasks including question answering and query-based summarization.

Paper-Abstract

Während die Erweiterung des Kontextfensters großer Sprachmodelle (LLMs) in letzter Zeit immer beliebter wird, gibt es Lösungen zur retrieval-gestützten Erweiterung von LLMs schon seit Jahren. Die naheliegenden Fragen sind: i) Retrieval-Augmentation oder langes Kontextfenster – was ist für Downstream-Aufgaben besser geeignet? ii) Lassen sich beide Methoden kombinieren, um die Vorteile beider Ansätze zu nutzen? Diese Studie beantwortet diese Fragen, indem sie beide Lösungen mit zwei modernen vortrainierten LLMs untersucht, nämlich einem proprietären 43B-GPT und LLaMA2-70B. Überraschenderweise zeigte sich, dass ein LLM mit 4K-Kontextfenster und einfacher Retrieval-Augmentation bei der Generierung auf Long-Context-Aufgaben eine vergleichbare Leistung wie ein feinabgestimmtes LLM mit 16K-Kontextfenster via Positionsinterpolation erreichen kann – bei deutlich geringerem Rechenaufwand. Noch wichtiger ist, dass nachgewiesen wurde, dass Retrieval die Leistung von LLMs unabhängig von der erweiterten Größe ihres Kontextfensters deutlich verbessern kann. Das beste Modell, ein retrieval-augmentiertes LLaMA2-70B mit 32K-Kontextfenster, übertrifft GPT-3.5-turbo-16k und Davinci003 beim durchschnittlichen Score über sieben Long-Context-Aufgaben hinweg, darunter Question Answering und query-basierte Zusammenfassung. Es übertrifft außerdem die Baseline ohne Retrieval, LLaMA2-70B-32k, mit deutlichem Abstand und ist bei der Generierung zugleich deutlich schneller. Die Studie liefert allgemeine Erkenntnisse, die Praktikern bei der Wahl zwischen Retrieval-Augmentation und der Erweiterung langer Kontexte für LLMs helfen.

Extending the context window of large language models (LLMs) is getting popular recently, while the solution of augmenting LLMs with retrieval has existed for years. The natural questions are: i) Retrieval-augmentation versus long context window, which one is better for downstream tasks? ii) Can both methods be combined to get the best of both worlds? In this work, we answer these questions by studying both solutions using two state-of-the-art pretrained LLMs, i.e., a proprietary 43B GPT and LLaMA2-70B. Perhaps surprisingly, we find that LLM with 4K context window using simple retrieval-augmentation at generation can achieve comparable performance to finetuned LLM with 16K context window via positional interpolation on long context tasks, while taking much less computation. More importantly, we demonstrate that retrieval can significantly improve the performance of LLMs regardless of their extended context window sizes. Our best model, retrieval-augmented LLaMA2-70B with 32K context window, outperforms GPT-3.5-turbo-16k and Davinci003 in terms of average score on seven long context tasks including question answering and query-based summarization. It also outperforms its non-retrieval LLaMA2-70B-32k baseline by a margin, while being much faster at generation. Our study provides general insights on the choice of retrieval-augmentation versus long context extension of LLM for practitioners.

Paper-Link

https://arxiv.org/abs/2310.03025

Weiterlesen

https://x.com/omarsar0/status/1709749178199318545

Effiziente Streaming-Sprachmodelle mit Attention Sinks / Efficient Streaming Language Models with Attention Sinks

Paper-Vorstellung

Ein Framework, das effiziente Streaming-LLMs mit Attention Sinks ermöglicht – ein Phänomen, bei dem die KV-Zustände der anfänglichen Tokens die Leistung von Window Attention weitgehend wiederherstellen; das Auftreten von Attention Sinks ist auf starke Attention-Scores gegenüber den anfänglichen Tokens zurückzuführen; mit diesem Ansatz können LLMs, die mit Aufmerksamkeitsfenstern endlicher Länge trainiert wurden, ohne zusätzliche Feinabstimmung auf unendliche Sequenzlängen generalisieren. #streamingllm

A framework that enables efficient streaming llms with attention sinks, a phenomenon where the kv states of initial tokens will largely recover the performance of window attention; the emergence of the attention sink is due to strong attention scores towards the initial tokens; this approach enables llms trained with finite length attention windows to generalize to infinite sequence length without any additional fine-tuning.

Paper-Abstract

Der Einsatz großer Sprachmodelle (LLMs) in Streaming-Anwendungen wie mehrstufigen Dialogen, bei denen lange Interaktionen zu erwarten sind, ist dringend erforderlich, bringt jedoch zwei große Herausforderungen mit sich. Erstens verbraucht das Caching der Key- und Value-Zustände (KV) vorheriger Tokens während der Decoding-Phase sehr viel Speicher. Zweitens können weit verbreitete LLMs nicht auf Texte generalisieren, die länger sind als die Sequenzlänge im Training. Window Attention, bei der nur die neuesten KVs gecacht werden, ist ein naheliegender Ansatz, doch es zeigt sich, dass sie versagt, wenn die Textlänge die Cache-Größe überschreitet. Dabei wurde ein interessantes Phänomen beobachtet, nämlich der Attention Sink: Wenn das KV der anfänglichen Tokens erhalten bleibt, wird die Leistung von Window Attention weitgehend wiederhergestellt. In dieser Arbeit wird zunächst gezeigt, dass das Auftreten von Attention Sinks darauf zurückzuführen ist, dass anfängliche Tokens als „Sink“ hohe Attention-Scores erhalten, auch wenn sie semantisch nicht wichtig sind. Auf Basis dieser Analyse stellen wir StreamingLLM vor, ein effizientes Framework, das es LLMs, die mit einem Attention-Fenster endlicher Länge trainiert wurden, ermöglicht, ohne jedes Fine-Tuning auf unendliche Sequenzlängen zu generalisieren. Wir zeigen, dass StreamingLLM Llama-2, MPT, Falcon und Pythia in die Lage versetzt, stabiles und effizientes Language Modeling mit bis zu 4 Millionen Tokens und mehr durchzuführen. Darüber hinaus haben wir festgestellt, dass das Hinzufügen eines Placeholder-Tokens als dedizierter Attention Sink während des Pre-Trainings das Streaming-Deployment weiter verbessern kann. In Streaming-Settings ist StreamingLLM gegenüber der Sliding-Window-Recomputation-Baseline bis zu 22,2-mal schneller. Code und Datensätze sind unter https://github.com/mit-han-lab/streaming-llm verfügbar.

Deploying Large Language Models (LLMs) in streaming applications such as multi-round dialogue, where long interactions are expected, is urgently needed but poses two major challenges. Firstly, during the decoding stage, caching previous tokens' Key and Value states (KV) consumes extensive memory. Secondly, popular LLMs cannot generalize to longer texts than the training sequence length. Window attention, where only the most recent KVs are cached, is a natural approach -- but we show that it fails when the text length surpasses the cache size. We observe an interesting phenomenon, namely attention sink, that keeping the KV of initial tokens will largely recover the performance of window attention. In this paper, we first demonstrate that the emergence of attention sink is due to the strong attention scores towards initial tokens as a ``sink'' even if they are not semantically important. Based on the above analysis, we introduce StreamingLLM, an efficient framework that enables LLMs trained with a finite length attention window to generalize to infinite sequence lengths without any fine-tuning. We show that StreamingLLM can enable Llama-2, MPT, Falcon, and Pythia to perform stable and efficient language modeling with up to 4 million tokens and more. In addition, we discover that adding a placeholder token as a dedicated attention sink during pre-training can further improve streaming deployment. In streaming settings, StreamingLLM outperforms the sliding window recomputation baseline by up to 22.2x speedup. Code and datasets are provided at https://github.com/mit-han-lab/streaming-llm.

Paper-Link

https://arxiv.org/abs/2309.17453

Weiterlesen

https://x.com/Guangxuan_Xiao/status/1708943505731801325

https://discuss.pytorch.kr/t/…

Auf dem Weg zu sich selbst zusammensetzenden künstlichen neuronalen Netzen durch neuronale Entwicklungsprogramme / Towards Self-Assembling Artificial Neural Networks through Neural Developmental Programs

Paper-Einführung

Es wird vorgeschlagen, neuronale Netze zu verwenden, die sich durch einen Entwicklungsprozess, der Eigenschaften der embryonalen Entwicklung biologischer Organismen widerspiegelt (als neuronale Entwicklungsprogramme bezeichnet), selbst zusammensetzen; zudem wird die Machbarkeit dieses Ansatzes bei kontinuierlichen Kontrollproblemen und wachsenden Topologien gezeigt.

Proposes to use neural networks that self-assemble through a developmental process that mirrors properties of embryonic development in biological organisms (referred to as neural developmental programs); shows the feasibility of the approach in continuous control problems and growing topologies.

Abstract des Papers

Biologische Nervensysteme entstehen auf eine grundlegend andere Weise als heutige künstliche neuronale Netze. Trotz seiner beeindruckenden Ergebnisse in vielen verschiedenen Bereichen erfordert Deep Learning oft erheblichen Engineering-Aufwand, um leistungsstarke neuronale Architekturen zu entwerfen. Im Gegensatz dazu wachsen biologische Nervensysteme durch einen dynamischen, selbstorganisierenden Prozess. In dieser Arbeit unternehmen wir erste Schritte hin zu neuronalen Netzen, die durch einen Entwicklungsprozess wachsen, der zentrale Eigenschaften der embryonalen Entwicklung biologischer Organismen widerspiegelt. Der Wachstumsprozess wird von einem anderen neuronalen Netz gesteuert, das wir Neural Developmental Program (NDP) nennen und das ausschließlich über lokale Kommunikation arbeitet. Wir untersuchen die Rolle neuronalen Wachstums anhand verschiedener Machine-Learning-Benchmarks und unterschiedlicher Optimierungsmethoden (evolutionäres Training, Online-RL, Offline-RL und überwachtes Lernen). Darüber hinaus heben wir künftige Forschungsrichtungen und Chancen hervor, die sich daraus ergeben, dass Selbstorganisation das Wachstum neuronaler Netze antreibt.

Biological nervous systems are created in a fundamentally different way than current artificial neural networks. Despite its impressive results in a variety of different domains, deep learning often requires considerable engineering effort to design high-performing neural architectures. By contrast, biological nervous systems are grown through a dynamic self-organizing process. In this paper, we take initial steps toward neural networks that grow through a developmental process that mirrors key properties of embryonic development in biological organisms. The growth process is guided by another neural network, which we call a Neural Developmental Program (NDP) and which operates through local communication alone. We investigate the role of neural growth on different machine learning benchmarks and different optimization methods (evolutionary training, online RL, offline RL, and supervised learning). Additionally, we highlight future research directions and opportunities enabled by having self-organization driving the growth of neural networks.

Paper-Link

https://arxiv.org/abs/2307.08197

Weiterlesen

https://x.com/risi1979/status/1708888992224362742

Die Morgendämmerung der LMMs: Vorläufige Erkundungen mit GPT-4V(ision) / The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)

Paper-Vorstellung

Um das Verständnis großer multimodaler Modelle (LMMs) zu vertiefen, wird gpt-4v umfassend analysiert, mit Fokus darauf, gpt-4v in verschiedenen Anwendungsszenarien zu untersuchen, und es werden vielfältige Beispiele bereitgestellt, die von Code-Fähigkeiten mit Vision bis hin zu retrieval-augmentierten LMMs reichen. #multimodal #gpt-4v

A comprehensive analysis of gpt-4v to deepen the understanding of large multimodal models (lmms); it focuses on probing gpt-4v across various application scenarios; provides examples ranging from code capabilities with vision to retrieval-augmented lmms.

Paper-Abstract

Große multimodale Modelle (LMMs) erweitern große Sprachmodelle (LLMs) um multisensorische Fähigkeiten wie visuelles Verständnis, um eine stärkere allgemeine Intelligenz zu erreichen. In dieser Arbeit analysieren wir das neueste Modell GPT-4V(ision), um das Verständnis von LMMs zu vertiefen. Die Analyse konzentriert sich auf die interessanten Aufgaben, die GPT-4V ausführen kann, und enthält Testbeispiele, um die Qualität und Allgemeingültigkeit der Fähigkeiten von GPT-4V, seine unterstützten Eingaben und Arbeitsmodi sowie effektive Methoden zum Prompting des Modells zu untersuchen. Bei unserem Ansatz zur Erforschung von GPT-4V kuratieren und organisieren wir eine Sammlung sorgfältig entworfener qualitativer Beispiele aus einer Vielzahl von Domänen und Aufgaben. Die Beobachtungen aus diesen Beispielen zeigen, dass die beispiellose Fähigkeit von GPT-4V zur Verarbeitung beliebig ineinander verschachtelter multimodaler Eingaben zusammen mit der Allgemeingültigkeit seiner Fähigkeiten GPT-4V zu einem leistungsstarken multimodalen Generalistensystem macht. Darüber hinaus kann die einzigartige Fähigkeit von GPT-4V, auf Eingabebildern eingezeichnete visuelle Marker zu verstehen, neue Methoden der Mensch-Computer-Interaktion wie visuelles referenzielles Prompting hervorbringen. Wir schließen den Bericht mit eingehenden Diskussionen über entstehende Anwendungsszenarien und zukünftige Forschungsrichtungen für GPT-4V-basierte Systeme ab. Wir hoffen, dass diese vorläufige Erkundung künftige Forschung zur nächsten Generation multimodaler Aufgabenformulierungen, zu neuen Wegen, LMMs zur Lösung realer Probleme zu nutzen und zu verbessern, sowie zu einem besseren Verständnis multimodaler Foundation-Modelle inspirieren wird.

Large multimodal models (LMMs) extend large language models (LLMs) with multi-sensory skills, such as visual understanding, to achieve stronger generic intelligence. In this paper, we analyze the latest model, GPT-4V(ision), to deepen the understanding of LMMs. The analysis focuses on the intriguing tasks that GPT-4V can perform, containing test samples to probe the quality and genericity of GPT-4V's capabilities, its supported inputs and working modes, and the effective ways to prompt the model. In our approach to exploring GPT-4V, we curate and organize a collection of carefully designed qualitative samples spanning a variety of domains and tasks. Observations from these samples demonstrate that GPT-4V's unprecedented ability in processing arbitrarily interleaved multimodal inputs and the genericity of its capabilities together make GPT-4V a powerful multimodal generalist system. Furthermore, GPT-4V's unique capability of understanding visual markers drawn on input images can give rise to new human-computer interaction methods such as visual referring prompting. We conclude the report with in-depth discussions on the emerging application scenarios and the future research directions for GPT-4V-based systems. We hope that this preliminary exploration will inspire future research on the next-generation multimodal task formulation, new ways to exploit and enhance LMMs to solve real-world problems, and gaining better understanding of multimodal foundation models.

Paper-Link

https://arxiv.org/abs/2309.17421

Weiterlesen

https://x.com/omarsar0/status/1708860551110041871

https://discuss.pytorch.kr/t/gn-chatgpt/2543

Erst denken, dann sprechen: Sprachmodelle mit Pause-Tokens trainieren / Think before you speak: Training Language Models With Pause Tokens

Paper-Vorstellung

Durch Training und Inferenz für LLMs mit einem lernbaren <pause>-Token wird die Generierung der Modellantwort verzögert, was dabei hilft, Leistungsverbesserungen bei allgemeinen Verständnisaufgaben wie Commonsense-QA und dem Lösen mathematischer Textaufgaben zu erzielen. Experimente zeigen, dass dies nur dann vorteilhaft ist, wenn die Verzögerung sowohl beim entsprechenden als auch beim Downstream-Fine-Tuning eingeführt wird. #pause-for-thought

Performs training and inference on llms with a learnable <pause> token which helps to delay the model's answer generation and attain performance gains on general understanding tasks of commonsense qa and math word problem-solving; experiments show that this is only beneficial provided that the delay is introduced in both pertaining and downstream fine-tuning.

Paper-Abstract

Sprachmodelle erzeugen Antworten, indem sie eine Reihe von Tokens in unmittelbarer Folge generieren. Das $(K+1)^{th}$ Token ist das Ergebnis der Verarbeitung von $K$ versteckten Vektoren pro Layer, jeweils ein Vektor pro vorangegangenem Token. Was wäre, wenn das Modell vor der Ausgabe des $(K+1)^{th}$ Tokens stattdessen beispielsweise $K+10$ versteckte Vektoren verarbeiten würde? Wir setzen diese Idee um, indem wir Training und Inferenz auf Sprachmodellen mit einem (lernbaren) $\textit{pause}$-Token durchführen, dessen Sequenz dem Eingabepräfix angehängt wird. Anschließend verzögern wir das Auslesen der Modellausgaben, bis das letzte Pause-Token erscheint, sodass das Modell zusätzliche Berechnungen durchführen kann, bevor es sich auf eine Antwort festlegt. Wir evaluieren $\textit{pause-training}$ empirisch auf Decoder-only-Modellen mit 1B bzw. 130M Parametern mit kausalem Pretraining auf C4 sowie auf Downstream-Aufgaben aus den Bereichen Schlussfolgern, Question Answering, allgemeines Verständnis und Faktenabruf. Unser zentrales Ergebnis ist, dass Verzögerungen zur Inferenzzeit dann Verbesserungen bringen, wenn das Modell sowohl mit Verzögerungen vortrainiert als auch feinabgestimmt wurde. Beim 1B-Modell beobachten wir Verbesserungen bei 8 von 9 Aufgaben, am deutlichsten mit einem Gewinn von $18%$ EM-Score bei der QA-Aufgabe von SQuAD, $8%$ bei CommonSenseQA und $1%$ Genauigkeit bei der Schlussfolgerungsaufgabe von GSM8k. Unsere Arbeit wirft eine Reihe konzeptioneller und praktischer Forschungsfragen für die Zukunft auf, um die verzögerte Next-Token-Prediction zu einem breit anwendbaren neuen Paradigma zu machen.

Language models generate responses by producing a series of tokens in immediate succession: the $(K+1)^{th}$ token is an outcome of manipulating $K$ hidden vectors per layer, one vector per preceding token. What if instead we were to let the model manipulate say, $K+10$ hidden vectors, before it outputs the $(K+1)^{th}$ token? We operationalize this idea by performing training and inference on language models with a (learnable) $\textit{pause}$ token, a sequence of which is appended to the input prefix. We then delay extracting the model's outputs until the last pause token is seen, thereby allowing the model to process extra computation before committing to an answer. We empirically evaluate $\textit{pause-training}$ on decoder-only models of 1B and 130M parameters with causal pretraining on C4, and on downstream tasks covering reasoning, question-answering, general understanding and fact recall. Our main finding is that inference-time delays show gains when the model is both pre-trained and finetuned with delays. For the 1B model, we witness gains on 8 of 9 tasks, most prominently, a gain of $18%$ EM score on the QA task of SQuAD, $8%$ on CommonSenseQA and $1%$ accuracy on the reasoning task of GSM8k. Our work raises a range of conceptual and practical future research questions on making delayed next-token prediction a widely applicable new paradigm.

Paper-Link

https://arxiv.org/abs/2310.02226

Weiterlesen

https://x.com/omarsar0/status/1709573238123122959

Self-Taught Optimizer (STOP): Rekursiv sich selbst verbessernde Code-Generierung / Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation

Paper-Vorstellung

Es wird der Einsatz eines mit Sprachmodellen angereicherten Scaffolding-Programms vorgeschlagen, das sich rekursiv selbst verbessert: Ein Seed-Improver verbessert zunächst ein Eingabeprogramm, das die beste Lösung zurückgibt, und wird anschließend durch weitere Aufgaben dazu gebracht, sich selbst weiter zu verbessern. Außerdem wird gezeigt, dass das GPT-4-Modell Code schreiben kann, der sich selbst aufrufen kann, um sich selbst zu verbessern. #self-training-survey-paper

Proposes the use of a language model-infused scaffolding program to recursively improve itself; a seed improver first improves an input program that returns the best solution which is then further tasked to improve itself; shows that the gpt-4 models can write code that can call itself to improve itself.

Paper-Abstract

Einige jüngere Fortschritte in AI-Systemen, etwa Tree-of-Thoughts und Program-Aided Language Models, lösen Probleme mithilfe eines „Scaffolding“-Programms, das mehrere Aufrufe von Sprachmodellen strukturiert, um bessere Ausgaben zu erzeugen. Ein Scaffolding-Programm wird in einer Programmiersprache wie Python geschrieben. In dieser Arbeit verwenden die Autoren ein mit einem Sprachmodell angereichertes Scaffolding-Programm, um sich selbst zu verbessern. Ausgangspunkt ist ein Seed-„Improver“, der ein Eingabeprogramm anhand einer gegebenen Utility-Funktion verbessert, indem er ein Sprachmodell mehrfach abfragt und die beste Lösung zurückgibt. Anschließend wird dieser Seed-Improver ausgeführt, um sich selbst zu verbessern. Über eine kleine Menge von Downstream-Aufgaben hinweg erzeugt der daraus resultierende verbesserte Improver Programme mit deutlich besserer Leistung als der ursprüngliche Seed-Improver. Danach analysieren die Autoren die Vielfalt der vom Sprachmodell vorgeschlagenen Selbstverbesserungsstrategien, darunter Beam Search, genetische Algorithmen und Simulated Annealing. Da die Sprachmodelle selbst nicht verändert werden, handelt es sich nicht um vollständige rekursive Selbstverbesserung. Dennoch zeigen die Proof-of-Concept-Experimente, dass ein modernes Sprachmodell – in diesem Fall GPT-4 – in der Lage ist, Code zu schreiben, der sich selbst aufrufen kann, um sich selbst zu verbessern. Die Autoren setzen sich zudem kritisch mit den Bedenken rund um die Entwicklung selbstverbessernder Technologien auseinander und bewerten, wie häufig der generierte Code eine Sandbox umgeht.

Several recent advances in AI systems (e.g., Tree-of-Thoughts and Program-Aided Language Models) solve problems by providing a "scaffolding" program that structures multiple calls to language models to generate better outputs. A scaffolding program is written in a programming language such as Python. In this work, we use a language-model-infused scaffolding program to improve itself. We start with a seed "improver" that improves an input program according to a given utility function by querying a language model several times and returning the best solution. We then run this seed improver to improve itself. Across a small set of downstream tasks, the resulting improved improver generates programs with significantly better performance than its seed improver. Afterward, we analyze the variety of self-improvement strategies proposed by the language model, including beam search, genetic algorithms, and simulated annealing. Since the language models themselves are not altered, this is not full recursive self-improvement. Nonetheless, it demonstrates that a modern language model, GPT-4 in our proof-of-concept experiments, is capable of writing code that can call itself to improve itself. We critically consider concerns around the development of self-improving technologies and evaluate the frequency with which the generated code bypasses a sandbox.

Paper-Link

https://arxiv.org/abs/2310.02304

Weiterführende Lektüre

https://x.com/ericzelikman/status/1709721771937587541

RA-DIT: Retrieval-Augmented Dual Instruction Tuning

Paper-Vorstellung

Es wird eine leichtgewichtige Fine-Tuning-Methode für künstliche neuronale Netze mit Retrieval-Fähigkeiten vorgeschlagen. Sie umfasst einen zweistufigen Ansatz: 1) Ein vortrainiertes neuronales Netz wird aktualisiert, um abgerufene Informationen besser zu nutzen, und 2) der Retriever wird so aktualisiert, dass er relevantere Ergebnisse zurückgibt. Die Ergebnisse zeigen, dass Fine-Tuning für Aufgaben, die sowohl Wissensnutzung als auch Kontextbewusstsein erfordern, in jeder Stufe zusätzliche Gewinne bringt. Das 65B-Modell erreicht State-of-the-Art-Ergebnisse auf einer Reihe wissensintensiver Zero-Shot- und Few-Shot-Lern-Benchmarks und übertrifft bestehende Retrieval-augmented Language-Ansätze um bis zu +8 %. Im Zero-Shot um 9 %, im 5-Shot um +1,4 %. #rag #instruct-tuning

Proposes a lightweight fine-tuning method to retrofit llms with retrieval capabilities; it involves a 2-step approach: 1) updates a pretrained lm to better use the retrieved information 2) updates the retriever to return more relevant results, as preferred by the lm results show that fine-tuning over tasks that require both knowledge utilization and contextual awareness, each stage leads to additional gains; a 65b model achieves state-of-the-art results on a range of knowledge-intensive zero- and few-shot learning benchmarks; it outperforms existing retrieval-augmented language approaches by up to +8.9% in zero-shot and +1.4% in 5-shot.

Paper-Abstract

Retrieval-augmented Language Models (RALMs) verbessern die Leistung, indem sie auf Long-Tail- und aktuelles Wissen aus externen Datenspeichern zugreifen, sind aber schwer aufzubauen. Bestehende Ansätze erfordern entweder teure retrieval-spezifische Änderungen am LM-Pre-Training oder nutzen eine nachträgliche Integration des Datenspeichers, was zu suboptimaler Leistung führt. Wir stellen Retrieval-Augmented Dual Instruction Tuning (RA-DIT) vor, eine leichtgewichtige Fine-Tuning-Methodik, die eine dritte Option bietet, indem sie jedes LLM mit Retrieval-Fähigkeiten nachrüstet. Der Ansatz von Unity arbeitet in zwei separaten Fine-Tuning-Schritten: (1) Einer aktualisiert ein vortrainiertes LM, damit es abgerufene Informationen besser nutzt, und (2) der andere aktualisiert den Retriever, damit er relevantere Ergebnisse zurückgibt, wie sie vom LM bevorzugt werden. Durch Fine-Tuning für Aufgaben, die sowohl Wissensnutzung als auch Kontextbewusstsein erfordern, zeigen wir, dass jede Stufe erhebliche Leistungsverbesserungen bringt und dass die Nutzung beider Stufen zusätzliche Gewinne ermöglicht. Unser bestes Modell, RA-DIT 65B, erreicht State-of-the-Art-Leistung bei einer Reihe wissensintensiver Zero-Shot- und Few-Shot-Lern-Benchmarks und übertrifft bestehende In-Context-RALM-Ansätze im Durchschnitt deutlich um bis zu +8,9 % im 0-Shot-Setting und +1,4 % im 5-Shot-Setting.

Retrieval-augmented language models (RALMs) improve performance by accessing long-tail and up-to-date knowledge from external data stores, but are challenging to build. Existing approaches require either expensive retrieval-specific modifications to LM pre-training or use post-hoc integration of the data store that leads to suboptimal performance. We introduce Retrieval-Augmented Dual Instruction Tuning (RA-DIT), a lightweight fine-tuning methodology that provides a third option by retrofitting any LLM with retrieval capabilities. Our approach operates in two distinct fine-tuning steps: (1) one updates a pre-trained LM to better use retrieved information, while (2) the other updates the retriever to return more relevant results, as preferred by the LM. By fine-tuning over tasks that require both knowledge utilization and contextual awareness, we demonstrate that each stage yields significant performance improvements, and using both leads to additional gains. Our best model, RA-DIT 65B, achieves state-of-the-art performance across a range of knowledge-intensive zero- and few-shot learning benchmarks, significantly outperforming existing in-context RALM approaches by up to +8.9% in 0-shot setting and +1.4% in 5-shot setting on average.

Paper-Link

https://arxiv.org/abs/2310.01352

Weiterlesen

https://x.com/omarsar0/status/1709204756013490494

Kosmos-G: Kontextgerechte Bildgenerierung mit multimodalen Large Language Models / Kosmos-G: Generating Images in Context with Multimodal Large Language Models

Paper-Einführung

Ein Modell, das hochgradig originalgetreue Zero-Shot-Bildgenerierung aus generalisierten Vision-Language-Eingaben ermöglicht, die sich über mehrere Bilder erstrecken; Zero-Shot-subjektgesteuerte Bildgenerierung auf Multi-Entity-Szenarien erweitert; und durch den Ersatz von CLIP neue Anwendungen mit anderen U-Net-Techniken wie ControlNet und LoRA erschließt. #multimodal

A model that performs high-fidelity zero-shot image generation from generalized vision-language input that spans multiple images; extends zero-shot subject-driven image generation to multi-entity scenarios; allows the replacement of clip, unlocking new applications with other u-net techniques such as controlnet and lora.

Paper-Abstract

Jüngste Fortschritte bei Text-to-Image-(T2I)- und Vision-Language-to-Image-(VL2I)-Generierungstechniken haben große Fortschritte gemacht. Die Generierung aus generalisierten Vision-Language-Eingaben, insbesondere unter Einbeziehung mehrerer Bilder, ist jedoch weiterhin nur unzureichend erforscht. In dieser Arbeit stellen wir Kosmos-G vor, ein Modell, das die fortgeschrittenen Wahrnehmungsfähigkeiten multimodaler Large Language Models (MLLMs) nutzt, um die oben genannte Herausforderung anzugehen. Unser Ansatz richtet den Ausgaberaum von MLLM mithilfe der textuellen Modalität als Anker an CLIP aus und führt compositional instruction tuning auf kuratierten Daten durch. Kosmos-G zeigt die einzigartige Fähigkeit zur Zero-Shot-Multi-Entity-subjektgesteuerten Generierung. Bemerkenswert ist, dass das Score-Distillation-Instruction-Tuning keinerlei Änderungen am Bilddecoder erfordert. Dadurch kann CLIP nahtlos ersetzt und mühelos mit einer Vielzahl von U-Net-Techniken integriert werden, die von fein granularer Steuerung bis hin zu personalisierten Bilddecoder-Varianten reichen. Wir betrachten Kosmos-G als einen ersten Versuch in Richtung des Ziels „Bild als Fremdsprache in der Bildgenerierung“.

Recent advancements in text-to-image (T2I) and vision-language-to-image (VL2I) generation have made significant strides. However, the generation from generalized vision-language inputs, especially involving multiple images, remains under-explored. This paper presents Kosmos-G, a model that leverages the advanced perception capabilities of Multimodal Large Language Models (MLLMs) to tackle the aforementioned challenge. Our approach aligns the output space of MLLM with CLIP using the textual modality as an anchor and performs compositional instruction tuning on curated data. Kosmos-G demonstrates a unique capability of zero-shot multi-entity subject-driven generation. Notably, the score distillation instruction tuning requires no modifications to the image decoder. This allows for a seamless substitution of CLIP and effortless integration with a myriad of U-Net techniques ranging from fine-grained controls to personalized image decoder variants. We posit Kosmos-G as an initial attempt towards the goal of "image as a foreign language in image generation."

Paper-Link

https://arxiv.org/abs/2310.02992

Weiterlesen

https://x.com/omarsar0/status/1709934741158510625

Große Sprachmodelle als Analogieschlussfolgerer / Large Language Models as Analogical Reasoners

Paper-Einführung

Dieser Ansatz unterscheidet sich von Chain-of-Thought dadurch, dass er keine gelabelten Beispiele für den Inferenzprozess benötigt, und ist ein neuer Prompting-Ansatz, der von analogischem Schlussfolgern inspiriert ist und dazu anregt, relevante Beispiele oder Wissen im Kontext selbst zu erzeugen. #llm-reasoning #chain-of-thought

A new prompting approach to automatically guide the reasoning process of llms; the approach is different from chain-of-thought in that it doesn’t require labeled exemplars of the reasoning process; the approach is inspired by analogical reasoning and prompts lms to self-generate relevant exemplars or knowledge in the context.

Paper-Abstract

Chain-of-Thought-(CoT)-Prompting für Sprachmodelle zeigt bei verschiedensten Schlussfolgerungsaufgaben beeindruckende Leistung, benötigt aber in der Regel gelabelte Beispiele des Schlussfolgerungsprozesses. In dieser Arbeit stellen wir einen neuen Prompting-Ansatz vor, Analogical Prompting, der darauf ausgelegt ist, den Schlussfolgerungsprozess großer Sprachmodelle automatisch zu steuern. Inspiriert vom analogischen Schlussfolgern, einem kognitiven Prozess, bei dem Menschen auf relevante frühere Erfahrungen zurückgreifen, um neue Probleme zu lösen, fordert unser Ansatz Sprachmodelle dazu auf, vor der Lösung des gegebenen Problems selbst relevante Beispiele oder Wissen im Kontext zu erzeugen. Diese Methode bietet mehrere Vorteile: Sie macht das Labeln oder Abrufen von Beispielen überflüssig und bietet damit Allgemeingültigkeit und Komfort; außerdem kann sie die erzeugten Beispiele und das Wissen auf jedes Problem zuschneiden und bietet so Anpassungsfähigkeit. Experimentelle Ergebnisse zeigen, dass unser Ansatz 0-shot CoT und manuelles Few-shot-CoT bei einer Vielzahl von Schlussfolgerungsaufgaben übertrifft, darunter mathematisches Problemlösen in GSM8K und MATH, Code-Generierung in Codeforces sowie weitere Schlussfolgerungsaufgaben in BIG-Bench.

Chain-of-thought (CoT) prompting for language models demonstrates impressive performance across reasoning tasks, but typically needs labeled exemplars of the reasoning process. In this work, we introduce a new prompting approach, Analogical Prompting, designed to automatically guide the reasoning process of large language models. Inspired by analogical reasoning, a cognitive process in which humans draw from relevant past experiences to tackle new problems, our approach prompts language models to self-generate relevant exemplars or knowledge in the context, before proceeding to solve the given problem. This method presents several advantages: it obviates the need for labeling or retrieving exemplars, offering generality and convenience; it can also tailor the generated exemplars and knowledge to each problem, offering adaptability. Experimental results show that our approach outperforms 0-shot CoT and manual few-shot CoT in a variety of reasoning tasks, including math problem solving in GSM8K and MATH, code generation in Codeforces, and other reasoning tasks in BIG-Bench.

[2023/10/02 ~ 10/08] Die wichtigsten ML-Papers dieser Woche (Top ML Papers of the Week)

Überblick

Sprachmodelle repräsentieren Raum und Zeit / Language Models Represent Space and Time

Paper-Einführung

Paper-Abstract

Paper-Link

Weiterführende Lektüre

Retrieval trifft auf Large Language Models mit langem Kontext / Retrieval meets Long Context Large Language Models

Paper-Einführung

Paper-Abstract

Paper-Link

Weiterlesen

Effiziente Streaming-Sprachmodelle mit Attention Sinks / Efficient Streaming Language Models with Attention Sinks

Paper-Vorstellung

Paper-Abstract

Paper-Link

Weiterlesen

Auf dem Weg zu sich selbst zusammensetzenden künstlichen neuronalen Netzen durch neuronale Entwicklungsprogramme / Towards Self-Assembling Artificial Neural Networks through Neural Developmental Programs

Paper-Einführung

Abstract des Papers

Paper-Link

Weiterlesen

Die Morgendämmerung der LMMs: Vorläufige Erkundungen mit GPT-4V(ision) / The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)

Paper-Vorstellung

Paper-Abstract

Paper-Link

Weiterlesen

Erst denken, dann sprechen: Sprachmodelle mit Pause-Tokens trainieren / Think before you speak: Training Language Models With Pause Tokens

Paper-Vorstellung

Paper-Abstract

Paper-Link

Weiterlesen

Self-Taught Optimizer (STOP): Rekursiv sich selbst verbessernde Code-Generierung / Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation

Paper-Vorstellung

Paper-Abstract

Paper-Link

Weiterführende Lektüre

RA-DIT: Retrieval-Augmented Dual Instruction Tuning

Paper-Vorstellung

Paper-Abstract

Paper-Link

Weiterlesen

Kosmos-G: Kontextgerechte Bildgenerierung mit multimodalen Large Language Models / Kosmos-G: Generating Images in Context with Multimodal Large Language Models

Paper-Einführung

Paper-Abstract

Paper-Link

Weiterlesen

Große Sprachmodelle als Analogieschlussfolgerer / Large Language Models as Analogical Reasoners

Paper-Einführung

Paper-Abstract

Paper-Link

Weiterführende Lektüre

Original

Verwandte Beiträge

Noch keine Kommentare.