1 Punkte von ninebow 2024-02-05 | Noch keine Kommentare. | Auf WhatsApp teilen

Überblick

  • Ich habe den wöchentlich von DAIR.AI veröffentlichten Beitrag zu ML-Papers automatisch übersetzt.

  • Betrachtet man die Tendenzen der in dieser Woche ausgewählten Papers, fällt insbesondere die Forschung zu Large Language Models (LLMs) und deren Varianten auf. Anhand von Titeln wie "OLMo", "Advances in Multimodal LLMs", "Corrective RAG", "LLMs for Mathematical Reasoning", "Compression Algorithms for LLMs", "MoE-LLaVA", "Rephrasing the Web", "Redefining Retrieval in RAG", "Hallucination in LVLMs" und "SliceGPT" wird deutlich, dass intensiv an Leistungsverbesserung, erweiterten Anwendungen und höherer Effizienz von Sprachmodellen gearbeitet wird.

  • Diese Forschungstrends lassen sich als Ausdruck der fortlaufenden Bemühungen von Wissenschaft und Industrie verstehen, die Grenzen der Sprachverarbeitung zu überwinden und komplexere Probleme zu lösen. In jüngster Zeit werden LLMs nicht mehr nur für einfache Textverarbeitung eingesetzt, sondern zunehmend auch für komplexes mathematisches Schlussfolgern, die Verarbeitung multimodaler Daten sowie anspruchsvollere Informationssuche und -rekonstruktion. Zugleich sind Techniken wie Modellkompression wegen der großen Größe und Komplexität dieser Modelle zu einem Schlüsselfaktor geworden, um sie in realen Umgebungen effizienter bereitzustellen und zu nutzen. Besonders in Szenarien, in denen große Modelle mit vergleichsweise wenigen Ressourcen betrieben werden müssen, gewinnen solche Verfahren an Bedeutung.

  • Darüber hinaus steht die Forschung zu „Multimodal LLMs“ und „MoE-LLaVA“ für Fortschritte bei der integrierten Verarbeitung verschiedener Datenformen jenseits von Text, etwa Bildern oder Tönen. Das zeigt das Potenzial von KI-Systemen, Informationen aus der realen Welt deutlich reichhaltiger zu verstehen und zu nutzen. Als Methoden zur Verbesserung der Interpretierbarkeit und Zuverlässigkeit von Modellen lassen sich „Corrective RAG“ und „Redefining Retrieval in RAG“ als Versuche verstehen, den Schlussfolgerungsprozess der Modelle und die Genauigkeit ihrer Ergebnisse zu verbessern. Für Forschungsarbeiten zur Steigerung der Qualität der von Modellen erzeugten Inhalte stehen beispielhaft „Hallucination in LVLMs“ und „Rephrasing the Web“. Insgesamt gelten all diese Trends als Signale dafür, dass in naher Zukunft noch intelligentere und ausgefeiltere KI-Systeme entstehen werden.


OLMo: Beschleunigung der Wissenschaft der Sprachmodelle / OLMo: Accelerating the Science of Language Models

Paper-Einführung

  • Einführung von OLMo, einem offenen Sprachmodell mit 7B Parametern, das offenen Trainingscode, offene Daten, vollständige Modellgewichte, Evaluierungscode und Fine-Tuning-Code umfasst und bei vielen generativen Aufgaben starke Leistung zeigt; außerdem gibt es mit olmo 1b auch eine kleinere Version.

    Introduces open language model (olmo), a 7b parameter model; it includes open training code, open data, full model weights, evaluation code, and fine-tuning code; it shows strong performance on many generative tasks; there is also a smaller version of it, olmo 1b.

Paper-Abstract

  • Sprachmodelle (LMs) sind sowohl in der NLP-Forschung als auch in kommerziellen Produkten allgegenwärtig geworden. Mit ihrer stark gestiegenen wirtschaftlichen Bedeutung sind die leistungsfähigsten Modelle zunehmend abgeschottet und hinter proprietären Schnittstellen verborgen, während wichtige Details zu Trainingsdaten, Architekturen und Entwicklung nicht offengelegt werden. Angesichts der Bedeutung dieser Details für die wissenschaftliche Untersuchung solcher Modelle, einschließlich ihrer Verzerrungen und potenziellen Risiken, halten wir es für essenziell, dass die Forschungsgemeinschaft Zugang zu leistungsfähigen, wirklich offenen LMs hat. Zu diesem Zweck beschreibt dieser technische Bericht detailliert die erste Veröffentlichung von OLMo, einem State-of-the-Art-Modell und Framework für ein wirklich offenes Sprachmodell zum Aufbau und zur Erforschung der Wissenschaft des Sprachmodellings. Im Unterschied zu den meisten früheren Ansätzen, die nur Modellgewichte und Inferenzcode veröffentlicht haben, stellen wir OLMo zusammen mit dem gesamten Framework bereit, einschließlich Trainingsdaten sowie Trainings- und Evaluierungscode. Wir hoffen, dass diese Veröffentlichung die offene Forschungsgemeinschaft stärkt und befähigt und eine neue Welle von Innovationen auslöst.

    Language models (LMs) have become ubiquitous in both NLP research and in commercial product offerings. As their commercial importance has surged, the most powerful models have become closed off, gated behind proprietary interfaces, with important details of their training data, architectures, and development undisclosed. Given the importance of these details in scientifically studying these models, including their biases and potential risks, we believe it is essential for the research community to have access to powerful, truly open LMs. To this end, this technical report details the first release of OLMo, a state-of-the-art, truly Open Language Model and its framework to build and study the science of language modeling. Unlike most prior efforts that have only released model weights and inference code, we release OLMo and the whole framework, including training data and training and evaluation code. We hope this release will empower and strengthen the open research community and inspire a new wave of innovation.

Paper-Link

https://arxiv.org/abs/2402.00838

Weiterführende Lektüre

https://x.com/omarsar0/status/1753080417530318872


MM-LLM: Neueste Fortschritte bei multimodalen Large Language Models / MM-LLMs: Recent Advances in MultiModal Large Language Models

Paper-Einführung

  • Ein umfassendes Survey-Paper, das Designansätze für Modellarchitekturen und Trainingspipelines rund um multimodale Large Language Models beschreibt.

    A comprehensive survey outlining design formulations for model architecture and training pipeline around multimodal large language models.

Paper-Abstract

  • Im vergangenen Jahr haben multimodale große Sprachmodelle (MM-LLMs) erhebliche Fortschritte gemacht, indem sie bestehende LLMs durch kosteneffiziente Trainingsstrategien erweitert haben, um multimodale Eingaben oder Ausgaben zu unterstützen. Die daraus entstandenen Modelle bewahren nicht nur die inhärenten Fähigkeiten von LLMs zum Schlussfolgern und zur Entscheidungsfindung, sondern ermöglichen auch ein breites Spektrum multimodaler Aufgaben. Dieses Paper bietet einen umfassenden Survey, um weitere Forschung zu MM-LLMs zu fördern. Konkret werden zunächst allgemeine Designprinzipien für Modellarchitektur und Trainingspipeline erläutert. Anschließend werden $26$ bestehende MM-LLMs jeweils kurz vorgestellt, wobei jedes durch seine spezifische Formulierung charakterisiert ist. Darüber hinaus wird die Leistung von MM-LLMs auf gängigen Benchmarks untersucht und es werden zentrale Training Recipes zusammengefasst, um die Leistungsfähigkeit von MM-LLMs zu verbessern. Abschließend werden vielversprechende Richtungen für MM-LLMs aufgezeigt, während gleichzeitig eine Website betrieben wird, die die neuesten Entwicklungen in diesem Bereich in Echtzeit verfolgt. Wir hoffen, dass dieser Survey zur fortlaufenden Weiterentwicklung des MM-LLM-Bereichs beiträgt.
    > In the past year, MultiModal Large Language Models (MM-LLMs) have undergone substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or outputs via cost-effective training strategies. The resulting models not only preserve the inherent reasoning and decision-making capabilities of LLMs but also empower a diverse range of MM tasks. In this paper, we provide a comprehensive survey aimed at facilitating further research of MM-LLMs. Specifically, we first outline general design formulations for model architecture and training pipeline. Subsequently, we provide brief introductions of $26$ existing MM-LLMs, each characterized by its specific formulations. Additionally, we review the performance of MM-LLMs on mainstream benchmarks and summarize key training recipes to enhance the potency of MM-LLMs. Lastly, we explore promising directions for MM-LLMs while concurrently maintaining a real-time tracking website for the latest developments in the field. We hope that this survey contributes to the ongoing advancement of the MM-LLMs domain.

Paper-Link

https://arxiv.org/abs/2401.13601

Weiterlesen

https://x.com/omarsar0/status/1751705689964089616


CRAG: Selbstkorrigierende Retrieval-Augmented Generation / Corrective Retrieval Augmented Generation

Paper-Einführung

  • Zur Verbesserung der Robustheit der Generierung in einem RAG-System wird Corrective Retrieval Augmented Generation (CRAG) vorgeschlagen. Die Kernidee besteht darin, eine Selbstkorrektur-Komponente für den Retriever zu implementieren und die Nutzbarkeit der abgerufenen Dokumente für die augmentierte Generierung zu verbessern. Der Retrieval-Evaluator bewertet bei gegebener Query die Gesamtqualität der abgerufenen Dokumente; durch Websuche und optimierte Operationen zur Wissensnutzung lassen sich automatische Selbstkorrektur und die effiziente Nutzung der abgerufenen Dokumente verbessern.
    > Proposes corrective retrieval augmented generation (CRAG) to improve the robustness of generation in a rag system; the core idea is to implement a self-correct component for the retriever and improve the utilization of retrieved documents for augmenting generation; the retrieval evaluator helps to assess the overall quality of retrieved documents given a query; using web search and optimized knowledge utilization operations can improve automatic self-correction and efficient utilization of retrieved documents.

Paper-Abstract (Abstract)

  • Große Sprachmodelle (LLMs) neigen zwangsläufig zu Halluzinationen, da sich die Genauigkeit erzeugter Texte nicht allein durch das parametrische Wissen sicherstellen lässt, das sie kapseln. Retrieval-Augmented Generation (RAG) ist zwar eine praktische Ergänzung zu LLMs, hängt jedoch stark von der Relevanz der abgerufenen Dokumente ab, was Bedenken darüber aufwirft, wie sich das Modell verhält, wenn der Retrieval-Schritt fehlschlägt. Zu diesem Zweck schlagen wir Corrective Retrieval Augmented Generation (CRAG) vor, um die Robustheit der Generierung zu verbessern. Konkret wurde ein leichtgewichtiger Retrieval-Evaluator entwickelt, der die Gesamtqualität der für eine Anfrage abgerufenen Dokumente bewertet und einen Konfidenzwert zurückgibt, auf dessen Grundlage verschiedene Wissensabruf-Aktionen ausgelöst werden können. Da Abrufe aus statischen und begrenzten Korpora nur suboptimale Dokumente liefern können, werden groß angelegte Websuchen als Erweiterung genutzt, um die Retrieval-Ergebnisse anzureichern. Darüber hinaus wurde ein Decompose-then-Recompose-Algorithmus für abgerufene Dokumente entwickelt, um sich selektiv auf Schlüsselinformationen zu konzentrieren und irrelevante Informationen herauszufiltern. CRAG ist Plug-and-Play und lässt sich nahtlos mit verschiedenen RAG-basierten Ansätzen kombinieren. Experimente mit vier Datensätzen, die Aufgaben zur Kurz- und Langform-Generierung abdecken, zeigen, dass CRAG die Leistung RAG-basierter Ansätze deutlich verbessern kann.
    > Large language models (LLMs) inevitably exhibit hallucinations since the accuracy of generated texts cannot be secured solely by the parametric knowledge they encapsulate. Although retrieval-augmented generation (RAG) is a practicable complement to LLMs, it relies heavily on the relevance of retrieved documents, raising concerns about how the model behaves if retrieval goes wrong. To this end, we propose the Corrective Retrieval Augmented Generation (CRAG) to improve the robustness of generation. Specifically, a lightweight retrieval evaluator is designed to assess the overall quality of retrieved documents for a query, returning a confidence degree based on which different knowledge retrieval actions can be triggered. Since retrieval from static and limited corpora can only return sub-optimal documents, large-scale web searches are utilized as an extension for augmenting the retrieval results. Besides, a decompose-then-recompose algorithm is designed for retrieved documents to selectively focus on key information and filter out irrelevant information in them. CRAG is plug-and-play and can be seamlessly coupled with various RAG-based approaches. Experiments on four datasets covering short- and long-form generation tasks show that CRAG can significantly improve the performance of RAG-based approaches.

Paper-Link

https://arxiv.org/abs/2401.15884

Mehr lesen

https://x.com/omarsar0/status/1752173216942944556


Große Sprachmodelle für mathematisches Schlussfolgern: Fortschritte und Herausforderungen / Large Language Models for Mathematical Reasoning: Progresses and Challenges

Paper-Vorstellung

  • Gibt einen Überblick über Forschungs- und Entwicklungsfortschritte im Bereich Machine Learning für mathematisches Schlussfolgern und diskutiert Fortschritte, Fähigkeiten, Grenzen und Anwendungen, um laufende Forschung zu Machine Learning für Mathematik zu inspirieren.
    > Introduces an overview of research developments in llms for mathematical reasoning; discusses advancements, capabilities, limitations, and applications to inspire ongoing research on llms for mathematics.

Paper-Zusammenfassung (Abstract)

  • Mathematisches Schlussfolgern dient als Grundpfeiler für die Bewertung grundlegender kognitiver Fähigkeiten menschlicher Intelligenz. In jüngster Zeit ist ein deutlicher Anstieg bei der Entwicklung von Large Language Models (LLMs) zu beobachten, die auf die automatisierte Lösung mathematischer Probleme ausgerichtet sind. Die Landschaft mathematischer Problemtypen ist jedoch äußerst groß und vielfältig, und LLM-orientierte Techniken werden in unterschiedlichsten Datensätzen und Settings evaluiert. Diese Vielfalt macht es schwierig, die tatsächlichen Fortschritte und Hindernisse in diesem schnell wachsenden Feld zu erkennen. Diese Survey-Arbeit bemüht sich, vier zentrale Dimensionen abzudecken: i) eine umfassende Untersuchung der verschiedenen mathematischen Probleme und der dazugehörigen Datensätze, ii) eine Betrachtung des Spektrums LLM-orientierter Techniken, die für mathematische Problemlösung vorgeschlagen wurden, iii) ein Überblick über Faktoren und Bedenken, die LLMs beim Lösen mathematischer Aufgaben beeinflussen, und iv) eine Erläuterung der fortbestehenden Herausforderungen in diesem Bereich. Soweit uns bekannt ist, gehört diese Survey-Arbeit zu den ersten umfassenden Untersuchungen der LLM-Landschaft im Bereich Mathematik und bietet eine ganzheitliche Perspektive auf den aktuellen Stand, die erzielten Leistungen und die zukünftigen Herausforderungen in diesem sich rasant entwickelnden Feld.
    > Mathematical reasoning serves as a cornerstone for assessing the fundamental cognitive capabilities of human intelligence. In recent times, there has been a notable surge in the development of Large Language Models (LLMs) geared towards the automated resolution of mathematical problems. However, the landscape of mathematical problem types is vast and varied, with LLM-oriented techniques undergoing evaluation across diverse datasets and settings. This diversity makes it challenging to discern the true advancements and obstacles within this burgeoning field. This survey endeavors to address four pivotal dimensions: i) a comprehensive exploration of the various mathematical problems and their corresponding datasets that have been investigated; ii) an examination of the spectrum of LLM-oriented techniques that have been proposed for mathematical problem-solving; iii) an overview of factors and concerns affecting LLMs in solving math; and iv) an elucidation of the persisting challenges within this domain. To the best of our knowledge, this survey stands as one of the first extensive examinations of the landscape of LLMs in the realm of mathematics, providing a holistic perspective on the current state, accomplishments, and future challenges in this rapidly evolving field.

Paper-Link

https://arxiv.org/abs/2402.00157

Mehr lesen

https://x.com/omarsar0/status/1753424518171738194


Umfassende Untersuchung von Kompressionsalgorithmen für Sprachmodelle / A Comprehensive Survey of Compression Algorithms for Language Models

Paper-Einführung

  • Behandelt Kompressionsalgorithmen wie Pruning, Quantisierung, Knowledge Distillation, Low-Rank-Approximation, Parameter Sharing und effizientes Architekturdesign.
    > Covers compression algorithms like pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing, and efficient architecture design.

Abstract

  • Wie können wir Sprachmodelle komprimieren, ohne dabei Genauigkeit einzubüßen? Die Zahl der Kompressionsalgorithmen für Sprachmodelle wächst rasant, damit man von den bemerkenswerten Fortschritten aktueller Sprachmodelle profitieren kann, ohne die Nebenwirkungen ihrer gigantischen Größe in Kauf nehmen zu müssen, etwa steigende CO2-Emissionen und hohe Wartungskosten. Zwar haben zahlreiche Kompressionsalgorithmen beachtliche Fortschritte bei der Komprimierung von Sprachmodellen erzielt, doch ironischerweise wird es durch ihre schiere Menge immer schwieriger, neue Trends zu erkennen und die zugrunde liegenden Basiskonzepte zu identifizieren. In dieser Arbeit untersuchen und fassen wir verschiedene Kompressionsalgorithmen zusammen, darunter Pruning, Quantisierung, Knowledge Distillation, Low-Rank-Approximation, Parameter Sharing und effizientes Architekturdesign. Wir fassen nicht nur die allgemeinen Trends der verschiedenen Kompressionsalgorithmen zusammen, sondern wählen auch repräsentative Algorithmen aus und analysieren sie eingehend. Wir diskutieren den Wert jeder Kategorie von Kompressionsalgorithmen sowie die wünschenswerten Eigenschaften kostengünstiger Kompressionsalgorithmen, die durch das Aufkommen großer Sprachmodelle erheblich an Bedeutung gewonnen haben. Abschließend stellen wir auf Grundlage unserer Untersuchung vielversprechende zukünftige Forschungsthemen vor.
    > How can we compress language models without sacrificing accuracy? The number of compression algorithms for language models is rapidly growing to benefit from remarkable advances of recent language models without side effects due to the gigantic size of language models, such as increased carbon emissions and expensive maintenance fees. While numerous compression algorithms have shown remarkable progress in compressing language models, it ironically becomes challenging to capture emerging trends and identify the fundamental concepts underlying them due to the excessive number of algorithms. In this paper, we survey and summarize diverse compression algorithms including pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing, and efficient architecture design. We not only summarize the overall trend of diverse compression algorithms but also select representative algorithms and provide in-depth analyses of them. We discuss the value of each category of compression algorithms, and the desired properties of low-cost compression algorithms which have a significant impact due to the emergence of large language models. Finally, we introduce promising future research topics based on our survey results.

Paper-Link

https://arxiv.org/abs/2401.15347

Weiterführende Lektüre

https://x.com/omarsar0/status/1752746770377974072


MoE-LLaVA: Mixture of Experts für große Vision-Language-Modelle / MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

Paper-Einführung

  • Nutzt Mixture-of-Experts-Tuning für große Vision-Language-Modelle, wodurch ein sparsames Modell mit deutlich reduzierter Parameterzahl bei konstanten Rechenkosten entsteht; dieser Ansatz hilft zudem, Leistungsabfälle im Zusammenhang mit multimodalem Lernen und Modellsparsamkeit zu adressieren.
    > Employs mixture of experts tuning for large vision-language models which constructs a sparse model with a substantial reduction in parameters with a constant computational cost; this approach also helps to address performance degradation associated with multi-modal learning and model sparsity.

Abstract

  • Bei großen Vision-Language-Modellen (LVLMs) kann das Skalieren des Modells die Leistung wirksam verbessern. Das Erweitern der Modellparameter erhöht jedoch die Trainings- und Inferenzkosten erheblich, da bei der Berechnung für jedes Token alle Modellparameter aktiviert werden. In dieser Arbeit wird mit MoE-Tuning eine neuartige Trainingsstrategie für LVLMs vorgeschlagen, mit der sich ein spärliches Modell mit einer enormen Anzahl an Parametern, aber konstanten Rechenkosten aufbauen lässt und die den typischen Leistungsabfall im Zusammenhang mit multimodalem Lernen und Modellsparsamkeit wirksam adressiert. Darüber hinaus wird mit MoE-LLaVA ein MoE-basiertes Sparse-LVLM-Framework vorgestellt. Dieses Framework aktiviert während des Deployments über Router nur die Top-k-Experten, während die übrigen Experten inaktiv bleiben. Umfangreiche Experimente von Unity zeigen die hervorragenden Fähigkeiten von MoE-LLaVA beim visuellen Verständnis sowie sein Potenzial, Halluzinationen in den Modellausgaben zu reduzieren. Bemerkenswerterweise zeigt MoE-LLaVA mit nur 3 Milliarden spärlich aktivierten Parametern auf verschiedenen Datensätzen zum visuellen Verständnis eine mit LLaVA-1.5-7B vergleichbare Leistung und übertrifft im Benchmark für Objekthalluzinationen sogar LLaVA-1.5-13B. Mit MoE-LLaVA möchte Unity eine Baseline für Sparse-LVLMs etablieren und wertvolle Einblicke für künftige Forschung zur Entwicklung effizienterer und effektiverer multimodaler Lernsysteme liefern. Der Code wird unter \url{https://github.com/PKU-YuanGroup/MoE-LLaVA} veröffentlicht.
    > For Large Vision-Language Models (LVLMs), scaling the model can effectively improve performance. However, expanding model parameters significantly increases the training and inferring costs, as all model parameters are activated for each token in the calculation. In this work, we propose a novel training strategy MoE-tuning for LVLMs, which can constructing a sparse model with an outrageous number of parameter but a constant computational cost, and effectively addresses the performance degradation typically associated with multi-modal learning and model sparsity. Furthermore, we present the MoE-LLaVA framework, a MoE-based sparse LVLM architecture. This framework uniquely activates only the top-k experts through routers during deployment, keeping the remaining experts inactive. Our extensive experiments highlight the excellent capabilities of MoE-LLaVA in visual understanding and its potential to reduce hallucinations in model outputs. Remarkably, with just 3 billion sparsely activated parameters, MoE-LLaVA demonstrates performance comparable to the LLaVA-1.5-7B on various visual understanding datasets and even surpasses the LLaVA-1.5-13B in object hallucination benchmarks. Through MoE-LLaVA, we aim to establish a baseline for sparse LVLMs and provide valuable insights for future research in developing more efficient and effective multi-modal learning systems. Code is released at \url{https://github.com/PKU-YuanGroup/MoE-LLaVA}.

Paper-Link

https://arxiv.org/abs/2401.15947

Weiterführende Links

https://github.com/PKU-YuanGroup/MoE-LLaVA

https://x.com/LinBin46984/status/1753403875531375003


Rephrasing the Web: Ein Rezept für rechnerisch und daten-effizientes Sprachmodellieren / Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

Paper-Einführung

  • Durch gemeinsames Vortrainieren von LLMs auf echten und synthetischen Paraphrasen mithilfe eines Standard-Instruction-Tuned-Modells, das dazu aufgefordert wird, Webdokumente in bestimmten Stilen und Formaten wie „wie Wikipedia“ oder „Frage-Antwort-Format“ zu paraphrasieren, wird das Vortraining um etwa das Dreifache beschleunigt, die Perplexität verbessert und die Genauigkeit beim Zero-Shot-Fragebeantworten in vielen Aufgaben gesteigert.
    > Uses an off-the-shelf instruction-tuned model prompted to paraphrase web documents in specific styles and formats such as “like wikipedia” or “question-answer format” to jointly pre-train llms on real and synthetic rephrases; it speeds up pre-training by ~3x, improves perplexity, and improves zero-shot question answering accuracy on many tasks.

Paper-Abstract (Abstract)

  • Große Sprachmodelle werden in der Regel auf Basis massiver Web-Scrapes trainiert, die oft unstrukturiert, verrauscht und sprachlich schlecht formuliert sind. Nach den aktuellen Skalierungsgesetzen erfordert das Lernen aus solchen Daten sowohl reichlich Rechenleistung als auch große Datenmengen, und beides wächst mit der Größe des zu trainierenden Modells. Das ist aufgrund der enormen Rechenkosten und langen Dauer des Pre-Trainings sowie der drohenden Knappheit hochwertiger Daten im Web kaum praktikabel. In dieser Arbeit wird Web Rephrase Augmented Pre-training ($\textbf{WRAP}$) vorgeschlagen, das ein Off-the-Shelf-Instruktionsmodell verwendet, das dazu aufgefordert wird, Dokumente aus dem Web in bestimmten Stilen wie „wie Wikipedia“ oder im „Frage-Antwort-Format“ zu paraphrasieren, um LLMs gemeinsam auf echten und synthetischen Paraphrasen vorzutrainieren. Zunächst wird gezeigt, dass der Einsatz von WRAP auf dem naturgemäß verrauschten C4-Datensatz das Pre-Training um $\sim3x$ beschleunigt. Beim gleichen Pre-Training-Compute-Budget verbessert sich die Perplexität im Durchschnitt über verschiedene Teilmengen von The Pile um mehr als 10 %, und die Zero-Shot-Antwortgenauigkeit bei Fragen steigt über 13 Aufgaben hinweg um mehr als 2 %. Zweitens wird untersucht, wie sich der Umformulierungsstil auf die Modellleistung auswirkt, und es werden Einblicke geliefert, wie die Zusammensetzung der Trainingsdaten die Leistung von LLMs in OOD-Szenarien beeinflussen kann. Die erzielten Gewinne werden darauf zurückgeführt, dass umformulierte synthetische Daten nützlicher sind als nur echte Daten, weil sie (i) eine Stilvielfalt enthalten, die den Downstream-Evaluationsstil eng widerspiegelt, und (ii) eine höhere „Qualität“ als aus dem Web gescrapte Daten haben.
    > Large language models are trained on massive scrapes of the web, which are often unstructured, noisy, and poorly phrased. Current scaling laws show that learning from such data requires an abundance of both compute and data, which grows with the size of the model being trained. This is infeasible both because of the large compute costs and duration associated with pre-training, and the impending scarcity of high-quality data on the web. In this work, we propose Web Rephrase Augmented Pre-training ($\textbf{WRAP}$) that uses an off-the-shelf instruction-tuned model prompted to paraphrase documents on the web in specific styles such as "like Wikipedia" or in "question-answer format" to jointly pre-train LLMs on real and synthetic rephrases. First, we show that using WRAP on the C4 dataset, which is naturally noisy, speeds up pre-training by $\sim3x$. At the same pre-training compute budget, it improves perplexity by more than 10% on average across different subsets of the Pile, and improves zero-shot question answer accuracy across 13 tasks by more than 2%. Second, we investigate the impact of the re-phrasing style on the performance of the model, offering insights into how the composition of the training data can impact the performance of LLMs in OOD settings. Our gains are attributed to the fact that re-phrased synthetic data has higher utility than just real data because it (i) incorporates style diversity that closely reflects downstream evaluation style, and (ii) has higher 'quality' than web-scraped data.

Paper-Link

https://arxiv.org/abs/2401.16380

Weiterlesen

https://x.com/pratyushmaini/status/1752337225097076809


Die Kraft des Rauschens: Neudefinition von Retrieval für RAG-Systeme / The Power of Noise: Redefining Retrieval for RAG Systems

Paper-Einführung

  • Eine Studie, die sich auf die Komponenten konzentriert, die zur Verbesserung der Retrieval-Komponente eines RAG-Systems notwendig sind; sie bestätigt, dass relevante Informationen nahe an der Query platziert werden sollten, da es dem Modell sonst schwerfällt, diesen Informationen Aufmerksamkeit zu schenken. Überraschenderweise zeigt sie, dass relevante Dokumente nicht zwangsläufig zu einer besseren Leistung des RAG-Systems führen. Noch unerwarteter ist, dass irrelevante und verrauschte Dokumente, wenn sie richtig platziert werden, dazu beitragen können, die Genauigkeit zu erhöhen.
    > a study that focuses on the components needed to improve the retrieval component of a rag system; confirms that the position of relevant information should be placed near the query, the model will struggle to attend to the information if this is not the case; surprisingly, it finds that related documents don't necessarily lead to improved performance for the rag system; even more unexpectedly, irrelevant and noisy documents can help drive up accuracy if placed correctly.

Paper-Zusammenfassung (Abstract)

  • Retrieval-Augmented-Generation-(RAG)-Systeme stellen gegenüber herkömmlichen Large Language Models (LLMs) einen bedeutenden Fortschritt dar. RAG-Systeme verbessern ihre Generierungsfähigkeit, indem sie externe Daten integrieren, die über eine Information-Retrieval-(IR)-Phase abgerufen werden, und überwinden so die Grenzen standardmäßiger LLMs, die auf ihr vortrainiertes Wissen und ein begrenztes Kontextfenster beschränkt sind. Die meiste Forschung in diesem Bereich konzentrierte sich bislang vor allem auf den generativen Aspekt von LLMs innerhalb von RAG-Systemen. Diese Studie schließt diese Lücke, indem sie den Einfluss von IR-Komponenten auf RAG-Systeme gründlich und kritisch analysiert. Das Paper untersucht, welche Eigenschaften ein Retriever für eine effektive Prompt-Zusammenstellung in RAG besitzen sollte, mit einem Fokus auf die Art der Dokumente, die abgerufen werden sollten. Bewertet werden verschiedene Faktoren wie die Relevanz der Dokumente für den Prompt, ihre Position und die Anzahl der im Kontext enthaltenen Dokumente. Die Ergebnisse zeigen unter anderem, dass das Einbeziehen irrelevanter Dokumente die Leistung unerwartet um mehr als 30 % bei der Genauigkeit steigern kann und damit der ursprünglichen Annahme einer Qualitätsminderung widerspricht. Diese Resultate unterstreichen die Notwendigkeit, spezialisierte Strategien zur Integration von Retrieval mit Sprachgenerierungsmodellen zu entwickeln, und legen damit die Grundlage für künftige Forschung in diesem Bereich.
    > Retrieval-Augmented Generation (RAG) systems represent a significant advancement over traditional Large Language Models (LLMs). RAG systems enhance their generation ability by incorporating external data retrieved through an Information Retrieval (IR) phase, overcoming the limitations of standard LLMs, which are restricted to their pre-trained knowledge and limited context window. Most research in this area has predominantly concentrated on the generative aspect of LLMs within RAG systems. Our study fills this gap by thoroughly and critically analyzing the influence of IR components on RAG systems. This paper analyzes which characteristics a retriever should possess for an effective RAG's prompt formulation, focusing on the type of documents that should be retrieved. We evaluate various elements, such as the relevance of the documents to the prompt, their position, and the number included in the context. Our findings reveal, among other insights, that including irrelevant documents can unexpectedly enhance performance by more than 30% in accuracy, contradicting our initial assumption of diminished quality. These results underscore the need for developing specialized strategies to integrate retrieval with language generation models, thereby laying the groundwork for future research in this field.

Paper-Link

https://arxiv.org/abs/2401.14887

Weiterlesen

https://x.com/omarsar0/status/1751803310267314509


Survey-Paper über Halluzinationen in großen Vision-Language-Modellen / A Survey on Hallucination in Large Vision-Language Models

Paper-Einführung

  • Diskutiert das Halluzinationsproblem in großen Vision-Language-Modellen (LVLM; Large Vision-Language Model) und Techniken zu dessen Minderung, stellt Methoden und Benchmarks zur Bewertung von Halluzinationen in LVLMs vor und bietet Hinweise sowie eine hilfreiche Analyse zu den Ursachen von Halluzinationen in LVLMs und potenziellen Möglichkeiten zu ihrer Abschwächung.
    > Discusses hallucination issues and techniques to mitigate hallucination in large vision-language models (lvlm); it introduces lvlm hallucination evaluation methods and benchmarks; provides tips and a good analysis of the causes of lvlm hallucinations and potential ways to mitigate them.

Paper-Zusammenfassung (Abstract)

  • Die jüngste Entwicklung großer Vision-Language-Modelle (LVLMs) zieht aufgrund ihres Potenzials für praktische Implementierungen innerhalb der AI-Landschaft zunehmend Aufmerksamkeit auf sich. Allerdings stellt „Halluzination“, genauer gesagt die Fehlanpassung zwischen faktischem visuellem Inhalt und entsprechender Textgenerierung, eine erhebliche Herausforderung bei der Nutzung von LVLMs dar. In diesem umfassenden Survey analysieren die Autoren Halluzinationen im Zusammenhang mit LVLMs, um einen Überblick zu schaffen und künftige Gegenmaßnahmen zu erleichtern. Die Untersuchung beginnt mit einer klaren Definition des Begriffs Halluzinationen in LVLMs, stellt verschiedene Halluzinationssymptome vor und hebt die besonderen Herausforderungen hervor, die Halluzinationen in LVLMs innewohnen. Anschließend werden Benchmarks und Methoden umrissen, die speziell auf die Bewertung von Halluzinationen zugeschnitten sind, wie sie für LVLMs charakteristisch sind. Darüber hinaus wird den grundlegenden Ursachen dieser Halluzinationen nachgegangen, einschließlich Erkenntnissen aus Trainingsdaten und Modellkomponenten. Ebenso werden bestehende Methoden zur Minderung von Halluzinationen kritisch überprüft. Abschließend diskutiert der Survey offene Fragen und zukünftige Richtungen im Zusammenhang mit Halluzinationen in LVLMs.
    > Recent development of Large Vision-Language Models (LVLMs) has attracted growing attention within the AI landscape for its practical implementation potential. However, ``hallucination'', or more specifically, the misalignment between factual visual content and corresponding textual generation, poses a significant challenge of utilizing LVLMs. In this comprehensive survey, we dissect LVLM-related hallucinations in an attempt to establish an overview and facilitate future mitigation. Our scrutiny starts with a clarification of the concept of hallucinations in LVLMs, presenting a variety of hallucination symptoms and highlighting the unique challenges inherent in LVLM hallucinations. Subsequently, we outline the benchmarks and methodologies tailored specifically for evaluating hallucinations unique to LVLMs. Additionally, we delve into an investigation of the root causes of these hallucinations, encompassing insights from the training data and model components. We also critically review existing methods for mitigating hallucinations. The open questions and future directions pertaining to hallucinations within LVLMs are discussed to conclude this survey.

Paper-Link

https://arxiv.org/abs/2402.00253

Weiterlesen

https://x.com/omarsar0/status/1753449211931079101


SliceGPT: Große Sprachmodelle durch das Löschen von Zeilen und Spalten komprimieren / SliceGPT: Compress Large Language Models by Deleting Rows and Columns

Paper-Einführung

  • Eine neue LLM-Komprimierungstechnik, die ein Post-Training-Sparsifizierungsschema vorschlägt, bei dem jede Gewichtungsmatrix durch eine kleinere dichte Matrix ersetzt wird; sie hilft, die Embedding-Dimension des Netzwerks zu reduzieren, und kann bei den Modellen Llama2-70b und Phi-2 bis zu 20 % der Modellparameter entfernen, während der Großteil der Zero-Shot-Performance der dichten Modelle erhalten bleibt.
    > A new llm compression technique that proposes a post-training sparsification scheme that replaces each weight matrix with a smaller dense matrix; helps reduce the embedding dimension of the network and can remove up to 20% of model parameters for llama2-70b and phi-2 models while retaining most of the zero-shot performance of the dense models.

Abstract

  • Große Sprachmodelle sind zu einem Grundpfeiler der natürlichen Sprachverarbeitung geworden, doch ihre Nutzung verursacht erhebliche Kosten in Bezug auf Rechen- und Speicherressourcen. Sparsifizierung bietet eine Lösung, um diese Ressourcenbeschränkungen zu entschärfen, und jüngere Arbeiten haben gezeigt, dass sich trainierte Modelle im Nachhinein sparsifizieren lassen. Bestehende Sparsifizierungstechniken stehen jedoch vor Herausforderungen, da sie zusätzliche Datenstrukturen benötigen und auf aktueller Hardware nur begrenzte Beschleunigung bieten. In diesem Paper stellen wir SliceGPT vor, ein neues Post-Training-Sparsifizierungsschema, das jede Gewichtungsmatrix durch eine kleinere (dichte) Matrix ersetzt und so die Embedding-Dimension des Netzwerks verringert. Durch umfangreiche Experimente zeigen wir, dass SliceGPT bei den Modellen LLAMA2-70B, OPT 66B und Phi-2 bis zu 25 % der Modellparameter (einschließlich Embeddings) entfernen kann und dabei jeweils 99 %, 99 % und 90 % der Zero-Shot-Task-Performance des dichten Modells beibehält. Unsere geslicten Modelle laufen auf weniger GPUs und sind auch ohne zusätzliche Code-Optimierung schneller: Auf 24-GB-Consumer-GPUs reduzieren wir den gesamten Rechenaufwand für Inferenz bei LLAMA2-70B auf 64 % des dichten Modells, auf 40-GB-A100-GPUs auf 66 %. Wir liefern mit der rechnerischen Invarianz in Transformer-Netzwerken eine neue Erkenntnis, die SliceGPT ermöglicht, und hoffen, dass sie künftige Wege inspiriert und eröffnet, um den Speicher- und Rechenbedarf vortrainierter Modelle zu senken. Der Code ist verfügbar unter: https://github.com/microsoft/TransformerCompression
    > Large language models have become the cornerstone of natural language processing, but their use comes with substantial costs in terms of compute and memory resources. Sparsification provides a solution to alleviate these resource constraints, and recent works have shown that trained models can be sparsified post-hoc. Existing sparsification techniques face challenges as they need additional data structures and offer constrained speedup with current hardware. In this paper we present SliceGPT, a new post-training sparsification scheme which replaces each weight matrix with a smaller (dense) matrix, reducing the embedding dimension of the network. Through extensive experimentation, we show that SliceGPT can remove up to 25% of the model parameters (including embeddings) for LLAMA2-70B, OPT 66B and Phi-2 models while maintaining 99%, 99% and 90% zero-shot task performance of the dense model respectively. Our sliced models run on fewer GPUs and run faster without any additional code optimization: on 24GB consumer GPUs we reduce the total compute for inference on LLAMA2-70B to 64% of that of the dense model; on 40GB A100 GPUs we reduce it to 66%. We offer a new insight, computational invariance in transformer networks, which enables SliceGPT and we hope it will inspire and enable future avenues to reduce memory and computation demands for pre-trained models. Code is available at: https://github.com/microsoft/TransformerCompression

Paper-Link

https://arxiv.org/abs/2401.15024v1

Weiterlesen

https://github.com/microsoft/TransformerCompression

https://x.com/_akhaliq/status/1751796334531592496


Original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c5e


⚠️Werbung⚠️: Fanden Sie diesen von der PyTorch Korean User Group zusammengestellten Beitrag nützlich? Wenn Sie Mitglied werden, schicken wir Ihnen wichtige Beiträge per E-Mail! Standard ist wöchentlich, aber eine Umstellung auf täglich ist ebenfalls möglich.

Noch keine Kommentare.

Noch keine Kommentare.