3 Punkte von ninebow 2023-11-13 | Noch keine Kommentare. | Auf WhatsApp teilen

Überblick

  • Ich habe versucht, den wöchentlich von DAIR.AI veröffentlichten Artikel zu ML-Papers automatisch zu übersetzen.

  • Ein Blick auf die in dieser Woche ausgewählten Papers zeigt, dass sich viele Arbeiten mit Transformer-Modellen und Large Language Models (LLMs) beschäftigen.

  • Titel wie „Simplifying Transformer Blocks“, „Understanding In-Context Learning Abilities in Transformers“ und „S-LoRA“ scheinen darauf abzuzielen, das Verständnis der Struktur und Lernmechanismen von Transformer-Modellen zu vertiefen.

  • „Hallucination in LLMs“, „On the Road with GPT-4V(ision)“ und „GPT4All“ behandeln die Leistung und Anwendungsfälle großer Sprachmodelle wie GPT, was deutlich einen starken Fokus auf die Weiterentwicklung und Anwendung von Large Language Models zeigt.


Umfrage zu Halluzinationen in Large Language Models: Prinzipien, Taxonomie, Herausforderungen und offene Fragen / A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions

Paper-Einführung

  • Ein umfassendes Survey-Paper (mehr als 50 Seiten) zu Halluzinationen in LLMs, das Informationen zu Prinzipien, Klassifikation, Herausforderungen und offenen Fragen im Zusammenhang mit dem Halluzinationsproblem in LLMs bietet. #survey-paper #hallucination
    > A comprehensive survey (50+ pages) on hallucination in llms; provides information about principles, taxonomy, challenges, and open questions related to the issue of hallucination in llms.

Abstract

  • Das Aufkommen von Large Language Models (LLMs) hat einen bedeutenden Durchbruch in der natürlichen Sprachverarbeitung (NLP) markiert und zu bemerkenswerten Fortschritten beim Textverständnis und der Textgenerierung geführt. Gleichzeitig zeigen LLMs jedoch eine kritische Tendenz zur Erzeugung von Halluzinationen, wodurch Inhalte entstehen, die nicht mit realen Fakten oder Nutzereingaben übereinstimmen. Dieses Phänomen stellt erhebliche Herausforderungen für ihren praktischen Einsatz dar und wirft Bedenken hinsichtlich der Zuverlässigkeit von LLMs in realen Anwendungsszenarien auf, was zu wachsender Aufmerksamkeit für die Erkennung und Minderung solcher Halluzinationen führt. In dieser Umfrage wollen wir einen gründlichen und tiefgehenden Überblick über die jüngsten Fortschritte im Bereich der Halluzinationen bei LLMs geben. Wir beginnen mit einer innovativen Taxonomie von LLM-Halluzinationen und gehen dann auf die Faktoren ein, die zu Halluzinationen beitragen. Anschließend präsentieren wir einen umfassenden Überblick über Methoden und Benchmarks zur Erkennung von Halluzinationen. Darüber hinaus werden repräsentative Ansätze zur Minderung von Halluzinationen vorgestellt. Abschließend analysieren wir Herausforderungen, die die aktuellen Grenzen verdeutlichen, und formulieren offene Fragen, um Wege für die zukünftige Forschung zu Halluzinationen in LLMs aufzuzeigen.
    > The emergence of large language models (LLMs) has marked a significant breakthrough in natural language processing (NLP), leading to remarkable advancements in text understanding and generation. Nevertheless, alongside these strides, LLMs exhibit a critical tendency to produce hallucinations, resulting in content that is inconsistent with real-world facts or user inputs. This phenomenon poses substantial challenges to their practical deployment and raises concerns over the reliability of LLMs in real-world scenarios, which attracts increasing attention to detect and mitigate these hallucinations. In this survey, we aim to provide a thorough and in-depth overview of recent advances in the field of LLM hallucinations. We begin with an innovative taxonomy of LLM hallucinations, then delve into the factors contributing to hallucinations. Subsequently, we present a comprehensive overview of hallucination detection methods and benchmarks. Additionally, representative approaches designed to mitigate hallucinations are introduced accordingly. Finally, we analyze the challenges that highlight the current limitations and formulate open questions, aiming to delineate pathways for future research on hallucinations in LLMs.

Paper-Link

https://arxiv.org/abs/2311.05232

Weiterlesen

https://x.com/omarsar0/status/1722985251129966705


Transformer-Blöcke vereinfachen / Simplifying Transformer Blocks

Paper-Einführung

  • Es wird untersucht, wie sich Transformer-Blöcke vereinfachen lassen, und dabei festgestellt, dass viele Blockkomponenten entfernt werden können, ohne dass Trainingsgeschwindigkeit verloren geht. Unter Verwendung verschiedener Architekturen wie autoregressiven Decoder-only- und BERT-Encoder-only-Modellen bilden die vereinfachten Blöcke die Trainingsgeschwindigkeit pro Update und die Leistung von Standard-Transformern nach und erreichen mit weniger Parametern (15 %) sogar einen um 15 % höheren Trainingsdurchsatz.
    > Explores simplifying the transformer block and finds that many block components can be removed with no loss of training speed; using different architectures like autoregressive decoder-only and bert encoder-only models, the simplified blocks emulate per-update training speed and performance of standard transformers, and even achieve 15% faster training throughput with fewer parameters (15%).

Abstract

  • Ein einfaches Designrezept für tiefe Transformer besteht darin, identische Bausteine zu kombinieren. Standard-Transformer-Blöcke sind jedoch alles andere als einfach, da sie Attention- und MLP-Sub-Blöcke mit Skip-Verbindungen und Normalisierungsschichten in einer präzisen Anordnung miteinander verweben. Diese Komplexität führt zu fragilen Architekturen, bei denen scheinbar kleine Änderungen die Trainingsgeschwindigkeit deutlich verringern oder Modelle untrainierbar machen können. In dieser Arbeit wird untersucht, inwieweit sich der Standard-Transformer-Block vereinfachen lässt. Durch die Kombination von Signalausbreitungstheorie und empirischen Beobachtungen werden Änderungen motiviert, mit denen sich viele Blockkomponenten ohne Verlust der Trainingsgeschwindigkeit entfernen lassen, darunter Skip-Verbindungen, Projektions- oder Value-Parameter, sequenzielle Sub-Blöcke und Normalisierungsschichten. In Experimenten sowohl mit autoregressiven Decoder-only- als auch mit BERT-Encoder-only-Modellen ahmten unsere vereinfachten Transformer die Trainingsgeschwindigkeit pro Update und die Leistung von Standard-Transformern nach, erreichten dabei jedoch 15 % höheren Trainingsdurchsatz und verwendeten 15 % weniger Parameter. > A simple design recipe for deep Transformers is to compose identical building blocks. But standard transformer blocks are far from simple, interweaving attention and MLP sub-blocks with skip connections & normalisation layers in precise arrangements. This complexity leads to brittle architectures, where seemingly minor changes can significantly reduce training speed, or render models untrainable. In this work, we ask to what extent the standard transformer block can be simplified? Combining signal propagation theory and empirical observations, we motivate modifications that allow many block components to be removed with no loss of training speed, including skip connections, projection or value parameters, sequential sub-blocks and normalisation layers. In experiments on both autoregressive decoder-only and BERT encoder-only models, our simplified transformers emulate the per-update training speed and performance of standard transformers, while enjoying 15% faster training throughput, and using 15% fewer parameters.

Paper-Link

https://arxiv.org/abs/2311.01906

Weiterlesen

https://x.com/maksym_andr/status/1722235666724192688


Engere Modellselektionsfähigkeiten in Transformer-Modellen durch Mischungen von Pretraining-Daten / Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in Transformer Models

Paper-Vorstellung

  • Untersucht wird, wie effektiv Transformer Mischungen von Pretraining-Daten verknüpfen können, um neue Aufgaben im Kontext zu identifizieren und zu erlernen, sowohl innerhalb als auch außerhalb der Pretraining-Verteilung. In den untersuchten Regimen gibt es nur begrenzte Hinweise darauf, dass das In-Context-Learning-Verhalten der Modelle über ihre Pretraining-Daten hinaus generalisieren kann.
    > Investigates how effectively transformers can bridge between pretraining data mixture to identify and learn new tasks in-context which are both inside and outside the pretraining distribution; in the regimes studied, there is limited evidence that the models’ in-context learning behavior is capable of generalizing beyond their pretraining data.

Paper-Abstract

  • Transformer-Modelle, insbesondere Large Language Models (LLMs), besitzen die bemerkenswerte Fähigkeit zum In-Context Learning (ICL) – also neue Aufgaben zu bearbeiten, wenn sie mit ungesehenen Eingabe-Ausgabe-Beispielen aufgefordert werden, ganz ohne explizites Modelltraining. In dieser Arbeit wird untersucht, wie effektiv Transformer ihre aus mehreren unterschiedlichen Aufgabenfamilien bestehende Mischung von Pretraining-Daten überbrücken können, um neue Aufgaben im Kontext zu identifizieren und zu erlernen, die sowohl innerhalb als auch außerhalb der Pretraining-Verteilung liegen. Aufbauend auf früheren Arbeiten wird diese Frage in einem kontrollierten Setting untersucht, in dem Transformer-Modelle betrachtet werden, die auf Sequenzen von $(x, f(x))$-Paaren statt auf natürlicher Sprache trainiert wurden. Unsere empirischen Ergebnisse zeigen, dass Transformer nahezu optimale unüberwachte Modellselektionsfähigkeiten aufweisen: Sie können zunächst verschiedene Aufgabenfamilien im Kontext identifizieren und anschließend innerhalb dieser Familien im Kontext lernen, sofern diese Aufgabenfamilien in ihren Pretraining-Daten gut repräsentiert sind. Werden sie jedoch mit Aufgaben oder Funktionen konfrontiert, die außerhalb des Bereichs ihrer Pretraining-Daten liegen, zeigen sich verschiedene Fehlermodi der Transformer sowie eine Verschlechterung ihrer Generalisierung selbst bei einfachen Extrapolationsaufgaben. Insgesamt unterstreichen unsere Ergebnisse, dass die beeindruckenden ICL-Fähigkeiten hochkapazitiver Sequenzmodelle möglicherweise enger mit der Abdeckung ihrer Mischungen von Pretraining-Daten verknüpft sind als mit induktiven Verzerrungen, die grundlegende Generalisierungsfähigkeiten erzeugen. > Transformer models, notably large language models (LLMs), have the remarkable ability to perform in-context learning (ICL) -- to perform new tasks when prompted with unseen input-output examples without any explicit model training. In this work, we study how effectively transformers can bridge between their pretraining data mixture, comprised of multiple distinct task families, to identify and learn new tasks in-context which are both inside and outside the pretraining distribution. Building on previous work, we investigate this question in a controlled setting, where we study transformer models trained on sequences of $(x, f(x))$ pairs rather than natural language. Our empirical results show transformers demonstrate near-optimal unsupervised model selection capabilities, in their ability to first in-context identify different task families and in-context learn within them when the task families are well-represented in their pretraining data. However when presented with tasks or functions which are out-of-domain of their pretraining data, we demonstrate various failure modes of transformers and degradation of their generalization for even simple extrapolation tasks. Together our results highlight that the impressive ICL abilities of high-capacity sequence models may be more closely tied to the coverage of their pretraining data mixtures than inductive biases that create fundamental generalization capabilities.

Paper-Link

https://arxiv.org/abs/2311.00871

Weiterlesen

https://x.com/abacaj/status/1721223737729581437


Einfache und kontrollierbare Musikgenerierung / Simple and Controllable Music Generation

Paper-Einführung

  • Ein einstufiges, Transformer-basiertes LLM, das über mehrere Streams komprimierter diskreter Musikrepräsentationen arbeitet und hochwertige Samples (mono und stereo) erzeugen kann, während es durch Textbeschreibungen oder melodische Merkmale gesteuert wird.
    > A single-stage transformer-based llm that operates over several streams of compressed discrete music representation; it can generate high-quality samples (mono and stereo) while conditioning on textual description or melodic features.

Abstract des Papers

  • Behandelt wird die Aufgabe der bedingten Musikgenerierung. Vorgestellt wird MusicGen, ein einzelnes Sprachmodell (LM), das über mehrere Streams komprimierter diskreter Musikrepräsentationen, also Tokens, arbeitet. Im Gegensatz zu früheren Arbeiten besteht MusicGen aus einem einstufigen Transformer-LM zusammen mit effizienten Token-Interleaving-Mustern, wodurch das Kaskadieren mehrerer Modelle, etwa hierarchisch oder für Upsampling, überflüssig wird. Mit diesem Ansatz zeigen die Autoren, wie MusicGen hochwertige Samples sowohl in Mono als auch in Stereo erzeugen kann, während es durch Textbeschreibungen oder melodische Merkmale konditioniert wird, was eine bessere Kontrolle über die generierten Ausgaben ermöglicht. Es wurden umfassende empirische Evaluierungen durchgeführt, darunter sowohl automatische als auch menschliche Studien, die zeigen, dass der vorgeschlagene Ansatz den evaluierten Baselines auf einem Standard-Benchmark für Text-zu-Musik überlegen ist. Durch Ablationsstudien wird die Bedeutung jeder Komponente von MusicGen beleuchtet. Musik-Samples, Code und Modelle sind unter https://github.com/facebookresearch/audiocraft verfügbar.
    > We tackle the task of conditional music generation. We introduce MusicGen, a single Language Model (LM) that operates over several streams of compressed discrete music representation, i.e., tokens. Unlike prior work, MusicGen is comprised of a single-stage transformer LM together with efficient token interleaving patterns, which eliminates the need for cascading several models, e.g., hierarchically or upsampling. Following this approach, we demonstrate how MusicGen can generate high-quality samples, both mono and stereo, while being conditioned on textual description or melodic features, allowing better controls over the generated output. We conduct extensive empirical evaluation, considering both automatic and human studies, showing the proposed approach is superior to the evaluated baselines on a standard text-to-music benchmark. Through ablation studies, we shed light over the importance of each of the components comprising MusicGen. Music samples, code, and models are available at https://github.com/facebookresearch/audiocraft

Paper-Link

https://arxiv.org/abs/2306.05284

Mehr lesen

https://x.com/AIatMeta/status/1723043913638810025


Wechselnde Updates für effiziente Transformer-Modelle / Alternating Updates for Efficient Transformers

Paper-Einführung

  • Eine Methode, mit der sich die zunehmende Größe und Kapazität von Transformer-Modellen nutzen lässt, ohne die Rechenkosten zu erhöhen. Dies wird erreicht, indem in jeder Schicht mit einem Unterblock der erweiterten Repräsentation gearbeitet und ein Predict-and-Correct-Mechanismus verwendet wird, um deaktivierte Blöcke zu aktualisieren; so wird die gelernte Repräsentation erweitert, während die zusätzliche Latenz vernachlässigbar bleibt.
    > A method that makes it possible to take advantage of increasing scale and capacity in transformer models without increasing the computational cost; achieved by working on a subblock of the widened representation at each layer and using a predict-and-correct mechanism to update the inactivated blocks; it widens the learn representation while only incurring a negligible increase in latency.

Abstract des Papers

  • Dass mit wachsender Größe tiefer Transformer-Netzwerke Qualität und Leistung steigen, ist bereits gut belegt. Diese Vergrößerung geht jedoch oft mit prohibitiven Steigerungen der Rechenkosten und der Inferenzlatenz einher. Pure Storage stellt Alternating Updates (AltUp) vor, eine einfach zu implementierende Methode, um die Kapazität eines Modells ohne den rechnerischen Mehraufwand zu erhöhen. Mit AltUp lässt sich die gelernte Repräsentation, also das Token-Embedding, verbreitern, wobei die zusätzliche Latenz vernachlässigbar bleibt. AltUp erreicht dies, indem es in jeder Schicht auf einem Unterblock der verbreiterten Repräsentation arbeitet und einen Predict-and-Correct-Mechanismus nutzt, um die deaktivierten Blöcke zu aktualisieren. Wir präsentieren Erweiterungen von AltUp, etwa seine Anwendbarkeit auf die Sequenzdimension, und zeigen, wie AltUp synergetisch mit bestehenden Ansätzen wie Sparse-Mixture-of-Experts-Modellen kombiniert werden kann, um effiziente Modelle mit noch höherer Kapazität zu erhalten. Unsere Experimente mit Transformer-Benchmarkmodellen und Sprachaufgaben zeigen die durchgängig hohe Wirksamkeit von AltUp in unterschiedlichen Szenarien. Insbesondere ermöglicht AltUp auf den Benchmarks SuperGLUE und SQuAD gegenüber dichten Baselines bei gleicher Genauigkeit eine Beschleunigung von bis zu $87%$.
    > It has been well established that increasing scale in deep transformer networks leads to improved quality and performance. However, this increase in scale often comes with prohibitive increases in compute cost and inference latency. We introduce Alternating Updates (AltUp), a simple-to-implement method to increase a model's capacity without the computational burden. AltUp enables the widening of the learned representation, i.e., the token embedding, while only incurring a negligible increase in latency. AltUp achieves this by working on a subblock of the widened representation at each layer and using a predict-and-correct mechanism to update the inactivated blocks. We present extensions of AltUp, such as its applicability to the sequence dimension, and demonstrate how AltUp can be synergistically combined with existing approaches, such as Sparse Mixture-of-Experts models, to obtain efficient models with even higher capacity. Our experiments on benchmark transformer models and language tasks demonstrate the consistent effectiveness of AltUp on a diverse set of scenarios. Notably, on SuperGLUE and SQuAD benchmarks, AltUp enables up to $87%$ speedup relative to the dense baselines at the same accuracy.

Paper-Link

https://arxiv.org/abs/2301.13310

Mehr lesen

https://x.com/GoogleAI/status/1722004366201418132


Umformulieren und antworten: Große Sprachmodelle dazu bringen, sich selbst bessere Fragen zu stellen / Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves

Paper-Vorstellung

  • Eine effektive Prompting-Methode, die LLMs nutzt, um von Menschen gestellte Fragen umzuformulieren und zu erweitern, um die Gesamtleistung zu verbessern; sie kann die Leistung verschiedener Modelle über ein breites Spektrum von Aufgaben hinweg steigern; der Ansatz lässt sich mit Chain-of-Thought kombinieren, um die Leistung weiter zu verbessern.
    > An effective prompting method that uses llms to rephrase and expand questions posed by humans to improve overall performance; it can improve the performance of different models across a wide range of tasks; the approach can be combined with chain-of-thought to improve performance further.

Paper-Abstract

  • Missverständnisse entstehen nicht nur in der zwischenmenschlichen Kommunikation, sondern auch zwischen Menschen und großen Sprachmodellen (LLMs). Solche Diskrepanzen können dazu führen, dass LLMs scheinbar eindeutige Fragen auf unerwartete Weise interpretieren und dadurch falsche Antworten liefern. Zwar ist weithin bekannt, dass die Qualität eines Prompts, etwa einer Frage, die Qualität der von LLMs gelieferten Antwort maßgeblich beeinflusst, doch systematische Methoden zur Formulierung von Fragen, die LLMs besser verstehen können, sind noch unzureichend entwickelt. In diesem Paper stellen wir eine Methode namens Rephrase and Respond (RaR) vor, mit der LLMs von Menschen gestellte Fragen umformulieren und erweitern und in einem einzigen Prompt beantworten können. Dieser Ansatz ist eine einfache, aber effektive Prompting-Methode zur Leistungssteigerung. Außerdem führen wir eine zweistufige Variante von RaR ein, bei der zunächst ein umformulierendes LLM die Frage neu formuliert und anschließend die ursprüngliche und die umformulierte Frage gemeinsam an ein anderes antwortendes LLM weitergibt. Dadurch können von einem LLM erzeugte Umformulierungen effektiv mit einem anderen LLM genutzt werden. Experimente zeigen, dass dieser Ansatz die Leistung mehrerer Modelle bei einer Vielzahl von Aufgaben deutlich verbessert. Darüber hinaus vergleichen wir RaR sowohl theoretisch als auch empirisch umfassend mit der verbreiteten Chain-of-Thought-(CoT)-Methode. Dabei zeigen wir, dass RaR CoT ergänzt und in Kombination mit CoT noch bessere Ergebnisse erzielen kann. Unsere Arbeit trägt nicht nur dazu bei, die Leistung von LLMs effizient und wirksam zu verbessern, sondern beleuchtet auch eine faire Bewertung der Fähigkeiten von LLMs. Daten und Code sind unter https://github.com/uclaml/Rephrase-and-Respond verfügbar.
    > Missverständnisse entstehen nicht nur in der zwischenmenschlichen Kommunikation, sondern auch zwischen Menschen und Large Language Models (LLMs). Solche Diskrepanzen können dazu führen, dass LLMs scheinbar eindeutige Fragen auf unerwartete Weise interpretieren und dadurch falsche Antworten liefern. Zwar ist weithin bekannt, dass die Qualität eines Prompts, etwa einer Frage, die Qualität der von LLMs gelieferten Antwort maßgeblich beeinflusst, doch eine systematische Methode zur Formulierung von Fragen, die LLMs besser verstehen können, ist noch unzureichend entwickelt. In diesem Paper stellen wir eine Methode namens Rephrase and Respond (RaR) vor, mit der LLMs von Menschen gestellte Fragen umformulieren und erweitern und in einem einzigen Prompt Antworten geben können. Dieser Ansatz dient als einfache, aber effektive Prompting-Methode zur Leistungsverbesserung. Außerdem führen wir eine zweistufige Variante von RaR ein, bei der zunächst ein umformulierendes LLM die Frage neu formuliert und dann die ursprüngliche und die umformulierte Frage gemeinsam an ein anderes antwortendes LLM weitergibt. Dadurch lassen sich von einem LLM erzeugte Umformulierungen mit einem anderen effektiv nutzen. Unsere Experimente zeigen, dass unsere Methoden die Leistung verschiedener Modelle über ein breites Spektrum an Aufgaben hinweg deutlich verbessern. Darüber hinaus liefern wir einen umfassenden Vergleich zwischen RaR und den beliebten Chain-of-Thought-(CoT)-Methoden, sowohl theoretisch als auch empirisch. Wir zeigen, dass RaR CoT ergänzt und mit CoT kombiniert werden kann, um noch bessere Leistung zu erzielen. Unsere Arbeit trägt nicht nur dazu bei, die Leistung von LLMs effizient und effektiv zu steigern, sondern beleuchtet auch eine faire Bewertung der Fähigkeiten von LLMs. Daten und Code sind verfügbar unter https://github.com/uclaml/Rephrase-and-Respond.

Paper-Link

https://arxiv.org/abs/2311.04205

Mehr dazu

https://x.com/QuanquanGu/status/1722364144379396513


Mit GPT-4V(ision) auf der Straße: Frühe Erkundungen visueller Sprachmodelle im autonomen Fahren / On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving

Paper-Vorstellung

  • Das neueste visuelle Sprachmodell GPT-4V(ision) und seine Anwendung im autonomen Fahren werden umfassend evaluiert; im Vergleich zu bestehenden autonomen Fahrsystemen zeigt das Modell überlegene Leistung beim Szenenverständnis und kausalen Schlussfolgern.
    > Bietet eine umfassende Bewertung des neuesten hochmodernen visuellen Sprachmodells GPT-4V(ision) und seiner Anwendung im autonomen Fahren; das Modell zeigt im Vergleich zu bestehenden autonomen Systemen überlegene Leistung beim Szenenverständnis und kausalen Schlussfolgern.

Paper-Abstract

  • Die Verwirklichung autonomer Fahrtechnologie hängt von der ausgefeilten Integration von Wahrnehmungs-, Entscheidungs- und Steuerungssystemen ab. Herkömmliche Ansätze, sowohl datengetriebene als auch regelbasierte, waren dadurch eingeschränkt, dass sie die Nuancen komplexer Fahrsituationen und die Absichten anderer Verkehrsteilnehmer nicht erfassen konnten. Dies stellte insbesondere bei der Entwicklung des für sicheres und zuverlässiges autonomes Fahren notwendigen Common-Sense-Reasonings und eines differenzierten Szenenverständnisses einen erheblichen Engpass dar. Das Aufkommen von Visual Language Models (VLMs) eröffnet eine neue Perspektive auf dem Weg zum vollständig autonomen Fahren. Dieser Bericht bietet eine umfassende Bewertung des neuesten State-of-the-Art-VLM und seiner Anwendung in Szenarien des autonomen Fahrens. Untersucht werden die Fähigkeiten des Modells, Fahrszenen zu verstehen und zu analysieren, Entscheidungen zu treffen und letztlich wie ein Fahrer zu handeln. Dazu wurden umfassende Tests durchgeführt, die von grundlegender Szenenerkennung bis hin zu komplexem kausalem Schlussfolgern und Echtzeit-Entscheidungen unter unterschiedlichen Bedingungen reichen. Die Testergebnisse zeigen, dass „Modellname“ beim Szenenverständnis und kausalen Schlussfolgern eine bessere Leistung als bestehende Systeme für autonomes Fahren erzielt. Dies zeigt das Potenzial, in realen Fahrsituationen auch Out-of-Distribution-Szenarien zu bewältigen, Absichten zu erkennen und fundierte Entscheidungen zu treffen. Herausforderungen bestehen jedoch weiterhin, insbesondere bei der Richtungserkennung, der Erkennung von Ampeln, vision grounding und Aufgaben des räumlichen Schlussfolgerns. Diese Einschränkungen unterstreichen die Notwendigkeit weiterer Forschung und Entwicklung. Das Projekt ist derzeit auf GitHub verfügbar und kann von allen aufgerufen und genutzt werden: URL{https://github.com/PJLab-ADG/GPT4V-AD-Exploration}
    > The pursuit of autonomous driving technology hinges on the sophisticated integration of perception, decision-making, and control systems. Traditional approaches, both data-driven and rule-based, have been hindered by their inability to grasp the nuance of complex driving environments and the intentions of other road users. This has been a significant bottleneck, particularly in the development of common sense reasoning and nuanced scene understanding necessary for safe and reliable autonomous driving. The advent of Visual Language Models (VLM) represents a novel frontier in realizing fully autonomous vehicle driving. This report provides an exhaustive evaluation of the latest state-of-the-art VLM, \modelnamefull, and its application in autonomous driving scenarios. We explore the model's abilities to understand and reason about driving scenes, make decisions, and ultimately act in the capacity of a driver. Our comprehensive tests span from basic scene recognition to complex causal reasoning and real-time decision-making under varying conditions. Our findings reveal that \modelname demonstrates superior performance in scene understanding and causal reasoning compared to existing autonomous systems. It showcases the potential to handle out-of-distribution scenarios, recognize intentions, and make informed decisions in real driving contexts. However, challenges remain, particularly in direction discernment, traffic light recognition, vision grounding, and spatial reasoning tasks. These limitations underscore the need for further research and development. Project is now available on GitHub for interested parties to access and utilize: \url{https://github.com/PJLab-ADG/GPT4V-AD-Exploration}

Paper-Link

https://arxiv.org/abs/2311.05332

Weiterführende Lektüre

https://x.com/arankomatsuzaki/status/1722795897359139057


GPT4All: Open-Source-Ökosystem komprimierter Sprachmodelle / GPT4All: An Ecosystem of Open Source Compressed Language Models

Paper-Einführung

  • Skizziert die technischen Details der Modellfamilie GPT4All zusammen mit dem Open-Source-Repository, das den Zugang zu LLMs demokratisieren soll.
    > Outlines technical details of the gpt4all model family along with the open-source repository that aims to democratize access to llms.

Paper-Abstract

  • In jüngster Zeit haben Large Language Models (LLMs) in einer Reihe professioneller und akademischer Benchmarks Leistungen auf menschlichem Niveau erreicht. Die Zugänglichkeit dieser Modelle ist jedoch hinter ihrer Leistungsfähigkeit zurückgeblieben. State-of-the-Art-LLMs erfordern kostspielige Infrastruktur, sind nur über rate-limitierte, geografisch eingeschränkte und zensierte Webschnittstellen zugänglich und es fehlen öffentlich verfügbare Codebasen sowie technische Berichte. In diesem Paper erzählen wir die Geschichte von GPT4All, einem populären Open-Source-Repository, das die Demokratisierung des Zugangs zu LLMs zum Ziel hat. Wir skizzieren die technischen Details der ursprünglichen GPT4All-Modellfamilie sowie die Entwicklung des GPT4All-Projekts von einem einzelnen Modell zu einem vollwertigen Open-Source-Ökosystem. Wir hoffen, dass dieses Paper sowohl als technischer Überblick über die ursprünglichen GPT4All-Modelle als auch als Fallstudie über das anschließende Wachstum des GPT4All-Open-Source-Ökosystems dienen kann.
    > Large language models (LLMs) have recently achieved human-level performance on a range of professional and academic benchmarks. The accessibility of these models has lagged behind their performance. State-of-the-art LLMs require costly infrastructure; are only accessible via rate-limited, geo-locked, and censored web interfaces; and lack publicly available code and technical reports. In this paper, we tell the story of GPT4All, a popular open source repository that aims to democratize access to LLMs. We outline the technical details of the original GPT4All model family, as well as the evolution of the GPT4All project from a single model into a fully fledged open source ecosystem. It is our hope that this paper acts as both a technical overview of the original GPT4All models as well as a case study on the subsequent growth of the GPT4All open source ecosystem.

Paper-Link

https://arxiv.org/abs/2311.04931

Weiterführende Lektüre

https://x.com/_akhaliq/status/1722833378590793915


S-LoRA: Bereitstellung für Tausende gleichzeitiger LoRA-Adapter / S-LoRA: Serving Thousands of Concurrent LoRA Adapters

Paper-Einführung

  • Ein Ansatz, der das skalierbare Serving vieler LoRA-Adapter ermöglicht: Alle Adapter werden im Hauptspeicher abgelegt, die Adapter der aktuell laufenden Queries in den GPU-Speicher geladen, und mithilfe einer neuartigen Tensor-Parallelisierungsstrategie sowie hochgradig optimierter benutzerdefinierter CUDA-Kernel wird heterogenes Batching für LoRA-Berechnungen unterstützt. Dadurch steigt der Durchsatz im Vergleich zu anderen Lösungen um das Vierfache, und die Anzahl der bereitgestellten Adapter erhöht sich um mehrere Größenordnungen.
    > An approach that enables the scalable serving of many lora adapters; it stores all adapters in main memory and fetches adapters of currently running queries to the gpu memory; employs novel tensor parallelism strategy and highly optimized custom cuda kernels for heterogenous batching of lora computation; improves throughput by 4x, when compared to other solutions, and increases the number of served adapters by several orders of magnitude.

Abstract

  • Bei der Bereitstellung großer Sprachmodelle wird üblicherweise das Paradigma „Pretrain-then-Finetune“ angewendet. Low-Rank Adaptation (LoRA), eine parameter-effiziente Fine-Tuning-Methode, wird häufig eingesetzt, um ein Basismodell an eine Vielzahl von Aufgaben anzupassen, was zu einer umfangreichen Sammlung von LoRA-Adaptern führt, die von einem einzigen Basismodell abgeleitet sind. Dieses Paradigma bietet beim Serving erhebliche Chancen für Batch-Inferenz. Um diese Chancen zu nutzen, stellen wir S-LoRA vor, ein System für das skalierbare Serving vieler LoRA-Adapter. S-LoRA speichert alle Adapter im Hauptspeicher und lädt die Adapter, die von aktuell laufenden Queries verwendet werden, in den GPU-Speicher. Um den GPU-Speicher effizient zu nutzen und Fragmentierung zu reduzieren, führt S-LoRA Unified Paging ein. Unified Paging verwendet einen gemeinsamen Memory Pool, um dynamische Adaptergewichte mit unterschiedlichen Rängen und KV-Cache-Tensoren mit variierenden Sequenzlängen zu verwalten. Darüber hinaus verwendet S-LoRA eine neuartige Tensor-Parallelisierungsstrategie und hochgradig optimierte benutzerdefinierte CUDA-Kernel, um heterogenes Batching von LoRA-Berechnungen zu unterstützen. Zusammengenommen ermöglichen diese Merkmale S-LoRA, Tausende von LoRA-Adaptern auf einer einzelnen GPU oder über mehrere GPUs hinweg mit geringem Overhead bereitzustellen. Im Vergleich zu modernen Bibliotheken wie HuggingFace PEFT oder vLLM (mit naiver Unterstützung für LoRA-Serving) kann S-LoRA den Durchsatz um bis zu das Vierfache steigern und die Anzahl der bereitgestellten Adapter um mehrere Größenordnungen erhöhen. Dadurch ermöglicht S-LoRA das skalierbare Serving vieler aufgabenspezifisch feinabgestimmter Modelle und bietet Potenzial für groß angelegte, kundenspezifische Fine-Tuning-Services. Der Code ist unter https://github.com/S-LoRA/S-LoRA verfügbar.
    > The "pretrain-then-finetune" paradigm is commonly adopted in the deployment of large language models. Low-Rank Adaptation (LoRA), a parameter-efficient fine-tuning method, is often employed to adapt a base model to a multitude of tasks, resulting in a substantial collection of LoRA adapters derived from one base model. We observe that this paradigm presents significant opportunities for batched inference during serving. To capitalize on these opportunities, we present S-LoRA, a system designed for the scalable serving of many LoRA adapters. S-LoRA stores all adapters in the main memory and fetches the adapters used by the currently running queries to the GPU memory. To efficiently use the GPU memory and reduce fragmentation, S-LoRA proposes Unified Paging. Unified Paging uses a unified memory pool to manage dynamic adapter weights with different ranks and KV cache tensors with varying sequence lengths. Additionally, S-LoRA employs a novel tensor parallelism strategy and highly optimized custom CUDA kernels for heterogeneous batching of LoRA computation. Collectively, these features enable S-LoRA to serve thousands of LoRA adapters on a single GPU or across multiple GPUs with a small overhead. Compared to state-of-the-art libraries such as HuggingFace PEFT and vLLM (with naive support of LoRA serving), S-LoRA can improve the throughput by up to 4 times and increase the number of served adapters by several orders of magnitude. As a result, S-LoRA enables scalable serving of many task-specific fine-tuned models and offers the potential for large-scale customized fine-tuning services. The code is available at https://github.com/S-LoRA/S-LoRA

Paper-Link

https://arxiv.org/abs/2311.03285v2

Weiterlesen

https://x.com/ai_database/status/1722190708797592013


FreshLLM: Auffrischung großer Sprachmodelle durch Suchmaschinen-Erweiterung / FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation

Paper-Einführung

  • Es wird mit FreshQA ein dynamischer QA-Benchmark vorgeschlagen, um die Faktentreue von von LLMs erzeugtem Text zu testen. Außerdem wird mit FreshPrompt eine einfache Few-Shot-Prompting-Methode vorgestellt, die die Leistung eines LLM auf FreshQA deutlich verbessert, indem relevante und aktuelle Informationen aus einer Suchmaschine in den Prompt integriert werden. Darüber hinaus zeigt sich, dass die Anweisung an ein LLM, knappe und direkte Antworten zu erzeugen, Halluzinationen besser reduziert als die Aufforderung zu ausführlicheren Antworten.
    > Proposes a dynamic qa benchmark (freshqa) to test the factuality of llm-generated text; proposes freshprompt, a simple few-shot prompting method that substantially boosts the performance of an llm on freshqa by incorporating relevant and up-to-date information retrieved from a search engine into the prompt; finds that instructing the llm to generate concise and direct answers helps reduce hallucination compared to encouraging more verbose answers.

Abstract

  • Die meisten Large Language Models (LLMs) werden nur einmal trainiert und anschließend nicht mehr aktualisiert; daher fehlt ihnen die Fähigkeit, sich dynamisch an unsere sich ständig verändernde Welt anzupassen. Diese Studie untersucht detailliert die Faktentreue von von LLMs generierten Texten im Kontext der Beantwortung von Fragen, die aktuelles Weltwissen testen. Konkret wird mit FreshQA ein neuartiger dynamischer QA-Benchmark vorgestellt, der ein breites Spektrum an Frage- und Antworttypen umfasst, darunter Fragen, die schnell veränderliches Weltwissen erfordern, sowie Fragen mit falschen Prämissen, die widerlegt werden müssen. Benchmarking wird für eine vielfältige Auswahl sowohl geschlossener als auch Open-Source-LLMs unter einem Evaluationsverfahren mit zwei Modi durchgeführt, das es ermöglicht, sowohl Korrektheit als auch Halluzinationen zu messen. Durch menschliche Evaluationen mit mehr als 50.000 Bewertungen werden die Grenzen dieser Modelle aufgezeigt und erheblicher Verbesserungsbedarf nachgewiesen: So zeigt sich etwa, dass alle Modelle – unabhängig von der Modellgröße – bei Fragen mit schnell veränderlichem Wissen und falschen Prämissen Schwierigkeiten haben. Aufbauend auf diesen Ergebnissen wird FreshPrompt vorgestellt, eine einfache Few-Shot-Prompting-Methode, die die Leistung eines LLMs auf FreshQA deutlich steigert, indem relevante und aktuelle Informationen, die über eine Suchmaschine abgerufen wurden, in den Prompt integriert werden. Die Experimente zeigen, dass FreshPrompt sowohl konkurrierende suchmaschinen-gestützte Prompting-Methoden wie Self-Ask (Press et al., 2022) als auch kommerzielle Systeme wie Perplexity.AI übertrifft. Eine weiterführende Analyse von FreshPrompt zeigt, dass sowohl die Anzahl der abgerufenen Belege als auch deren Reihenfolge eine Schlüsselrolle für die Korrektheit der von LLMs erzeugten Antworten spielen. Außerdem zeigte sich, dass die Anweisung an das LLM, knappe und direkte Antworten zu erzeugen, Halluzinationen stärker reduziert als die Aufforderung zu ausführlicheren Antworten. Um zukünftige Arbeiten zu erleichtern, wird FreshQA unter github.com/freshllms/freshqa veröffentlicht und es wird zugesagt, den Benchmark in regelmäßigen Abständen zu aktualisieren.
    > Most large language models (LLMs) are trained once and never updated; thus, they lack the ability to dynamically adapt to our ever-changing world. In this work, we perform a detailed study of the factuality of LLM-generated text in the context of answering questions that test current world knowledge. Specifically, we introduce FreshQA, a novel dynamic QA benchmark encompassing a diverse range of question and answer types, including questions that require fast-changing world knowledge as well as questions with false premises that need to be debunked. We benchmark a diverse array of both closed and open-source LLMs under a two-mode evaluation procedure that allows us to measure both correctness and hallucination. Through human evaluations involving more than 50K judgments, we shed light on limitations of these models and demonstrate significant room for improvement: for instance, all models (regardless of model size) struggle on questions that involve fast-changing knowledge and false premises. Motivated by these results, we present FreshPrompt, a simple few-shot prompting method that substantially boosts the performance of an LLM on FreshQA by incorporating relevant and up-to-date information retrieved from a search engine into the prompt. Our experiments show that FreshPrompt outperforms both competing search engine-augmented prompting methods such as Self-Ask (Press et al., 2022) as well as commercial systems such as Perplexity.AI. Further analysis of FreshPrompt reveals that both the number of retrieved evidences and their order play a key role in influencing the correctness of LLM-generated answers. Additionally, instructing the LLM to generate concise and direct answers helps reduce hallucination compared to encouraging more verbose answers. To facilitate future work, we release FreshQA at github.com/freshllms/freshqa and commit to updating it at regular intervals.

Paper-Link

https://arxiv.org/abs/2310.03214

Weiterlesen

https://x.com/_akhaliq/status/1710108355157487635


Original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-fc8

Noch keine Kommentare.

Noch keine Kommentare.