[20.11.2023 ~ 26.11.2023] Die wichtigsten ML-Papers dieser Woche (Top ML Papers of the Week)

Überblick

Ich habe einen automatisch übersetzten Beitrag zu den ML-Papers erstellt, die DAIR.AI wöchentlich veröffentlicht.
Die in dieser Woche ausgewählten Papers zeigen vor allem Tendenzen rund um „Large Language Models (LLMs)“, „Reasoning and Attention in AI System“ sowie „Artificial Intelligence in Medical Domain“.
Besonders hervor sticht das Thema „Reasoning and Attention in AI System“. Das spiegelt den Versuch wider, KI über reine Mustererkennung hinaus zu entwickeln und sie mit menschenähnlichen Fähigkeiten zum Schlussfolgern und Problemlösen auszustatten.
Bemerkenswert ist auch die Forschung zur Nutzung von KI im medizinischen Bereich. „LLMs as Collaborators for Medical Reasoning“ ist ein wichtiges Beispiel dafür und untersucht die Anwendungsmöglichkeiten von LLMs beim Umgang mit medizinischen Daten.
Zusammengefasst zeigen die in dieser Woche ausgewählten Papers, dass sich viele Arbeiten auf die Entwicklung komplexer Schlussfolgerungsfähigkeiten, menschenähnlicher Aufmerksamkeitsmechanismen sowie auf KI-Anwendungen im medizinischen Bereich konzentrieren. Das lässt sich als wichtiger Indikator für die Entwicklungsrichtung der KI-Technologie interpretieren.

System-2-Attention (etwas, das auch Sie brauchen könnten) / System 2 Attention (is something you might need too)

Paper-Vorstellung

Nutzt die Schlussfolgerungs- und Instruction-Following-Fähigkeiten von LLMs, um zu bestimmen, worauf geachtet werden soll, rekonstruiert den Eingabekontext so, dass er vor der Aufmerksamkeit auf den rekonstruierten Kontext nur relevante Teile enthält, lenkt damit die finale Antwort des Modells und erhöht die Faktentreue; bei Aufgaben wie QA und mathematischen Textaufgaben erzielt es bessere Ergebnisse als standardmäßige aufmerksamkeitsbasierte LLMs.

Leverages the reasoning and instruction following capabilities of llms to decide what to attend to; it regenerates input context to only include relevant portions before attending to the regenerated context to elicit the final response from the model; increases factuality and outperforms standard attention-based llms on tasks such as qa and math world problems.

Paper-Abstract

Soft Attention in Transformer-basierten Large Language Models (LLMs) ist anfällig dafür, irrelevante Informationen aus dem Kontext in ihre latenten Repräsentationen zu integrieren, was sich negativ auf die Generierung des nächsten Tokens auswirkt. Um dieses Problem zu beheben, führen wir System 2 Attention (S2A) ein, das die Fähigkeit von LLMs nutzt, in natürlicher Sprache zu schlussfolgern und Anweisungen zu befolgen, um zu entscheiden, worauf geachtet werden soll. S2A rekonstruiert den Eingabekontext so, dass nur die relevanten Teile enthalten sind, bevor auf den rekonstruierten Kontext Attention angewendet wird, um die finale Antwort zu erzeugen. Experimente zeigen, dass S2A standardmäßige aufmerksamkeitsbasierte LLMs bei drei Aufgaben mit Meinungen oder irrelevanten Informationen übertrifft — QA, mathematische Textaufgaben und Longform-Generierung —, wobei S2A Faktentreue und Objektivität erhöht und Schmeicheltendenzen verringert.

Soft attention in Transformer-based Large Language Models (LLMs) is susceptible to incorporating irrelevant information from the context into its latent representations, which adversely affects next token generations. To help rectify these issues, we introduce System 2 Attention (S2A), which leverages the ability of LLMs to reason in natural language and follow instructions in order to decide what to attend to. S2A regenerates the input context to only include the relevant portions, before attending to the regenerated context to elicit the final response. In experiments, S2A outperforms standard attention-based LLMs on three tasks containing opinion or irrelevant information, QA, math word problems and longform generation, where S2A increases factuality and objectivity, and decreases sycophancy.

Paper-Link

https://arxiv.org/abs/2311.11829

Mehr dazu

https://x.com/jaseweston/status/1726784511357157618

Fortschritte der Transformer-Architektur in Large Language Models mit langem Kontext: Eine umfassende Übersicht / Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey

Paper-Vorstellung

Ein Überblick über Methoden zur Verbesserung von Transformer-Architekturmodulen, die Long-Context-Fähigkeiten über alle Phasen hinweg von Pre-Training bis Inferenz optimieren.

An overview of the methodologies for enhancing transformer architecture modules that optimize long-context capabilities across all stages from pre-training to inference.

Paper-Abstract

Die durch ChatGPT ausgelösten Transformer-basierten Large Language Models (LLMs) haben einen revolutionären Weg in Richtung Artificial General Intelligence (AGI) eröffnet und finden in vielfältigen Bereichen Anwendung, etwa als Wissensbasis, Human Interface und dynamische Agenten. Allerdings haben viele aktuelle LLMs unter Ressourcenbeschränkungen die Einschränkung, dass sie überwiegend auf kurzen Texten vortrainiert werden und daher bei Prompts mit langem Kontext, wie sie in realen Umgebungen häufig vorkommen, an Effizienz verlieren. Dieses Paper präsentiert eine umfassende Survey, die sich auf die Weiterentwicklung der Modellarchitektur von Transformer-basierten LLMs konzentriert, um Long-Context-Fähigkeiten über alle Phasen von Pre-Training bis Inferenz hinweg zu optimieren. Zunächst werden die Probleme bei der Verarbeitung von Long-Context-Ein- und -Ausgaben in aktuellen Transformer-basierten Modellen identifiziert und analysiert. Anschließend wird vor allem eine ganzheitliche Taxonomie vorgestellt, mit der sich die Landschaft architektonischer Transformer-Upgrades zur Lösung dieser Probleme erschließen lässt. Danach folgt eine Untersuchung der weit verbreiteten Evaluierungsbausteine für Long-Context-LLMs, darunter Datensätze, Metriken und Baseline-Modelle, sowie eine Vorstellung bemerkenswerter Optimierungs-Toolkits wie Libraries, Systeme und Compiler, die Effizienz und Wirksamkeit von LLMs in verschiedenen Phasen steigern. Abschließend werden die zentralen Herausforderungen in diesem Bereich sowie potenzielle Wege für die zukünftige Forschung diskutiert. Zusätzlich wurde ein Repository aufgebaut, das relevante Literatur kuratiert und in Echtzeit aktualisiert: https://github.com/Strivin0311/long-llms-learning.

With the bomb ignited by ChatGPT, Transformer-based Large Language Models (LLMs) have paved a revolutionary path toward Artificial General Intelligence (AGI) and have been applied in diverse areas as knowledge bases, human interfaces, and dynamic agents. However, a prevailing limitation exists: many current LLMs, constrained by resources, are primarily pre-trained on shorter texts, rendering them less effective for longer-context prompts, commonly encountered in real-world settings. In this paper, we present a comprehensive survey focusing on the advancement of model architecture in Transformer-based LLMs to optimize long-context capabilities across all stages from pre-training to inference. We firstly delineate and analyze the problems of handling long-context input and output with the current Transformer-based models. Then, we mainly offer a holistic taxonomy to navigate the landscape of Transformer upgrades on architecture to solve these problems. Afterward, we provide the investigation on wildly used evaluation necessities tailored for long-context LLMs, including datasets, metrics, and baseline models, as well as some amazing optimization toolkits like libraries, systems, and compilers to augment LLMs' efficiency and efficacy across different stages. Finally, we further discuss the predominant challenges and potential avenues for future research in this domain. Additionally, we have established a repository where we curate relevant literature with real-time updates at https://github.com/Strivin0311/long-llms-learning.

Paper-Link

https://arxiv.org/abs/2311.12351

Mehr dazu

https://x.com/omarsar0/status/1727358484360945750

PaSS: Paralleles spekulatives Sampling / PaSS: Parallel Speculative Sampling

Paper-Vorstellung

Ein Ansatz zur Verkürzung der Inferenzzeit von LLMs auf Basis einer Variante von spekulativem Sampling und parallelem Decoding; durch das Lernen von nur $O(d_{emb})$ zusätzlichen Parametern werden deutliche Geschwindigkeitssteigerungen (bis zu 30 %) erreicht.

Approach to reduce inference time of llms based on a variant of speculative sampling and parallel decoding; achieves significant speed-ups (up to 30%) by only learning as little as o(d_emb) additional parameters.

Abstract des Papers

Wenn die Größe von Sprachmodellen auf mehrere zehn Milliarden Parameter skaliert wird, können sie bei einer Vielzahl von Aufgaben beeindruckende Leistungen erzielen. Bei der Generierung werden diese Modelle autoregressiv verwendet, sodass für jedes erzeugte Token ein Forward-Pass erforderlich ist und daher der gesamte Parametersatz aus dem Speicher gelesen werden muss. Dieser Speicherzugriff bildet bei der Generierung den zentralen Engpass und verschärft sich mit zunehmender Modellgröße weiter. Zudem dauert die parallele Ausführung eines Forward-Passes für mehrere Tokens oft nahezu genauso lange wie für nur ein einzelnes Token. Diese beiden Beobachtungen führten zur Entwicklung des spekulativen Samplings, bei dem ein zweites, kleineres Modell einige Tokens vorab entwirft, die dann mit einem einzelnen Forward-Pass des großen Modells validiert oder verworfen werden. Leider erfordert diese Methode zwei Modelle, die denselben Tokenizer teilen, was ihre Verbreitung einschränkt. Als Alternative schlagen wir vor, Parallel Decoding zu verwenden, um mehrere Tokens mit einem einzelnen Modell ohne zusätzlichen Rechenaufwand und ohne zweites Modell vorzuentwerfen. Dieser Ansatz benötigt lediglich ein zusätzliches Eingabe-Token, das die Wörter markiert, die gleichzeitig generiert werden sollen. Dabei zeigt er vielversprechende Ergebnisse mit einer Beschleunigung von bis zu $30%$ und benötigt zugleich nur zusätzliche Parameter in Höhe von $O(d_{emb})$.

Scaling the size of language models to tens of billions of parameters has led to impressive performance on a wide range of tasks. At generation, these models are used auto-regressively, requiring a forward pass for each generated token, and thus reading the full set of parameters from memory. This memory access forms the primary bottleneck for generation and it worsens as the model size increases. Moreover, executing a forward pass for multiple tokens in parallel often takes nearly the same time as it does for just one token. These two observations lead to the development of speculative sampling, where a second smaller model is used to draft a few tokens, that are then validated or rejected using a single forward pass of the large model. Unfortunately, this method requires two models that share the same tokenizer and thus limits its adoption. As an alternative, we propose to use parallel decoding as a way to draft multiple tokens from a single model with no computational cost, nor the need for a second model. Our approach only requires an additional input token that marks the words that will be generated simultaneously. We show promising performance (up to $30%$ speed-up) while requiring only as few as $O(d_{emb})$ additional parameters.

Paper-Link

https://arxiv.org/abs/2311.13581

Weiterführende Links

https://x.com/omarsar0/status/1728066181796418009

Mirasol3B: Multimodales autoregressives Modell für zeitlich ausgerichtete und kontextuelle Modalitäten / Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities

Paper-Einführung

Ein Multimodal-Modell für das Lernen über Audio, Video und Text hinweg, das die multimodale Modellierung in separate, fokussierte autoregressive Modelle entkoppelt; die Eingaben werden je nach Modalität verarbeitet; im Vergleich zu anderen Modellen kann dieser Ansatz längere Videos verarbeiten und erzielt bei Video-QA, Long-Video-QA und Audio-Video-Text-Benchmarks bessere Ergebnisse als aktuelle State-of-the-Art-Ansätze.

A multimodal model for learning across audio, video, and text which decouples the multimodal modeling into separate, focused autoregressive models; the inputs are processed according to the modalities; this approach can handle longer videos compared to other models and it outperforms state-of-the-art approach on video qa, long video qa, and audio-video-text benchmark.

Paper-Abstract

Eine der Hauptaufgaben des multimodalen Lernens besteht darin, heterogene Modalitäten (z. B. Video, Audio, Text) zu kombinieren. So werden Video und Audio beispielsweise mit deutlich höherer Rate als Text erfasst und sind zeitlich grob aufeinander abgestimmt. Mit Text, der als globaler Kontext bereitgestellt wird, etwa als Titel oder Beschreibung, sind sie oft nicht synchronisiert. Außerdem haben Video- und Audioeingaben ein viel größeres Volumen und wachsen mit zunehmender Videolänge weiter an, was naturgemäß mehr speziell für diese Modalitäten vorgesehene Rechenleistung erfordert und die Modellierung von Langzeitabhängigkeiten erschwert. Hier wird die multimodale Modellierung entkoppelt und in separate, fokussierte autoregressive Modelle aufgeteilt, die die Eingaben entsprechend den Eigenschaften der jeweiligen Modalitäten verarbeiten. Vorgeschlagen wird ein multimodales Modell namens Mirasol3B, das aus einer autoregressiven Komponente für zeitlich synchronisierte Modalitäten (Audio und Video) sowie einer autoregressiven Komponente für Kontextmodalitäten besteht, die nicht zwingend zeitlich ausgerichtet sind, aber dennoch sequenziell vorliegen. Um die langen Sequenzen der Video-Audio-Eingaben zu verarbeiten, wird vorgeschlagen, Video- und Audiosequenzen weiter in aufeinanderfolgende Snippets zu unterteilen und deren Repräsentationen autoregressiv zu verarbeiten. Zu diesem Zweck wird ein Combiner-Mechanismus vorgeschlagen, der Audio- und Videoinformationen gemeinsam innerhalb eines Zeitfensters modelliert. Der Combiner lernt, Audio- und Videofeatures aus rohen raumzeitlichen Signalen zu extrahieren, und anschließend, diese Features zu fusionieren, um kompakte, aber ausdrucksstarke Repräsentationen pro Snippet zu erzeugen. Dieser Ansatz erreicht auf gut etablierten multimodalen Benchmarks State-of-the-Art-Leistungen und übertrifft dabei deutlich größere Modelle. Zudem bewältigt er den hohen Rechenaufwand von Medieneingaben effektiv, indem er kompakte Repräsentationen lernt, die Sequenzlänge der Audio-Video-Feature-Repräsentationen kontrolliert und ihre zeitlichen Abhängigkeiten modelliert.

One of the main challenges of multimodal learning is the need to combine heterogeneous modalities (e.g., video, audio, text). For example, video and audio are obtained at much higher rates than text and are roughly aligned in time. They are often not synchronized with text, which comes as a global context, e.g., a title, or a description. Furthermore, video and audio inputs are of much larger volumes, and grow as the video length increases, which naturally requires more compute dedicated to these modalities and makes modeling of long-range dependencies harder. We here decouple the multimodal modeling, dividing it into separate, focused autoregressive models, processing the inputs according to the characteristics of the modalities. We propose a multimodal model, called Mirasol3B, consisting of an autoregressive component for the time-synchronized modalities (audio and video), and an autoregressive component for the context modalities which are not necessarily aligned in time but are still sequential. To address the long-sequences of the video-audio inputs, we propose to further partition the video and audio sequences in consecutive snippets and autoregressively process their representations. To that end, we propose a Combiner mechanism, which models the audio-video information jointly within a timeframe. The Combiner learns to extract audio and video features from raw spatio-temporal signals, and then learns to fuse these features producing compact but expressive representations per snippet. Our approach achieves the state-of-the-art on well established multimodal benchmarks, outperforming much larger models. It effectively addresses the high computational demand of media inputs by both learning compact representations, controlling the sequence length of the audio-video feature representations, and modeling their dependencies in time.

Paper-Link

https://arxiv.org/abs/2311.05698

Weiterführende Lektüre

https://x.com/GoogleAI/status/1724553024088191211

Orca 2: Kleineren Sprachmodellen das Schlussfolgern beibringen / Orca 2: Teaching Small Language Models How to Reason

Paper-Vorstellung

Es wird ein Ansatz vorgeschlagen, kleineren Sprachmodellen das Schlussfolgern beizubringen. Konkret geht man davon aus, dass das LM Reasoning-Techniken wie schrittweise Verarbeitung, Recall-then-generate, Recall-reason-generate, Extract-generate und Direct-answer verwendet; bei der Bewertung auf komplexen Aufgaben, die fortgeschrittene Schlussfolgerungsfähigkeiten in Zero-Shot-Settings testen, übertrifft es Modelle ähnlicher Größe und erreicht Leistungsniveaus, die mit 5- bis 10-mal größeren Modellen vergleichbar oder besser sind.

Proposes an approach to teach smaller language models to reason; specifically, the lm is thought to use reasoning techniques, such as step-by-step processing, recall-then-generate, recall-reason-generate, extract-generate, and direct-answer methods; outperforms models of similar size and attains performance levels similar or better to those of models 5-10x larger, as assessed on complex tasks that test advanced reasoning abilities in zero-shot settings.

Paper-Abstract

Orca 1 lernt aus reichhaltigen Signalen wie etwa Erklärungsspuren und erzielt dadurch auf Benchmarks wie BigBench Hard und AGIEval bessere Ergebnisse als herkömmliche instruction-tuned Modelle. Mit Orca 2 wird weiter untersucht, wie verbesserte Trainingssignale die Reasoning-Fähigkeiten kleinerer LMs steigern können. Die Forschung zum Training kleiner LMs hat sich oft auf Imitation Learning gestützt, um die Ausgaben leistungsfähigerer Modelle zu replizieren. Es wird jedoch argumentiert, dass eine übermäßige Betonung von Imitation das Potenzial kleinerer Modelle einschränken kann. Ziel ist es, kleinen LMs beizubringen, für verschiedene Aufgaben unterschiedliche Lösungsstrategien zu verwenden, die sich von denen großer Modelle unterscheiden können. Ein großes Modell kann zum Beispiel für eine komplexe Aufgabe eine direkte Antwort liefern, ein kleines Modell möglicherweise nicht. In Orca 2 werden dem Modell verschiedene Reasoning-Techniken beigebracht (schrittweise, erst erinnern dann generieren, erinnern–begründen–generieren, direkte Antwort usw.). Noch wichtiger ist, dem Modell zu helfen zu lernen, wie es für jede Aufgabe die effektivste Lösungsstrategie bestimmt. Orca 2 wird mit einem umfassenden Set aus 15 vielfältigen Benchmarks evaluiert (entsprechend etwa 100 Aufgaben und mehr als 36.000 eindeutigen Prompts). Die Evaluation von Orca 2 auf komplexen Aufgaben, die fortgeschrittene Reasoning-Fähigkeiten in Zero-Shot-Umgebungen testen, zeigt, dass es Modelle ähnlicher Größe deutlich übertrifft und ein Leistungsniveau erreicht, das mit 5- bis 10-mal größeren Modellen vergleichbar oder besser ist. Um die Forschung zur Entwicklung, Bewertung und Abstimmung kleinerer LMs zu unterstützen, werden die Orca-2-Gewichte öffentlich unter aka.ms/orca-lm verfügbar gemacht

Orca 1 learns from rich signals, such as explanation traces, allowing it to outperform conventional instruction-tuned models on benchmarks like BigBench Hard and AGIEval. In Orca 2, we continue exploring how improved training signals can enhance smaller LMs' reasoning abilities. Research on training small LMs has often relied on imitation learning to replicate the output of more capable models. We contend that excessive emphasis on imitation may restrict the potential of smaller models. We seek to teach small LMs to employ different solution strategies for different tasks, potentially different from the one used by the larger model. For example, while larger models might provide a direct answer to a complex task, smaller models may not have the same capacity. In Orca 2, we teach the model various reasoning techniques (step-by-step, recall then generate, recall-reason-generate, direct answer, etc.). More crucially, we aim to help the model learn to determine the most effective solution strategy for each task. We evaluate Orca 2 using a comprehensive set of 15 diverse benchmarks (corresponding to approximately 100 tasks and over 36,000 unique prompts). Orca 2 significantly surpasses models of similar size and attains performance levels similar or better to those of models 5-10x larger, as assessed on complex tasks that test advanced reasoning abilities in zero-shot settings. make Orca 2 weights publicly available at aka.ms/orca-lm to support research on the development, evaluation, and alignment of smaller LMs

Paper-Link

https://arxiv.org/abs/2311.11045

Weiterführende Lektüre

https://x.com/omarsar0/status/1726990087399915995

GPQA: Ein Google-resistenter Q&A-Benchmark auf Graduiertenniveau / GPQA: A Graduate-Level Google-Proof Q&A Benchmark

Paper-Einführung

Vorgestellt wird ein Google-resistenter QA-Benchmark auf Graduiertenniveau, der aus 448 Multiple-Choice-Fragen besteht, die von Fachexperten aus Biologie, Physik und Chemie erstellt wurden. Die stärkste GPT-4-basierte Baseline erreicht 39 % Genauigkeit; dieser Benchmark bietet skalierbare Oversight-Experimente, die dabei helfen können, verlässliche und wahrheitsgetreue Informationen aus modernen KI-Systemen zu gewinnen, die menschliche Fähigkeiten übertreffen.

Proposes a graduate-level google-proof qa benchmark consisting of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry; the strongest gpt-4 based baseline achieves 39% accuracy; this benchmark offers scalable oversight experiments that can help obtain reliable and truthful information from modern ai systems that surpass human capabilities.

Paper-Abstract

Vorgestellt wird GPQA, ein anspruchsvoller Datensatz mit 448 Multiple-Choice-Fragen, die von Fachexpertinnen und -experten aus Biologie, Physik und Chemie erstellt wurden. Fachleute mit abgeschlossenem oder laufendem PhD in den jeweiligen Bereichen erreichten eine Trefferquote von 65 % (74 %, wenn offensichtliche Fehler ausgenommen werden, die die Expertinnen und Experten im Nachhinein selbst identifizierten), während hochqualifizierte fachfremde Validierer trotz durchschnittlich mehr als 30 Minuten mit uneingeschränktem Webzugang nur auf 34 % kamen (die Fragen sind also „Google-sicher“). Selbst die stärkste GPT-4-basierte Baseline erreichte nur 39 % Genauigkeit, sodass die Aufgaben auch für moderne KI-Systeme schwierig sind. Wenn künftige KI-Systeme dabei helfen sollen, sehr schwierige Fragen zu beantworten, etwa bei der Entwicklung neuen wissenschaftlichen Wissens, müssen skalierbare Aufsichtsmethoden entwickelt werden, mit denen Menschen ihre Ausgaben überwachen können – was selbst für qualifizierte und sachkundige Aufsichtspersonen schwierig sein kann. Die Schwierigkeit von GPQA sowohl für qualifizierte Nicht-Expertinnen und -Experten als auch für Frontier-KI-Systeme ermöglicht realistische Experimente zu skalierbarer Aufsicht und dürfte dabei helfen, Wege zu finden, wie menschliche Expertinnen und Experten zuverlässig wahrheitsgemäße Informationen von KI-Systemen erhalten können, die menschliche Fähigkeiten übertreffen.

We present GPQA, a challenging dataset of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry. We ensure that the questions are high-quality and extremely difficult: experts who have or are pursuing PhDs in the corresponding domains reach 65% accuracy (74% when discounting clear mistakes the experts identified in retrospect), while highly skilled non-expert validators only reach 34% accuracy, despite spending on average over 30 minutes with unrestricted access to the web (i.e., the questions are "Google-proof"). The questions are also difficult for state-of-the-art AI systems, with our strongest GPT-4 based baseline achieving 39% accuracy. If we are to use future AI systems to help us answer very hard questions, for example, when developing new scientific knowledge, we need to develop scalable oversight methods that enable humans to supervise their outputs, which may be difficult even if the supervisors are themselves skilled and knowledgeable. The difficulty of GPQA both for skilled non-experts and frontier AI systems should enable realistic scalable oversight experiments, which we hope can help devise ways for human experts to reliably get truthful information from AI systems that surpass human capabilities.

Paper-Link

https://arxiv.org/abs/2311.12022

Weiterführende Lektüre

https://x.com/idavidrein/status/1727033002234909060

Sprachintelligenz entfachen: Der Hitchhiker-Guide von Chain-of-Thought-Reasoning zu Sprachagenten / Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents

Paper-Vorstellung

Eine Zusammenfassung des CoT(Chain-of-Thought)-Reasonings, der grundlegenden Mechanismen hinter CoT(Chain-of-Thought)-Techniken und ihrer Anwendung auf Sprachagenten-Frameworks.

Summary of cot reasoning, foundational mechanics underpinning cot techniques, and their application to language agent frameworks.

Paper-Abstract

Große Sprachmodelle (LLMs) haben das Feld der Sprachintelligenz dramatisch vorangebracht, was sich eindrucksvoll an ihrer starken empirischen Leistung bei einer Vielzahl komplexer Reasoning-Aufgaben zeigt. Zudem haben theoretische Nachweise ihre emergenten Schlussfolgerungsfähigkeiten offengelegt und damit ihre fortgeschrittenen kognitiven Fähigkeiten in sprachlichen Kontexten überzeugend demonstriert. Entscheidend für ihre bemerkenswerte Effektivität bei der Bewältigung komplexer Reasoning-Aufgaben ist, dass LLMs die interessante Chain-of-Thought-(CoT)-Reasoning-Technik nutzen, die sie dazu veranlasst, auf dem Weg zur Antwort Zwischenschritte zu formulieren. Der CoT-Reasoning-Ansatz hat nicht nur seine Eignung zur Steigerung der Reasoning-Leistung gezeigt, sondern auch zur Verbesserung von Interpretierbarkeit, Steuerbarkeit und Flexibilität. Vor dem Hintergrund dieser Vorzüge haben jüngere Forschungsarbeiten die CoT-Reasoning-Methodik erweitert, um die Entwicklung autonomer Sprachagenten zu fördern, die Sprachanweisungen geschickt befolgen und in unterschiedlichen Umgebungen Aktionen ausführen. Diese Survey-Arbeit entfaltet eine umfassende Diskussion zentraler Forschungsdimensionen, darunter: (i) die grundlegenden Mechanismen von CoT-Techniken mit Fokus auf die Bedingungen und Begründungen ihrer Wirksamkeit, (ii) der Paradigmenwechsel bei CoT und (iii) das rasante Aufkommen von durch CoT-Ansätze gestärkten Sprachagenten. Künftige Forschungsrichtungen umfassen Untersuchungen zu Generalisierung, Effizienz, Anpassbarkeit, Skalierung und Sicherheit. Das Paper richtet sich an ein breites Publikum, von Einsteigerinnen und Einsteigern, die sich einen umfassenden Überblick über CoT-Reasoning und Sprachagenten verschaffen möchten, bis hin zu erfahrenen Forschenden, die sich für die grundlegenden Mechanismen interessieren und an aktuellen Diskussionen zu diesen Themen teilnehmen möchten. Ein Repository mit den zugehörigen Papers ist unter https://github.com/Zoeyyao27/CoT-Igniting-Agent verfügbar.

Large language models (LLMs) have dramatically enhanced the field of language intelligence, as demonstrably evidenced by their formidable empirical performance across a spectrum of complex reasoning tasks. Additionally, theoretical proofs have illuminated their emergent reasoning capabilities, providing a compelling showcase of their advanced cognitive abilities in linguistic contexts. Critical to their remarkable efficacy in handling complex reasoning tasks, LLMs leverage the intriguing chain-of-thought (CoT) reasoning techniques, obliging them to formulate intermediate steps en route to deriving an answer. The CoT reasoning approach has not only exhibited proficiency in amplifying reasoning performance but also in enhancing interpretability, controllability, and flexibility. In light of these merits, recent research endeavors have extended CoT reasoning methodologies to nurture the development of autonomous language agents, which adeptly adhere to language instructions and execute actions within varied environments. This survey paper orchestrates a thorough discourse, penetrating vital research dimensions, encompassing: (i) the foundational mechanics of CoT techniques, with a focus on elucidating the circumstances and justification behind its efficacy; (ii) the paradigm shift in CoT; and (iii) the burgeoning of language agents fortified by CoT approaches. Prospective research avenues envelop explorations into generalization, efficiency, customization, scaling, and safety. This paper caters to a wide audience, including beginners seeking comprehensive knowledge of CoT reasoning and language agents, as well as experienced researchers interested in foundational mechanics and engaging in cutting-edge discussions on these topics. A repository for the related papers is available at https://github.com/Zoeyyao27/CoT-Igniting-Agent.

Paper-Link

https://arxiv.org/abs/2311.11797

Weiterführende Lektüre

https://x.com/omarsar0/status/1726803725220487277

GAIA: Benchmark für allgemeine KI-Assistenten / GAIA: a benchmark for General AI Assistants

Paper-Einführung

Ein Benchmark für allgemeine KI-Assistenten, der aus realen Fragen besteht und grundlegende Fähigkeiten wie Reasoning, multimodale Verarbeitung, Web-Browsing und den allgemeinen kompetenten Einsatz von Tools erfordert, zeigt: Menschliche Testpersonen erreichen 92 %, GPT-4 mit Plugins dagegen 15 %.

A benchmark for general ai assistants consisting of real-world questions that require a set of fundamental abilities such as reasoning, multimodal handling, web browsing, and generally tool-use proficiency; shows that human respondents obtain 92% vs. 15% for gpt-4 equipped with plugins.

Paper-Abstract

Wir stellen GAIA vor, einen Benchmark für allgemeine KI-Assistenten, der, falls er gelöst wird, einen Meilenstein in der KI-Forschung markieren würde. GAIA stellt Fragen aus der realen Welt, die eine Reihe grundlegender Fähigkeiten erfordern, etwa Schlussfolgern, multimodale Verarbeitung, Web-Browsing und ganz allgemein den kompetenten Einsatz von Tools. Die Fragen von GAIA sind für Menschen konzeptionell einfach, für die meisten fortgeschrittenen KIs jedoch schwierig. Menschliche Testpersonen erreichten eine Trefferquote von 92%, GPT-4 mit Plugins 15%. Dieser deutliche Leistungsunterschied steht im Kontrast zum jüngsten Trend, bei dem LLMs Menschen bei Aufgaben übertreffen, die professionelle Fähigkeiten etwa in Recht oder Chemie erfordern. Die Philosophie von GAIA geht von dem aktuellen Trend bei KI-Benchmarks aus, immer schwierigere Aufgaben für Menschen ins Visier zu nehmen. Wir nehmen an, dass das Aufkommen künstlicher allgemeiner Intelligenz (AGI) davon abhängt, ob ein System bei solchen Fragen eine ähnliche Robustheit wie ein durchschnittlicher Mensch zeigen kann. Mit der Methodik von GAIA haben wir 466 Fragen und die dazugehörigen Antworten entwickelt. Wir veröffentlichen die Fragen und stellen die Antworten auf 300 davon über ein Leaderboard unter https://huggingface.co/gaia-benchmark bereit.

We introduce GAIA, a benchmark for General AI Assistants that, if solved, would represent a milestone in AI research. GAIA proposes real-world questions that require a set of fundamental abilities such as reasoning, multi-modality handling, web browsing, and generally tool-use proficiency. GAIA questions are conceptually simple for humans yet challenging for most advanced AIs: we show that human respondents obtain 92% vs. 15% for GPT-4 equipped with plugins. This notable performance disparity contrasts with the recent trend of LLMs outperforming humans on tasks requiring professional skills in e.g. law or chemistry. GAIA's philosophy departs from the current trend in AI benchmarks suggesting to target tasks that are ever more difficult for humans. We posit that the advent of Artificial General Intelligence (AGI) hinges on a system's capability to exhibit similar robustness as the average human does on such questions. Using GAIA's methodology, we devise 466 questions and their answer. We release our questions while retaining answers to 300 of them to power a leader-board available at https://huggingface.co/gaia-benchmark.

Paper-Link

https://arxiv.org/abs/2311.12983

Weiterführende Lektüre

https://x.com/ThomasScialom/status/1727683993045201339

MedAgents: Large Language Models als Kollaborateure für Zero-shot Medical Reasoning / MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning

Paper-Vorstellung

Es wird ein kollaboratives Multi-Round-Framework für den medizinischen Bereich vorgeschlagen, das rollenbasierte LLM-Agenten nutzt, um die Fähigkeiten von LLMs und ihre Schlussfolgerungsleistung zu verbessern.

Proposes a collaborative multi-round framework for the medical domain that leverages role-playing llm-based agents to enhance llm proficiency and reasoning capabilities.

Paper-Abstract

Große Sprachmodelle (LLMs) stoßen trotz ihrer bemerkenswerten Fortschritte in verschiedenen allgemeinen Domänen in Medizin und Gesundheitswesen auf erhebliche Hürden. Dieses Feld bringt besondere Herausforderungen mit sich, etwa domänenspezifische Terminologie und Schlussfolgern über spezialisiertes Wissen. Um diese hartnäckigen Probleme anzugehen, schlägt Unity ein neuartiges Multi-disciplinary-Collaboration-(MC)-Framework für den medizinischen Bereich vor. Dieses Framework nutzt rollenbasierte LLM-Agenten, die an einer kollaborativen Diskussionsrunde mit mehreren Teilnehmern und mehreren Runden teilnehmen und dadurch die Fähigkeiten und das Schlussfolgern von LLMs verbessern. Dieses trainingsfreie und interpretierbare Framework umfasst fünf entscheidende Schritte: das Zusammenbringen von Domänenexpertinnen und -experten, das Erarbeiten individueller Analysen, das Zusammenfassen dieser Analysen in einem Bericht, das Wiederholen der Diskussionen bis ein Konsens erreicht ist und schließlich das Treffen einer Entscheidung. Unsere Arbeit konzentriert sich insbesondere auf das Zero-shot-Szenario. Die Ergebnisse auf neun Datensätzen (MedQA, MedMCQA, PubMedQA und sechs Teilaufgaben aus MMLU) zeigen, dass unser vorgeschlagenes MC-Framework hervorragend darin ist, die medizinische Expertise in LLMs zu erschließen und zu nutzen sowie ihre Schlussfolgerungsfähigkeiten zu erweitern. Auf Grundlage dieser Ergebnisse führten wir außerdem eine menschliche Evaluation durch, um häufige Fehler in unserer Methode zu identifizieren und zu kategorisieren, sowie Ablationsstudien, um den Einfluss verschiedener Faktoren auf die Gesamtleistung zu verstehen. Weitere Informationen zum Code finden sich unter \url{https://github.com/gersteinlab/MedAgents}.

Large Language Models (LLMs), despite their remarkable progress across various general domains, encounter significant barriers in medicine and healthcare. This field faces unique challenges such as domain-specific terminologies and the reasoning over specialized knowledge. To address these obstinate issues, we propose a novel Multi-disciplinary Collaboration (MC) framework for the medical domain that leverages role-playing LLM-based agents who participate in a collaborative multi-round discussion, thereby enhancing LLM proficiency and reasoning capabilities. This training-free and interpretable framework encompasses five critical steps: gathering domain experts, proposing individual analyses, summarising these analyses into a report, iterating over discussions until a consensus is reached, and ultimately making a decision. Our work particularly focuses on the zero-shot scenario, our results on nine data sets (MedQA, MedMCQA, PubMedQA, and six subtasks from MMLU) establish that our proposed MC framework excels at mining and harnessing the medical expertise in LLMs, as well as extending its reasoning abilities. Based on these outcomes, we further conduct a human evaluation to pinpoint and categorize common errors within our method, as well as ablation studies aimed at understanding the impact of various factors on overall performance. Our code can be found at \url{https://github.com/gersteinlab/MedAgents}.

Paper-Link

https://arxiv.org/abs/2311.10537

Weiterführende Lektüre

https://x.com/omarsar0/status/1726627951582511135

Kamele in einem sich wandelnden Klima: Verbesserung der LM-Anpassungsfähigkeit mit Tulu 2 / Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2

Paper-Vorstellung

Es wird eine verbesserte Tulu-Modellfamilie vorgestellt, um das Verständnis und die Best Practices für die Anpassung vortrainierter Sprachmodelle an Downstream-Aufgaben und Nutzerpräferenzen voranzubringen; die Tulu-2-Familie erreicht unter offenen Modellen State-of-the-Art-Leistung und erreicht oder übertrifft in mehreren Benchmarks die Leistung von GPT-3.5-Turbo-0301.

Presents a suite of improved tülu models for advancing the understanding and best practices of adapting pretrained language models to downstream tasks and user preferences; tülu 2 suite achieves state-of-the-art performance among open models and matches or exceeds the performance of gpt-3.5-turbo-0301 on several benchmarks.

Abstract

Seit der Veröffentlichung von Tülu [Wang et al., 2023b] haben sich offene Ressourcen für Instruction Tuning schnell weiterentwickelt, von besseren Basismodellen bis hin zu neuen Fine-Tuning-Techniken. Wir testen und integrieren mehrere dieser Fortschritte in Tülu und entwickeln daraus Tülu 2, eine Sammlung verbesserter Tülu-Modelle, um das Verständnis und die Best Practices für die Anpassung vortrainierter Sprachmodelle an Downstream-Aufgaben und Nutzerpräferenzen weiterzuentwickeln. Konkret veröffentlichen wir: (1) Tülu-V2-mix, eine verbesserte Sammlung hochwertiger Instruction-Datensätze; (2) Tülu 2, auf dem V2-Mix feinabgestimmte LLAMA-2-Modelle; (3) Tülu 2+DPO, mit Direct Preference Optimization (DPO) trainierte Tülu-2-Modelle, einschließlich des bislang größten mit DPO trainierten Modells (Tülu 2+DPO 70B); (4) CODE Tülu 2, auf unserem V2-Mix feinabgestimmte CODE-LLAMA-Modelle, die CODE LLAMA und dessen instruction-getunte Variante CODE LLAMA-Instruct übertreffen. Unsere Evaluierung aus mehreren Perspektiven zeigt, dass die Tülu-2-Familie unter offenen Modellen State-of-the-Art-Leistung erzielt und in mehreren Benchmarks die Leistung von GPT-3.5-turbo-0301 erreicht oder übertrifft. Wir veröffentlichen alle Checkpoints, Daten sowie Trainings- und Evaluierungscode, um künftige offene Bemühungen zur Anpassung großer Sprachmodelle zu erleichtern.

Since the release of Tülu [Wang et al., 2023b], open resources for instruction tuning have developed quickly, from better base models to new finetuning techniques. We test and incorporate a number of these advances into Tülu , resulting in Tülu 2, a suite of improved Tülu models for advancing the understanding and best practices of adapting pretrained language models to downstream tasks and user preferences. Concretely, we release: (1) Tülu-V2-mix, an improved collection of high-quality instruction datasets; (2) Tülu 2, LLAMA-2 models finetuned on the V2 mixture; (3) Tülu 2+DPO, Tülu 2 models trained with direct preference optimization (DPO), including the largest DPO-trained model to date (Tülu 2+DPO 70B); (4) CODE Tülu 2, CODE LLAMA models finetuned on our V2 mix that outperform CODE LLAMA and its instruction-tuned variant, CODE LLAMA-Instruct. Our evaluation from multiple perspectives shows that the Tülu 2 suite achieves state-of-the-art performance among open models and matches or exceeds the performance of GPT-3.5-turbo-0301 on several benchmarks. We release all the checkpoints, data, training and evaluation code to facilitate future open efforts on adapting large language models.

[20.11.2023 ~ 26.11.2023] Die wichtigsten ML-Papers dieser Woche (Top ML Papers of the Week)

Überblick

System-2-Attention (etwas, das auch Sie brauchen könnten) / System 2 Attention (is something you might need too)

Paper-Vorstellung

Paper-Abstract

Paper-Link

Mehr dazu

Fortschritte der Transformer-Architektur in Large Language Models mit langem Kontext: Eine umfassende Übersicht / Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey

Paper-Vorstellung

Paper-Abstract

Paper-Link

Mehr dazu

PaSS: Paralleles spekulatives Sampling / PaSS: Parallel Speculative Sampling

Paper-Vorstellung

Abstract des Papers

Paper-Link

Weiterführende Links

Mirasol3B: Multimodales autoregressives Modell für zeitlich ausgerichtete und kontextuelle Modalitäten / Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities

Paper-Einführung

Paper-Abstract

Paper-Link

Weiterführende Lektüre

Orca 2: Kleineren Sprachmodellen das Schlussfolgern beibringen / Orca 2: Teaching Small Language Models How to Reason

Paper-Vorstellung

Paper-Abstract

Paper-Link

Weiterführende Lektüre

GPQA: Ein Google-resistenter Q&A-Benchmark auf Graduiertenniveau / GPQA: A Graduate-Level Google-Proof Q&A Benchmark

Paper-Einführung

Paper-Abstract

Paper-Link

Weiterführende Lektüre

Sprachintelligenz entfachen: Der Hitchhiker-Guide von Chain-of-Thought-Reasoning zu Sprachagenten / Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents

Paper-Vorstellung

Paper-Abstract

Paper-Link

Weiterführende Lektüre

GAIA: Benchmark für allgemeine KI-Assistenten / GAIA: a benchmark for General AI Assistants

Paper-Einführung

Paper-Abstract

Paper-Link

Weiterführende Lektüre

MedAgents: Large Language Models als Kollaborateure für Zero-shot Medical Reasoning / MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning

Paper-Vorstellung

Paper-Abstract

Paper-Link

Weiterführende Lektüre

Kamele in einem sich wandelnden Klima: Verbesserung der LM-Anpassungsfähigkeit mit Tulu 2 / Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2

Paper-Vorstellung

Abstract

Paper-Link

Weiterführende Lektüre

Originaltext

Verwandte Beiträge

Noch keine Kommentare.