7 Punkte von ninebow 2023-10-23 | Noch keine Kommentare. | Auf WhatsApp teilen

Überblick

  • Ich habe den wöchentlich von DAIR.AI veröffentlichten Beitrag zu ML-Papers automatisch übersetzt.

  • Bei den in dieser Woche ausgewählten Papers lassen sich die wichtigsten Trends grob in zwei Kategorien einteilen: Erstens Open-Domain-Dialogsysteme und zweitens Forschungsarbeiten dazu, wie künstliche Intelligenz selbst Erklärungen erzeugen oder Probleme eigenständig lösen kann.

  • Open-Domain-Dialogsysteme sind Technologien, mit denen KI-Systeme natürlich mit Nutzerinnen und Nutzern kommunizieren können. Dieses Thema wurde in Papers wie "OpenAgents", "LLMs for Software Engineering" und "Eliciting Human Preferences with LLMs" behandelt. Diese Arbeiten untersuchen, wie KI-Systeme durch den Dialog mit Nutzerinnen und Nutzern selbst lernen und sich weiterentwickeln können.

  • Darüber hinaus wurden Forschungsarbeiten, in denen KI selbst Erklärungen erzeugt oder Probleme löst, in Papers wie "A Study of LLM-Generated Self-Explanations", "Self-RAG" und "Retrieval-Augmentation for Long-form Question Answering" behandelt. Das Hauptziel dieser Arbeiten ist es, den Prozess der Problemlösung oder Erklärungserzeugung durch KI für Nutzerinnen und Nutzer transparent und nachvollziehbar zu machen. Dieser Trend wirkt natürlich, wenn man die Bedeutung von Forschung berücksichtigt, die KI zu einer transparenteren und allgemein nutzbaren Technologie machen soll.


Llemma: Ein offenes Sprachmodell für Mathematik / Llemma: An Open Language Model For Mathematics

Paper-Einführung

  • Das Mathematikmodell Llemma, das durch fortgesetztes Training von Code Llama auf dem Proof-Pile-2-Datensatz entwickelt wurde. Es übertrifft offene Basismodelle und das unveröffentlichte Minerva bei wissenschaftlichen Papers, Webdaten mit mathematischen Inhalten, Datensätzen mit mathematischem Code sowie auf Mathematik-Benchmarks; veröffentlicht wurde das Modell zusammen mit Datensätzen und Code zur Reproduzierbarkeit der Experimente. #mathglm #

    Ein LLM für Mathematik, das auf fortgesetztem Pretraining von Code Llama auf dem Proof-Pile-2-Datensatz basiert; der Datensatz umfasst wissenschaftliche Papers, Webdaten mit mathematischen Inhalten und mathematischen Code; Llemma übertrifft offene Basismodelle sowie das unveröffentlichte Minerva auf dem Mathematik-Benchmark; das Modell wird inklusive Datensatz und Code zur Reproduktion der Experimente veröffentlicht.

Paper-Abstract

  • Wir stellen Llemma vor, ein Large Language Model für Mathematik. Dazu haben wir Code Llama auf Proof-Pile-2 weiter vortrainiert, einer Mischung aus wissenschaftlichen Papers, Webdaten mit mathematischen Inhalten und mathematischem Code. Auf dem MATH-Benchmark übertrifft Llemma alle bekannten offenen Basismodelle sowie die unveröffentlichte Minerva-Modellfamilie bei gleicher Parameterzahl. Darüber hinaus ist Llemma ohne zusätzliches Finetuning in der Lage, Tools zu verwenden und formale Theorembeweise durchzuführen. Wir veröffentlichen alle Artefakte offen, darunter Modelle mit 7 Milliarden und 34 Milliarden Parametern, Proof-Pile-2 sowie den Code zur Reproduktion unserer Experimente.

    We present Llemma, a large language model for mathematics. We continue pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web data containing mathematics, and mathematical code, yielding Llemma. On the MATH benchmark Llemma outperforms all known open base models, as well as the unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is capable of tool use and formal theorem proving without any further finetuning. We openly release all artifacts, including 7 billion and 34 billion parameter models, the Proof-Pile-2, and code to replicate our experiments.

Paper-Link

https://arxiv.org/abs/2310.10631

Weiterlesen

https://x.com/zhangir_azerbay/status/1714098025956864031


Large Language Models für Software Engineering: Überblick und offene Probleme / Large Language Models for Software Engineering: Survey and Open Problems

Paper-Einführung

  • Ein umfassendes Survey-Paper zu LLMs für Software Engineering, einschließlich offener Forschungs- und technischer Herausforderungen

    A comprehensive survey of llms for software engineering, including open research and technical challenges.

Paper-Abstract

  • Dieses Paper bietet einen Überblick über das entstehende Forschungsfeld Large Language Models (LLMs) für Software Engineering (SE). Es benennt außerdem offene Forschungsfragen zur Anwendung von LLMs auf technische Probleme, mit denen Softwareingenieurinnen und -ingenieure konfrontiert sind. Die emergenten Eigenschaften von LLMs bringen Neuartigkeit und Kreativität in das gesamte Spektrum von Software-Engineering-Aktivitäten, darunter Coding, Design, Requirements, Reparatur, Refactoring, Performance-Verbesserung, Dokumentation und Analyse. Gleichzeitig verursachen genau diese Eigenschaften erhebliche technische Herausforderungen; wir benötigen Verfahren, die fehlerhafte Lösungen wie Halluzinationen zuverlässig aussortieren können. Unsere Umfrage zeigt die zentrale Rolle hybrider Ansätze (traditionelles SE plus LLMs) bei der Entwicklung und Bereitstellung zuverlässiger, effizienter und wirksamer LLM-basierter SE-Systeme.

    This paper provides a survey of the emerging area of Large Language Models (LLMs) for Software Engineering (SE). It also sets out open research challenges for the application of LLMs to technical problems faced by software engineers. LLMs' emergent properties bring novelty and creativity with applications right across the spectrum of Software Engineering activities including coding, design, requirements, repair, refactoring, performance improvement, documentation and analytics. However, these very same emergent properties also pose significant technical challenges; we need techniques that can reliably weed out incorrect solutions, such as hallucinations. Our survey reveals the pivotal role that hybrid techniques (traditional SE plus LLMs) have to play in the development and deployment of reliable, efficient and effective LLM-based SE.

Paper-Link

https://arxiv.org/abs/2310.03533

Weiterlesen

https://x.com/omarsar0/status/1713940983199506910


Self-RAG: Retrieval, Generierung und Kritik durch Selbstreflexion lernen / Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

Paper-Einführung

  • Stellt ein neues Retrieval-augmented Framework vor, das die Qualität und Faktentreue von LMs durch Suche und Selbstreflexion verbessert; trainiert ein LM, das bei Bedarf adaptiv Passagen abruft und mithilfe spezieller Reflection Tokens die Passagen sowie seine eigenen Generierungen erzeugt und reflektiert; erzielt bei Open-Domain-QA-, Reasoning- und Fact-Verification-Aufgaben deutlich bessere Ergebnisse als SOTA-LLMs (ChatGPT und retrieval-augmented Llama2-chat), einschließlich Verbesserungen bei der Faktentreue. #rag
    > Presents a new retrieval-augmented framework that enhances an lm’s quality and factuality through retrieval and self-reflection; trains an lm that adaptively retrieves passages on demand, and generates and reflects on the passages and its own generations using special reflection tokens; it significantly outperforms sota llms (chatgpt and retrieval-augmented llama2-chat) on open-domain qa, reasoning, and fact verification tasks, including factuality improvements.

Paper-Abstract

  • Trotz ihrer bemerkenswerten Fähigkeiten erzeugen große Sprachmodelle (LLMs) aufgrund ihrer ausschließlichen Abhängigkeit vom in ihren Parametern gekapselten Wissen häufig Antworten mit sachlichen Ungenauigkeiten. Retrieval-Augmented Generation (RAG), ein ad-hoc-Ansatz, der LMs durch die Suche nach relevantem Wissen ergänzt, verringert solche Probleme. Das wahllose Abrufen und Einbinden einer festen Anzahl abgerufener Passagen – unabhängig davon, ob ein Abruf notwendig ist oder die Passagen relevant sind – verringert jedoch die Vielseitigkeit des LM oder kann zu wenig hilfreichen Antworten führen. Wir führen ein neues Framework namens Self-Reflective Retrieval-Augmented Generation (Self-RAG) ein, das die Qualität und Faktentreue eines LM durch Suche und Selbstreflexion verbessert. Das Framework von Facebook trainiert ein einzelnes beliebiges LM, das Passagen bei Bedarf adaptiv abruft und mithilfe spezieller Tokens, sogenannter Reflection Tokens, abgerufene Passagen sowie seine eigenen Generierungen erzeugt und reflektiert. Durch das Generieren von Reflection Tokens wird das LM während der Inferenz steuerbar, sodass es sein Verhalten an unterschiedliche Aufgabenanforderungen anpassen kann. Experimente zeigen, dass Self-RAG (mit 7B- und 13B-Parametern) auf einem vielfältigen Aufgabenset deutlich besser abschneidet als State-of-the-Art-LLMs und retrieval-augmented Modelle. Insbesondere übertrifft Self-RAG ChatGPT und retrieval-augmented Llama2-chat bei Open-Domain-QA-, Reasoning- und Fact-Verification-Aufgaben und zeigt gegenüber diesen Modellen deutliche Vorteile bei der Verbesserung der Faktentreue und der Genauigkeit von Zitierungen in Long-Form-Generierungen.
    > Despite their remarkable capabilities, large language models (LLMs) often produce responses containing factual inaccuracies due to their sole reliance on the parametric knowledge they encapsulate. Retrieval-Augmented Generation (RAG), an ad hoc approach that augments LMs with retrieval of relevant knowledge, decreases such issues. However, indiscriminately retrieving and incorporating a fixed number of retrieved passages, regardless of whether retrieval is necessary, or passages are relevant, diminishes LM versatility or can lead to unhelpful response generation. We introduce a new framework called Self-Reflective Retrieval-Augmented Generation (Self-RAG) that enhances an LM's quality and factuality through retrieval and self-reflection. Our framework trains a single arbitrary LM that adaptively retrieves passages on-demand, and generates and reflects on retrieved passages and its own generations using special tokens, called reflection tokens. Generating reflection tokens makes the LM controllable during the inference phase, enabling it to tailor its behavior to diverse task requirements. Experiments show that Self-RAG (7B and 13B parameters) significantly outperforms state-of-the-art LLMs and retrieval-augmented models on a diverse set of tasks. Specifically, Self-RAG outperforms ChatGPT and retrieval-augmented Llama2-chat on Open-domain QA, reasoning and fact verification tasks, and it shows significant gains in improving factuality and citation accuracy for long-form generations relative to these models.

Paper-Link

https://arxiv.org/abs/2310.11511

Weiterlesen

https://x.com/AkariAsai/status/1715110277077962937


Retrieval Augmentation für Long-Form Question Answering verstehen / Understanding Retrieval Augmentation for Long-Form Question Answering

Paper-Einführung

  • Untersucht retrieval-augmented Sprachmodelle für Long-Form Question Answering und stellt fest, dass Retrieval ein wichtiger Bestandteil ist, Evidenzdokumente jedoch sorgfältig zum LLM hinzugefügt werden sollten; zudem tritt Attributionsfehler häufiger auf, wenn abgerufene Dokumente nicht genügend Informationen bzw. Evidenz zur Beantwortung der Frage enthalten.
    > Explores retrieval-augmented language models on long-form question answering; finds that retrieval is an important component but evidence documents should be carefully added to the llm; finds that attribution error happens more frequently when retrieved documents lack sufficient information/evidence for answering the question.

Paper-Abstract

  • Präsentiert eine Studie zu retrieval-augmentierten Sprachmodellen (LMs) für Long-Form Question Answering. Analysiert wird, wie sich Retrieval-Augmentation auf unterschiedliche LMs auswirkt, indem Antworten verglichen werden, die mit denselben Evidenzdokumenten von den Modellen erzeugt wurden, sowie wie sich Qualitätsunterschiede in den Retrieval-Dokumentmengen auf die vom selben LM generierten Antworten auswirken. Untersucht werden verschiedene Eigenschaften generierter Antworten (z. B. Flüssigkeit, Länge, Varianz), mit besonderem Fokus auf die Attribution langer Antworten zu im Kontext bereitgestellten Evidenzdokumenten. Dafür werden menschliche Annotationen zur Antwortattribution gesammelt und Methoden zur automatischen Bewertung der Attribution evaluiert. Die Studie liefert neue Einblicke darin, wie Retrieval-Augmentation die lange, wissensreiche Textgenerierung von LMs beeinflusst. Darüber hinaus werden Attributionsmuster bei der Generierung langer Texte identifiziert und die Hauptursachen von Attributionsfehlern analysiert. Insgesamt zeigt diese Analyse, wie Retrieval-Augmentation die Generierung langer, wissensreicher Texte beeinflusst, und gibt Hinweise auf zukünftige Arbeitsrichtungen.
    > We present a study of retrieval-augmented language models (LMs) on long-form question answering. We analyze how retrieval augmentation impacts different LMs, by comparing answers generated from models while using the same evidence documents, and how differing quality of retrieval document set impacts the answers generated from the same LM. We study various attributes of generated answers (e.g., fluency, length, variance) with an emphasis on the attribution of generated long-form answers to in-context evidence documents. We collect human annotations of answer attribution and evaluate methods for automatically judging attribution. Our study provides new insights on how retrieval augmentation impacts long, knowledge-rich text generation of LMs. We further identify attribution patterns for long text generation and analyze the main culprits of attribution errors. Together, our analysis reveals how retrieval augmentation impacts long knowledge-rich text generation and provide directions for future work.

Paper-Link

https://arxiv.org/abs/2310.12150

Weiterführende Links

https://x.com/omarsar0/status/1714986431859282144


GenBench

Paper-Vorstellung

  • Präsentiert ein Framework zur Charakterisierung und zum Verständnis von Generalisierungsforschung in NLP und umfasst eine Metaanalyse von 543 Arbeiten sowie ein Toolset, um Generalisierungsstudien zu erkunden und besser zu verstehen.
    > Presents a framework for characterizing and understanding generalization research in nlp; involves a meta-analysis of 543 papers and a set of tools to explore and better understand generalization studies.

Paper-Link

https://nature.com/articles/s42256-023-00729-y/…

Weiterführende Links

https://x.com/AIatMeta/status/1715041427283902793


Können große Sprachmodelle sich selbst erklären? Eine Studie über von LLMs erzeugte Selbsterklärungen / Can Large Language Models Explain Themselves? A Study of LLM-Generated Self-Explanations

Paper-Vorstellung

  • Bewertet die Fähigkeit eines LLM, selbst Erklärungen zur Merkmalsattribution zu erzeugen. Solche Selbsterklärungen sind nützlich, um die Leistung und Wahrhaftigkeit von LLMs zu verbessern, und diese Fähigkeit kann zusammen mit Chain-of-Thought-Prompting eingesetzt werden. #chain-of-thought
    > Assesses an llm's capability to self-generate feature attribution explanations; self-explanation is useful to improve performance and truthfulness in llms; this capability can be used together with chain-of-thought prompting.

Paper-Abstract

  • Große Sprachmodelle (LLMs) wie ChatGPT haben bei einer Vielzahl von Natural-Language-Processing-(NLP-)Aufgaben, darunter Sentimentanalyse, mathematisches Schlussfolgern und Zusammenfassung, eine hervorragende Leistung gezeigt. Darüber hinaus können diese Modelle, da sie anhand menschlicher Gespräche darauf instruktionsoptimiert wurden, „hilfreiche“ Antworten zu geben, zusammen mit der Antwort Erklärungen erzeugen und tun dies auch häufig; wir bezeichnen diese als Selbsterklärungen. Bei der Analyse der Stimmung einer Filmrezension kann das Modell beispielsweise nicht nur die Positivität der Stimmung ausgeben, sondern auch eine Erklärung (etwa indem es stimmungsbehaftete Wörter wie „fantastisch“ und „einprägsam“ in der Rezension auflistet). Wie gut sind diese automatisch erzeugten Selbsterklärungen? In diesem Paper untersuchen wir diese Frage anhand der Aufgabe der Sentimentanalyse und der Erklärung von Feature-Attributionen, einem der in der Interpretability-Literatur am häufigsten untersuchten Settings (für Modelle aus der Zeit vor ChatGPT). Konkret untersuchen wir verschiedene Methoden, um Selbsterklärungen hervorzulocken, bewerten ihre Faithfulness anhand einer Reihe von Metriken und vergleichen sie mit traditionellen Erklärungsmethoden wie Occlusion oder LIME-Saliency-Maps. Durch umfangreiche Experimente stellen wir fest, dass ChatGPTs Selbsterklärungen auf Augenhöhe mit traditionellen Erklärungen abschneiden, sich jedoch gemäß verschiedenen Übereinstimmungsmetriken deutlich von ihnen unterscheiden und zugleich wesentlich günstiger zu erzeugen sind, da sie zusammen mit der Vorhersage generiert werden. Darüber hinaus haben wir mehrere interessante Eigenschaften identifiziert, die uns dazu veranlassen, viele aktuelle Praktiken der Modell-Interpretierbarkeit im Zeitalter von ChatGPT(-ähnlichen) LLMs neu zu überdenken.
    > Large language models (LLMs) such as ChatGPT have demonstrated superior performance on a variety of natural language processing (NLP) tasks including sentiment analysis, mathematical reasoning and summarization. Furthermore, since these models are instruction-tuned on human conversations to produce "helpful" responses, they can and often will produce explanations along with the response, which we call self-explanations. For example, when analyzing the sentiment of a movie review, the model may output not only the positivity of the sentiment, but also an explanation (e.g., by listing the sentiment-laden words such as "fantastic" and "memorable" in the review). How good are these automatically generated self-explanations? In this paper, we investigate this question on the task of sentiment analysis and for feature attribution explanation, one of the most commonly studied settings in the interpretability literature (for pre-ChatGPT models). Specifically, we study different ways to elicit the self-explanations, evaluate their faithfulness on a set of evaluation metrics, and compare them to traditional explanation methods such as occlusion or LIME saliency maps. Through an extensive set of experiments, we find that ChatGPT's self-explanations perform on par with traditional ones, but are quite different from them according to various agreement metrics, meanwhile being much cheaper to produce (as they are generated along with the prediction). In addition, we identified several interesting characteristics of them, which prompt us to rethink many current model interpretability practices in the era of ChatGPT(-like) LLMs.

Paper-Link

https://arxiv.org/abs/2310.11207

Weiterführende Lektüre

https://x.com/omarsar0/status/1714665747752923620


OpenAgents: Eine offene Plattform für Sprachagenten in freier Wildbahn / OpenAgents: An Open Platform for Language Agents in the Wild

Paper-Einführung

  • Eine Plattform für die Nutzung und das Hosting offener Sprachagenten in freier Wildbahn, die drei Agenten umfasst: einen Datenagenten für Datenanalyse, einen Plugin-Agenten mit mehr als 200 täglichen API-Tools und einen Web-Agenten für autonomes Webbrowsing.
    > An open platform for using and hosting language agents in the wild; includes three agents, including a data agent for data analysis, a plugins agent with 200+ daily api tools, and a web agent for autonomous web browsing.

Paper-Abstract

  • Sprachagenten zeigen Potenzial, natürliche Sprache für vielfältige und komplexe Aufgaben in unterschiedlichen Umgebungen zu nutzen, insbesondere wenn sie auf großen Sprachmodellen (LLMs) aufbauen. Aktuelle Frameworks für Sprachagenten zielen darauf ab, die Entwicklung von Sprachagenten als Machbarkeitsnachweis zu erleichtern, vernachlässigen dabei jedoch den Zugang für nicht fachkundige Nutzer und schenken Designs auf Anwendungsebene kaum Beachtung. Wir stellen OpenAgents vor, eine offene Plattform für die Nutzung und das Hosting von Sprachagenten im Alltag. OpenAgents umfasst drei Agenten: (1) einen Data Agent für Datenanalyse mit Python/SQL und Datentools, (2) einen Plugins Agent mit mehr als 200 alltäglichen API-Tools, (3) einen Web Agent für autonomes Web-Browsing. Allgemeine Nutzer können über eine Web-Benutzeroberfläche, die auf schnelle Reaktionen und typische Ausfälle optimiert ist, mit den Agentenfunktionen interagieren; Entwicklern und Forschern bietet die Plattform zugleich eine nahtlose Bereitstellungsumgebung für lokale Setups und damit eine Grundlage, um innovative Sprachagenten zu entwickeln und Evaluierungen in der Praxis zu erleichtern. Wir erläutern die Herausforderungen und Chancen und wollen damit eine Grundlage für die zukünftige Forschung und Entwicklung praxisnaher Sprachagenten schaffen.
    > Language agents show potential in being capable of utilizing natural language for varied and intricate tasks in diverse environments, particularly when built upon large language models (LLMs). Current language agent frameworks aim to facilitate the construction of proof-of-concept language agents while neglecting the non-expert user access to agents and paying little attention to application-level designs. We present OpenAgents, an open platform for using and hosting language agents in the wild of everyday life. OpenAgents includes three agents: (1) Data Agent for data analysis with Python/SQL and data tools; (2) Plugins Agent with 200+ daily API tools; (3) Web Agent for autonomous web browsing. OpenAgents enables general users to interact with agent functionalities through a web user interface optimized for swift responses and common failures while offering developers and researchers a seamless deployment experience on local setups, providing a foundation for crafting innovative language agents and facilitating real-world evaluations. We elucidate the challenges and opportunities, aspiring to set a foundation for future research and development of real-world language agents.

Paper-Link

https://arxiv.org/abs/2310.10634v1

Weiter lesen

https://x.com/ChengZhoujun/status/1714343204148113860


Menschliche Präferenzen mit Sprachmodellen eliciteren / Eliciting Human Preferences with Language Models

Paper-Einführung

  • Sprachmodelle werden genutzt, um den Prozess der Aufgabenspezifikation zu steuern, und ein Lern-Framework unterstützt die Modelle dabei, das beabsichtigte Verhalten durch freie, sprachbasierte Interaktion mit Nutzern zu erfragen und abzuleiten; außerdem wird gezeigt, dass das System durch die Generierung offener Fragen Antworten erzeugt, die informativer sind als von Nutzern geschriebene Prompts.
    > Uses language models to guide the task specification process and a learning framework to help models elicit and infer intended behavior through free-form, language-based interaction with users; shows that by generating open-ended questions, the system generates responses that are more informative than user-written prompts.

Paper-Abstract

  • Sprachmodelle (LMs) können dazu angeleitet werden, Zielaufgaben mithilfe gelabelter Beispiele oder natürlichsprachlicher Prompts auszuführen. Doch das Auswählen von Beispielen oder das Schreiben von Prompts kann schwierig sein – insbesondere bei Aufgaben mit ungewöhnlichen Edge Cases, die eine präzise Formulierung vager Präferenzen verlangen oder ein genaues mentales Modell des LM-Verhaltens erfordern. Wir schlagen vor, die LMs selbst zur Steuerung des Prozesses der Aufgabenspezifikation zu verwenden. In diesem Paper stellen wir Generative Active Task Elicitation (GATE) vor, ein Lern-Framework, in dem Modelle das beabsichtigte Verhalten durch freie, sprachbasierte Interaktion mit Nutzern erfragen und ableiten. Wir untersuchen GATE in drei Bereichen: E-Mail-Validierung, Content-Empfehlung und moralisches Schlussfolgern. In vorregistrierten Experimenten zeigen wir, dass LMs, die dazu aufgefordert werden, GATE auszuführen (z. B. durch das Generieren offener Fragen oder das Synthetisieren informativer Edge Cases), häufig informativere Antworten hervorbringen als von Nutzern geschriebene Prompts oder Labels. Nutzer berichten, dass interaktive Aufgabenableitung weniger Aufwand erfordert als Prompting oder das Labeln von Beispielen und neue Aspekte sichtbar macht, die von ihnen zunächst nicht erwartet wurden. Unsere Ergebnisse legen nahe, dass LM-getriebene Elicitation ein leistungsfähiges Werkzeug sein kann, um Modelle an komplexe menschliche Präferenzen und Werte anzupassen.
    > Language models (LMs) can be directed to perform target tasks by using labeled examples or natural language prompts. But selecting examples or writing prompts for can be challenging--especially in tasks that involve unusual edge cases, demand precise articulation of nebulous preferences, or require an accurate mental model of LM behavior. We propose to use LMs themselves to guide the task specification process. In this paper, we introduce Generative Active Task Elicitation (GATE): a learning framework in which models elicit and infer intended behavior through free-form, language-based interaction with users. We study GATE in three domains: email validation, content recommendation, and moral reasoning. In preregistered experiments, we show that LMs prompted to perform GATE (e.g., by generating open-ended questions or synthesizing informative edge cases) elicit responses that are often more informative than user-written prompts or labels. Users report that interactive task elicitation requires less effort than prompting or example labeling and surfaces novel considerations not initially anticipated by users. Our findings suggest that LM-driven elicitation can be a powerful tool for aligning models to complex human preferences and values.

Paper-Link

https://arxiv.org/abs/2310.11589

Weiterlesen

https://x.com/AlexTamkin/status/1715040019520569395


AutoMix: Automatische Mischung von Sprachmodellen / AutoMix: Automatically Mixing Language Models

Paper-Vorstellung

  • Ein Ansatz, der Abfragen basierend auf der Korrektheit kleinerer Sprachmodelle an llms weiterleitet (umgesetzt über Few-Shot-Selbstverifikation); dazu wird ein Meta-Verifizierer eingeführt, der die Ausgabe des Verifizierers (typischerweise ein kleineres Modell) überprüft und die Abfrage bei Bedarf an ein größeres Sprachmodell weiterleitet. Experimente mit llama2-13/70b auf fünf kontextbasierten Reasoning-Datensätzen zeigen, dass AutoMix etablierte Baselines übertrifft und den inkrementellen Nutzen pro Kosten um bis zu 89 % verbessert.
    > An approach to route queries to llms based on the correctness of smaller language models (done via few-shot self-verification); a meta-verifier is introduced to check the verifier's output (typically a smaller model) and route the query to a larger language model if needed. experiments using llama2-13/70b, on five context-grounded reasoning datasets demonstrate that automix surpasses established baselines, improving the incremental benefit per cost by up to 89%.

Paper-Abstract

  • Große Sprachmodelle (LLMs) sind inzwischen in verschiedenen Größen und Konfigurationen über Cloud-API-Anbieter verfügbar. Diese Vielfalt erweitert zwar die Auswahlmöglichkeiten, doch die Optionen effektiv zu nutzen, um Rechenkosten und Leistung zu optimieren, bleibt eine Herausforderung. In dieser Arbeit stellen wir AutoMix vor, einen Ansatz, der Abfragen strategisch an größere LMs weiterleitet, basierend auf der ungefähren Korrektheit der Ausgaben eines kleineren LM. Im Zentrum von AutoMix steht ein Few-Shot-Selbstverifikationsmechanismus, der die Zuverlässigkeit der eigenen Ausgaben ohne zusätzliches Training abschätzt. Da Verifikationen verrauscht sein können, verwendet AutoMix einen Meta-Verifizierer, um die Genauigkeit dieser Einschätzungen zu verbessern. Experimente mit LLAMA2-13/70B auf fünf kontextbasierten Reasoning-Datensätzen zeigen, dass AutoMix bestehende Baselines übertrifft und den inkrementellen Nutzen pro Kosten um bis zu 89 % steigert. Code und Daten sind unter https://github.com/automix-llm/automix verfügbar.
    > Large language models (LLMs) are now available in various sizes and configurations from cloud API providers. While this diversity offers a broad spectrum of choices, effectively leveraging the options to optimize computational cost and performance remains challenging. In this work, we present AutoMix, an approach that strategically routes queries to larger LMs, based on the approximate correctness of outputs from a smaller LM. Central to AutoMix is a few-shot self-verification mechanism, which estimates the reliability of its own outputs without requiring training. Given that verifications can be noisy, we employ a meta verifier in AutoMix to refine the accuracy of these assessments. Our experiments using LLAMA2-13/70B, on five context-grounded reasoning datasets demonstrate that AutoMix surpasses established baselines, improving the incremental benefit per cost by up to 89%. Our code and data are available at https://github.com/automix-llm/automix.

Paper-Link

https://arxiv.org/abs/2310.12963

Weiterlesen

https://x.com/omarsar0/status/1715385477627334718


Video-Sprachplanung / Video Language Planning

Paper-Einführung

  • Der vorgeschlagene Algorithmus kann durch ein Tree-Search-Verfahren, das Vision-Language-Modelle als Policy und Value Function sowie Text-to-Video-Modelle als Dynamikmodelle trainiert, komplexe langfristige Videopläne über verschiedene Robotikdomänen hinweg synthetisieren.
    > Enables synthesizing complex long-horizon video plans across robotics domains; the proposed algorithm involves a tree search procedure that trains vision-language models to serve as policies and value functions, and text-to-video models as dynamic models.

Abstract des Papers

  • Wir interessieren uns dafür, visuelle Planung für komplexe Langzeittasks im Raum generierter Videos und Sprache zu ermöglichen, indem wir aktuelle Fortschritte bei großen generativen Modellen nutzen, die auf Daten im Internetmaßstab vortrainiert wurden. Zu diesem Zweck stellen wir Video Language Planning (VLP) vor, einen Algorithmus, der aus einem Tree-Search-Verfahren besteht, bei dem wir (i) Vision-Language-Modelle trainieren, die sowohl als Policy als auch als Value Function dienen, und (ii) Text-to-Video-Modelle als Dynamikmodelle trainieren. VLP nimmt als Eingabe eine Langzeittask-Anweisung und die aktuelle Bildbeobachtung und gibt einen langen Videoplan aus, der eine detaillierte multimodale Spezifikation (Video und Sprache) liefert, die beschreibt, wie die endgültige Aufgabe abgeschlossen werden kann. VLP skaliert mit steigendem Compute-Budget, wobei mehr Rechenzeit zu besseren Videoplänen führt, und kann langfristige Videopläne über verschiedene Robotikbereiche hinweg synthetisieren: von der Neuordnung mehrerer Objekte bis hin zur geschickten bi-manuellen Manipulation mit mehreren Kameras. Generierte Videopläne können über zielkonditionierte Policies, die auf jedes Zwischenbild des generierten Videos konditioniert sind, in reale Roboteraktionen übersetzt werden. Experimente zeigen, dass VLP die Erfolgsraten bei Langzeittasks im Vergleich zu früheren Methoden sowohl auf simulierten als auch auf realen Robotern (über 3 Hardware-Plattformen hinweg) deutlich verbessert.
    > We are interested in enabling visual planning for complex long-horizon tasks in the space of generated videos and language, leveraging recent advances in large generative models pretrained on Internet-scale data. To this end, we present video language planning (VLP), an algorithm that consists of a tree search procedure, where we train (i) vision-language models to serve as both policies and value functions, and (ii) text-to-video models as dynamics models. VLP takes as input a long-horizon task instruction and current image observation, and outputs a long video plan that provides detailed multimodal (video and language) specifications that describe how to complete the final task. VLP scales with increasing computation budget where more computation time results in improved video plans, and is able to synthesize long-horizon video plans across different robotics domains: from multi-object rearrangement, to multi-camera bi-arm dexterous manipulation. Generated video plans can be translated into real robot actions via goal-conditioned policies, conditioned on each intermediate frame of the generated video. Experiments show that VLP substantially improves long-horizon task success rates compared to prior methods on both simulated and real robots (across 3 hardware platforms).

Paper-Link

https://arxiv.org/abs/2310.10625

Weiterlesen

https://x.com/du_yilun/status/1714297584842318157

Original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-ff8

Noch keine Kommentare.

Noch keine Kommentare.