24] Die wichtigsten ML-Papers dieser Woche (Top ML Papers of the Week)

(discuss.pytorch.kr)

1 Punkte von ninebow 2024-03-27 | Noch keine Kommentare. | Auf WhatsApp teilen

Ich habe den wöchentlich von DAIR.AI veröffentlichten Beitrag zu ML-Papers automatisch übersetzt.

Unter den in dieser Woche ausgewählten Papers fallen insgesamt viele Arbeiten auf, die große Sprachmodelle (LLMs) nutzen. Wie schon an Titeln wie „Tool Use in LLMs“, „Step-by-Step Comparisons Make LLMs Better Reasoners“, „LLM4Decompile“, „Agent-FLAN“, „LLMs Leak Proprietary Information“ und „Retrieval-Augmented Fine-Tuning“ zu erkennen ist, behandeln diese Papers offenbar ein breites Spektrum an Anwendungen von LLMs, Methoden zur Leistungssteigerung sowie auch Sicherheitsfragen.
Dieser Trend lässt sich als Ergebnis der Bemühungen verstehen, den Einsatzbereich von LLMs in verschiedensten Forschungsfeldern auszuloten, nachdem sie in den letzten Jahren im Bereich der künstlichen Intelligenz stark in den Fokus gerückt sind. Insbesondere erweitern nicht nur Methodiken zur effizienteren Bearbeitung bestehender Aufgaben, sondern auch Forschungen zur Verbesserung der Schlussfolgerungsfähigkeit bei Tool-Nutzung und Problemlösungsprozessen, zur Erschließung neuer Anwendungsfelder wie Software-Reverse-Engineering sowie zur Stabilität und Sicherheit von Modellen die Entwicklungsmöglichkeiten von LLMs. Darüber hinaus spielen diese Arbeiten eine wichtige Rolle dabei, das Verständnis zu vertiefen, wie LLMs in realen Umgebungen eingesetzt werden können und welche potenziellen Probleme damit verbunden sind.
Darüber hinaus zeigen Papers wie „Evolutionary Model Merge“ und „DROID“, die Forschung zur Integration und Weiterentwicklung von Modellen vorschlagen, dass auch das Interesse an Methoden wächst, mit denen sich die Leistung von Modellen kontinuierlich verbessern und optimieren lässt. Das weist nicht nur für LLMs, sondern auch für die Weiterentwicklung und Integration verschiedenster KI-Technologien eine wichtige Richtung, die voraussichtlich auch in künftiger Forschung ein zentrales Thema bleiben wird. Daher liefern die in dieser Woche ausgewählten Papers wertvolle Einblicke in aktuelle Trends und zukünftige Entwicklungen der LLM-bezogenen Forschung.

Grok-1

Paper-Vorstellung

Ein Mixture-of-Experts-Modell mit 314B Parametern, einschließlich der offenen Veröffentlichung der Basis-Modellgewichte und der Netzwerkarchitektur; das MoE-Modell aktiviert für ein gegebenes Token 25 % der Gewichte, und der Pretraining-Cutoff liegt im Oktober 2023.

a mixture-of-experts model with 314B parameters which includes the open release of the base model weights and network architecture; the MoE model activates 25% of the weights for a given token and its pretraining cutoff date is October 2023.

Paper-Link

https://x.ai/blog/grok-os

Weiterführende Lektüre

https://discuss.pytorch.kr/t/x-ai-grok/3793/1

https://x.com/ibab_ml/status/1769447989192675748

Evolutionäre Optimierung von Modell-Merging-Rezepten / Evolutionary Optimization of Model Merging Recipes

Paper-Vorstellung

Ein Ansatz zur Automatisierung der Entwicklung von Foundation Models durch den Einsatz evolutionärer Verfahren zur Kombination von Open-Source-Modellen; er erleichtert domänenübergreifendes Merging, wobei ein japanisches Math-LLM auf japanischen LLM-Benchmarks State-of-the-Art-Leistung erreichte und sogar Modelle mit deutlich mehr Parametern übertraf, obwohl es nicht explizit für diese Aufgaben trainiert wurde.

an approach for automating foundation model development using evolution to combine open-source models; facilitates cross-domain merging where a Japanese Math LLM achieved state-of-the-art performance on Japanese LLM benchmarks, even surpassing models with significantly more parameters, despite not explicitly trained for these tasks.

Abstract

Wir stellen eine neuartige Anwendung evolutionärer Algorithmen zur Automatisierung der Erstellung leistungsfähiger Foundation Models vor. Obwohl sich Model Merging aufgrund seiner Kosteneffizienz als vielversprechender Ansatz für die LLM-Entwicklung herauskristallisiert hat, ist es derzeit auf menschliche Intuition und Domänenwissen angewiesen, was sein Potenzial begrenzt. Hier schlagen wir einen evolutionären Ansatz vor, der diese Einschränkung überwindet, indem er wirksame Kombinationen vielfältiger Open-Source-Modelle automatisch entdeckt und ihre kollektive Intelligenz nutzt, ohne umfangreiche zusätzliche Trainingsdaten oder Rechenressourcen zu benötigen. Unser Ansatz arbeitet sowohl im Parameterraum als auch im Datenflussraum und ermöglicht damit Optimierungen, die über die bloßen Gewichte einzelner Modelle hinausgehen. Dieser Ansatz erleichtert sogar domänenübergreifendes Merging und kann Modelle wie ein japanisches LLM mit mathematischen Schlussfolgerungsfähigkeiten erzeugen. Überraschenderweise erreichte unser japanisches Math-LLM State-of-the-Art-Leistung auf einer Vielzahl etablierter japanischer LLM-Benchmarks und übertraf sogar Modelle mit erheblich mehr Parametern, obwohl es nicht explizit für solche Aufgaben trainiert wurde. Darüber hinaus demonstriert ein mit unserem Ansatz erzeugtes kulturell sensibles japanisches VLM seine Wirksamkeit bei der Beschreibung kulturspezifischer japanischer Inhalte und übertrifft dabei frühere japanische VLMs. Diese Arbeit liefert der Open-Source-Community nicht nur neue State-of-the-Art-Modelle zurück, sondern führt auch ein neues Paradigma für die automatisierte Modellkomposition ein und ebnet damit den Weg zur Erforschung alternativer, effizienter Ansätze für die Entwicklung von Foundation Models.

We present a novel application of evolutionary algorithms to automate the creation of powerful foundation models. While model merging has emerged as a promising approach for LLM development due to its cost-effectiveness, it currently relies on human intuition and domain knowledge, limiting its potential. Here, we propose an evolutionary approach that overcomes this limitation by automatically discovering effective combinations of diverse open-source models, harnessing their collective intelligence without requiring extensive additional training data or compute. Our approach operates in both parameter space and data flow space, allowing for optimization beyond just the weights of the individual models. This approach even facilitates cross-domain merging, generating models like a Japanese LLM with Math reasoning capabilities. Surprisingly, our Japanese Math LLM achieved state-of-the-art performance on a variety of established Japanese LLM benchmarks, even surpassing models with significantly more parameters, despite not being explicitly trained for such tasks. Furthermore, a culturally-aware Japanese VLM generated through our approach demonstrates its effectiveness in describing Japanese culture-specific content, outperforming previous Japanese VLMs. This work not only contributes new state-of-the-art models back to the open-source community, but also introduces a new paradigm for automated model composition, paving the way for exploring alternative, efficient approaches to foundation model development.

Paper-Link

https://arxiv.org/abs/2403.13187

Weiterführende Lektüre

https://x.com/SakanaAILabs/status/1770613032198279663

TacticAI: KI-Assistent für Fußballtaktik / TacticAI: an AI assistant for football tactics

Paper-Einführung

Ein KI-gestütztes Assistenzsystem für Fußballtaktik, das in Zusammenarbeit mit Fachexperten des Liverpool FC entwickelt und evaluiert wurde; es bietet Trainern eine Möglichkeit, alternative Spieleraufstellungen für Eckballroutinen zu sampeln und zu erkunden sowie die Taktik mit der höchsten vorhergesagten Erfolgswahrscheinlichkeit auszuwählen. Die Modellvorschläge von TacticAI werden in 90 % der Fälle gegenüber bestehenden Taktiken bevorzugt, und das System bietet eine effektive Suche für Eckballsituationen.

an AI-powered assistant for football tactics developed and evaluated in collaboration with domain experts from Liverpool FC; the systems offer coaches a way to sample and explore alternative player setups for a corner kick routine and select the tactic with the highest predicted likelihood of success; TacticAI’s model suggestions are favored over existing tactics 90% of the time and it offers an effective corner kick retrieval system.

Abstract des Papers

Zentrale Muster der von gegnerischen Teams eingesetzten Taktiken zu identifizieren und wirksame Gegenmaßnahmen zu entwickeln, steht im Mittelpunkt des modernen Fußballs. Dies algorithmisch umzusetzen, ist jedoch weiterhin eine offene Forschungsherausforderung. Um diesen ungedeckten Bedarf zu adressieren, schlagen wir TacticAI vor, einen KI-Assistenten für Fußballtaktik, der in enger Zusammenarbeit mit Fachexperten des Liverpool FC entwickelt und evaluiert wurde. Wir konzentrieren uns auf die Analyse von Eckbällen, da sie Trainern die direktesten Möglichkeiten für Eingriffe und Verbesserungen bieten. TacticAI vereint sowohl eine prädiktive als auch eine generative Komponente und ermöglicht es Trainern dadurch, alternative Spieleraufstellungen für jede Eckballroutine effektiv zu sampeln und zu erkunden sowie diejenigen mit der höchsten vorhergesagten Erfolgswahrscheinlichkeit auszuwählen. Wir validieren TacticAI anhand mehrerer relevanter Benchmark-Aufgaben: Vorhersage von Passempfängern und Torschussversuchen sowie Empfehlungen zur Anpassung von Spielerpositionen. Der Nutzen von TacticAI wurde durch eine qualitative Studie mit Fußballexperten des Liverpool FC bestätigt. Wir zeigen, dass die Modellvorschläge von TacticAI nicht nur nicht von realen Taktiken zu unterscheiden sind, sondern auch in 90 % der Fälle gegenüber bestehenden Taktiken bevorzugt werden und dass TacticAI ein effektives Suchsystem für Eckbälle bietet. TacticAI erzielt diese Ergebnisse trotz der begrenzten Verfügbarkeit von Goldstandard-Daten und erreicht Dateneffizienz durch geometrisches Deep Learning.

Identifying key patterns of tactics implemented by rival teams, and developing effective responses, lies at the heart of modern football. However, doing so algorithmically remains an open research challenge. To address this unmet need, we propose TacticAI, an AI football tactics assistant developed and evaluated in close collaboration with domain experts from Liverpool FC. We focus on analysing corner kicks, as they offer coaches the most direct opportunities for interventions and improvements. TacticAI incorporates both a predictive and a generative component, allowing the coaches to effectively sample and explore alternative player setups for each corner kick routine and to select those with the highest predicted likelihood of success. We validate TacticAI on a number of relevant benchmark tasks: predicting receivers and shot attempts and recommending player position adjustments. The utility of TacticAI is validated by a qualitative study conducted with football domain experts at Liverpool FC. We show that TacticAI’s model suggestions are not only indistinguishable from real tactics, but also favoured over existing tactics 90% of the time, and that TacticAI offers an effective corner kick retrieval system. TacticAI achieves these results despite the limited availability of gold-standard data, achieving data efficiency through geometric deep learning.

Paper-Link

https://www.nature.com/articles/s41467-024-45965-x

Weiterführende Lektüre

https://discuss.pytorch.kr/t/tacticai-ai-feat-deepmind-fc/3841

https://x.com/GoogleDeepMind/status/1770121564085707082

Tool Use in LLMs / Tool Use in LLMs

Paper-Einführung

Bietet einen Überblick über Tool Use in LLMs, einschließlich einer formalen Definition des Tool-Use-Paradigmas, Szenarien, in denen LLMs Tool Use einsetzen, und Aufgaben, für die sich dieser Ansatz gut eignet; außerdem werden komplexe Tool-Nutzung analysiert sowie Testbeds und Evaluationsmetriken aus Arbeiten zum LM-Tooling zusammengefasst.

provides an overview of tool use in LLMs, including a formal definition of the tool-use paradigm, scenarios where LLMs leverage tool usage, and for which tasks this approach works well; it also provides an analysis of complex tool usage and summarize testbeds and evaluation metrics across LM tooling works.

Abstract des Papers

Sprachmodelle (LMs) sind leistungsfähig, werden aber meist für Textgenerierungsaufgaben eingesetzt. Tools haben ihre Leistung bei Aufgaben, die komplexe Fähigkeiten erfordern, erheblich verbessert. Allerdings verwenden viele Arbeiten den Begriff „Tool“ auf unterschiedliche Weise, was die Frage aufwirft: Was ist überhaupt ein Tool? Und weiter: Wo und wie helfen Tools LMs? In dieser Umfrage liefern wir eine einheitliche Definition von Tools als externen Programmen, die von LMs verwendet werden, und führen eine systematische Untersuchung von Tooling-Szenarien und -Ansätzen für LMs durch. Auf Grundlage dieser Untersuchung analysieren wir empirisch die Effizienz verschiedener Tooling-Methoden, indem wir den erforderlichen Compute-Aufwand und die Leistungsgewinne auf verschiedenen Benchmarks messen, und heben einige Herausforderungen sowie potenzielle zukünftige Forschungsrichtungen in diesem Bereich hervor.

Language models (LMs) are powerful yet mostly for text generation tasks. Tools have substantially enhanced their performance for tasks that require complex skills. However, many works adopt the term “tool” in different ways, raising the question: What is a tool anyway? Subsequently, where and how do tools help LMs? In this survey, we provide a unified definition of tools as external programs used by LMs, and perform a systematic review of LM tooling scenarios and approaches. Grounded on this review, we empirically study the efficiency of various tooling methods by measuring their required compute and performance gains on various benchmarks, and highlight some challenges and potential future research in the field.

Paper-Link

https://zorazrw.github.io/files/WhatAreToolsAnyway.pdf

Mehr dazu

https://x.com/omarsar0/status/1770497515898433896

RankPrompt: Sprachmodelle durch schrittweise Vergleiche zu besseren Schlussfolgerern machen / RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners

Paper-Einführung

Vorgestellt wird RankPrompt, eine Prompting-Methode, mit der LLMs ihre Antworten ohne zusätzliche Ressourcen selbst ranken können. Dieser Self-Ranking-Ansatz ordnet Kandidaten durch eine systematische, schrittweise vergleichende Bewertung ein und scheint gut zu funktionieren, da er die Fähigkeit von LLMs nutzt, Vergleichsketten als Demonstrationen zu erzeugen. RankPrompt verbessert die Reasoning-Leistung von ChatGPT und GPT-4 bei vielen arithmetischen und Common-Sense-Reasoning-Aufgaben deutlich.

proposes RankPrompt, a prompting method to enable LLMs to self-rank their responses without additional resources; this self-ranking approach ranks candidates through a systematic, step-by-step comparative evaluation; it seems to work well as it leverages the capabilities of LLMs to generate chains of comparisons as demonstrations; RankPrompt significantly enhances the reasoning performance of ChatGPT and GPT-4 on many arithmetic and commonsense reasoning tasks.

Paper-Abstract

Große Sprachmodelle (LLMs) haben bei verschiedenen Reasoning-Aufgaben beeindruckende Leistungen erzielt. Doch selbst modernste LLMs wie ChatGPT sind während ihrer Schlussfolgerungsprozesse anfällig für logische Fehler. Bestehende Lösungen, etwa der Einsatz aufgabenspezifischer Verifizierer oder Abstimmungen über mehrere Reasoning-Pfade, erfordern entweder umfangreiche menschliche Annotationen oder versagen in Szenarien mit inkonsistenten Antworten. Um diese Herausforderungen zu adressieren, führen wir RankPrompt ein, eine neue Prompting-Methode, die es LLMs ermöglicht, ihre Antworten ohne zusätzliche Ressourcen selbst zu ranken. RankPrompt zerlegt das Ranking-Problem in eine Reihe von Vergleichen zwischen unterschiedlichen Antworten und nutzt dabei die inhärenten Fähigkeiten von LLMs, Vergleichsketten als kontextuelle Beispiele zu erzeugen. Unsere Experimente über 11 arithmetische und Common-Sense-Reasoning-Aufgaben hinweg zeigen, dass RankPrompt die Reasoning-Leistung von ChatGPT und GPT-4 deutlich verbessert, mit Steigerungen von bis zu 13 %. Darüber hinaus erzielt RankPrompt hervorragende Ergebnisse bei LLM-basierten automatischen Bewertungen für offene Aufgaben und stimmt im AlpacaEval-Datensatz in 74 % der Fälle mit menschlichen Urteilen überein. Es zeigt außerdem Robustheit gegenüber Variationen in Antwortreihenfolge und Konsistenz. Insgesamt bestätigen unsere Ergebnisse RankPrompt als eine effektive Methode, um qualitativ hochwertiges Feedback aus Sprachmodellen zu gewinnen.

Large Language Models (LLMs) have achieved impressive performance across various reasoning tasks. However, even state-of-the-art LLMs such as ChatGPT are prone to logical errors during their reasoning processes. Existing solutions, such as deploying task-specific verifiers or voting over multiple reasoning paths, either require extensive human annotations or fail in scenarios with inconsistent responses. To address these challenges, we introduce RankPrompt, a new prompting method that enables LLMs to self-rank their responses without additional resources. RankPrompt breaks down the ranking problem into a series of comparisons among diverse responses, leveraging the inherent capabilities of LLMs to generate chains of comparison as contextual exemplars. Our experiments across 11 arithmetic and commonsense reasoning tasks show that RankPrompt significantly enhances the reasoning performance of ChatGPT and GPT-4, with improvements of up to 13%. Moreover, RankPrompt excels in LLM-based automatic evaluations for open-ended tasks, aligning with human judgments 74% of the time in the AlpacaEval dataset. It also exhibits robustness to variations in response order and consistency. Collectively, our results validate RankPrompt as an effective method for eliciting high-quality feedback from language models.

Paper-Link

https://arxiv.org/abs/2403.12373

Mehr dazu

https://x.com/omarsar0/status/1770492690129359135

LLM4Decompile: Binärcode mit großen Sprachmodellen dekompilieren / LLM4Decompile: Decompiling Binary Code with Large Language Models

Paper-Einführung

Eine Familie von Open-Access-Decompilation-LLMs mit 1 bis 3,3 Milliarden Parametern; diese Modelle wurden mit 4 Milliarden Tokens aus C-Quellcode und zugehörigem Assemblercode trainiert; die Autoren stellen außerdem Decompile-Eval vor, einen Datensatz zur Bewertung von Re-Kompilierbarkeit und erneuter Ausführbarkeit bei der Dekompilierung sowie zur Bewertung aus der Perspektive der Programmsemantik; LLM4Decompile demonstriert die Fähigkeit, 21 % des Assemblercodes zu dekompilieren, und erzielt damit eine um 50 % bessere Leistung als GPT-4.

a family of open-access decompilation LLMs ranging from 1B to 33B parameters; these models are trained on 4 billion tokens of C source code and corresponding assembly code; the authors also introduce Decompile-Eval, a dataset for assessing re-compatibility and re-executability for decompilation and evaluating with a perspective of program semantics; LLM4Decompile demonstrates the capability to decompile 21% of the assembly code, achieving a 50% improvement over GPT-4.

Paper Abstract

Dekompilierung zielt darauf ab, kompilierten Code in für Menschen lesbaren Quellcode zurückzuverwandeln, hat dabei jedoch mit Details wie Namen und Struktur zu kämpfen. Große Sprachmodelle (LLMs) zeigen Potenzial für Programmieraufgaben, was ihre Anwendung auf die Dekompilierung naheliegt. Es gibt jedoch kein Open-Source-LLM für Dekompilierung. Zudem berücksichtigen bestehende Bewertungssysteme für Dekompilierung hauptsächlich die Genauigkeit auf Token-Ebene und ignorieren damit weitgehend die Ausführbarkeit des Codes, die die wichtigste Eigenschaft jedes Programms ist. Daher veröffentlichen wir die ersten Open-Access-Decompilation-LLMs mit 1 bis 33 Milliarden Parametern, die auf 4 Milliarden Tokens aus C-Quellcode und dem entsprechenden Assemblercode vortrainiert wurden. Diese Open-Source-LLMs können als Baselines für die weitere Entwicklung in diesem Bereich dienen. Um eine praxisnahe Programmbewertung sicherzustellen, stellen wir Decompile-Eval vor, den ersten Datensatz, der Re-Kompilierbarkeit und erneute Ausführbarkeit für Dekompilierung berücksichtigt. Dieser Benchmark unterstreicht, wie wichtig es ist, Dekompilierungsmodelle aus der Perspektive der Programmsemantik zu bewerten. Experimente zeigen, dass unser LLM4Decompile 21 % des Assemblercodes präzise dekompilieren kann, was einer um 50 % besseren Leistung als bei GPT-4 entspricht. Unser Code, der Datensatz und die Modelle sind unter https://github.com/albertan017/LLM4Decompile verfügbar.

Decompilation aims to restore compiled code to human-readable source code, but struggles with details like names and structure. Large language models (LLMs) show promise for programming tasks, motivating their application to decompilation. However, there does not exist any open-source LLM for decompilation. Moreover, existing decompilation evaluation systems mainly consider token-level accuracy and largely ignore code executability, which is the most important feature of any program. Therefore, we release the first open-access decompilation LLMs ranging from 1B to 33B pre-trained on 4 billion tokens of C source code and the corresponding assembly code. The open-source LLMs can serve as baselines for further development in the field. To ensure practical program evaluation, we introduce Decompile-Eval, the first dataset that considers re-compilability and re-executability for decompilation. The benchmark emphasizes the importance of evaluating the decompilation model from the perspective of program semantics. Experiments indicate that our LLM4Decompile has demonstrated the capability to accurately decompile 21% of the assembly code, which achieves a 50% improvement over GPT-4. Our code, dataset, and models are released at https://github.com/albertan017/LLM4Decompile

Paper Link

https://arxiv.org/abs/2403.05286v1

Weiterlesen

https://discuss.pytorch.kr/t/llm4decompile-llm-decompile/3809

https://github.com/albertan017/LLM4Decompile

https://x.com/omarsar0/status/1771218791399092351

Agent-FLAN: Entwurf von Daten und effektiven Agent-Tuning-Methoden für große Sprachmodelle / Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models

Paper-Einführung

Entwirft Daten und Methoden zur effektiven Feinabstimmung von Sprachmodellen für Agenten, bezeichnet als Agent-FLAN; damit erreicht Llama2-7B über verschiedene Agenten-Evaluierungsdatensätze hinweg eine um 3,5 % bessere Leistung als frühere Bestleistungen; Agent-FLAN mindert Halluzinationsprobleme beim Skalieren der Modellgröße deutlich und verbessert bei generell besserer LLM-Leistung die Agentenfähigkeiten konsistent;

Designs data and methods to effectively fine-tune language models for agents, referred to as Agent-FLAN; this enables Llama2-7B to outperform prior best works by 3.5% across various agent evaluation datasets; Agent-FLAN greatly alleviates the hallucination issues and consistently improves the agent capability of LLMs when scaling model sizes while generally improving the LLM;

Paper Abstract

Open-Source-Großsprachmodelle (LLMs) haben in verschiedenen NLP-Aufgaben große Erfolge erzielt, sind jedoch beim Einsatz als Agenten API-basierten Modellen noch deutlich unterlegen. Wie sich Agentenfähigkeiten in allgemeine LLMs integrieren lassen, ist zu einem wichtigen und dringenden Problem geworden. Dieses Paper liefert zunächst drei zentrale Beobachtungen: (1) Das aktuelle Trainingskorpus für Agenten ist sowohl mit Formatbefolgung als auch mit agentischem Reasoning verflochten und weicht damit erheblich von der Verteilung der Vortrainingsdaten ab; (2) LLMs zeigen unterschiedliche Lerngeschwindigkeiten bei den für Agentenaufgaben erforderlichen Fähigkeiten; und (3) aktuelle Ansätze haben Nebenwirkungen, wenn sie die Fähigkeiten von Agenten durch das Einführen von Halluzinationen verbessern. Auf Grundlage dieser Erkenntnisse wird Agent-FLAN vorgeschlagen, um Sprachmodelle für Agenten effektiv feinzujustieren. Durch eine sorgfältige Zerlegung und Neugestaltung des Trainingskorpus ermöglicht Agent-FLAN, dass Llama2-7B frühere Bestleistungen über verschiedene Evaluierungsdatensätze für Agenten hinweg um 3,5% übertrifft. Mit umfassend konstruierten Negativbeispielen lindert Agent-FLAN Halluzinationsprobleme auf Basis des etablierten Evaluierungsbenchmarks deutlich. Außerdem verbessert es beim Skalieren der Modellgrößen die Agentenfähigkeit von LLMs konsistent und steigert zugleich leicht deren allgemeine Fähigkeiten. Der Code ist unter https://github.com/InternLM/Agent-FLAN verfügbar.

Open-sourced Large Language Models (LLMs) have achieved great success in various NLP tasks, however, they are still far inferior to API-based models when acting as agents. How to integrate agent ability into general LLMs becomes a crucial and urgent problem. This paper first delivers three key observations: (1) the current agent training corpus is entangled with both formats following and agent reasoning, which significantly shifts from the distribution of its pre-training data; (2) LLMs exhibit different learning speeds on the capabilities required by agent tasks; and (3) current approaches have side-effects when improving agent abilities by introducing hallucinations. Based on the above findings, we propose Agent-FLAN to effectively Fine-tune LANguage models for Agents. Through careful decomposition and redesign of the training corpus, Agent-FLAN enables Llama2-7B to outperform prior best works by 3.5% across various agent evaluation datasets. With comprehensively constructed negative samples, Agent-FLAN greatly alleviates the hallucination issues based on our established evaluation benchmark. Besides, it consistently improves the agent capability of LLMs when scaling model sizes while slightly enhancing the general capability of LLMs. The code will be available at https://github.com/InternLM/Agent-FLAN.

Paper-Link

https://arxiv.org/abs/2403.12881v1

Weiterlesen

https://github.com/InternLM/Agent-FLAN

https://x.com/_akhaliq/status/1770302813152690259

Wenn Logits eines API-geschützten LLM proprietäre Informationen preisgeben / Logits of API-Protected LLMs Leak Proprietary Information

Paper-Vorstellung

Es wird gezeigt, dass sich mithilfe von Logits große Mengen nicht öffentlicher Informationen über ein API-geschütztes LLM gewinnen lassen. Mit einer relativ kleinen Zahl von API-Anfragen schätzt der Ansatz die Embedding-Größe von OpenAIs gpt-3.5-turbo auf etwa 4.096; außerdem schlägt das Paper Schutzmechanismen gegen die verwendeten Angriffe vor.

shows that it’s possible to learn a large amount of non-public information about an API-protected LLM using the logits; with a relatively small number of API queries, the approach estimates that the embedding size of OpenAI's gpt-3.5-turbo to be about 4,096; the paper also proposes guardrails against the attacks used.

Abstract

Die Kommerzialisierung großer Sprachmodelle (LLMs) hat dazu geführt, dass hochrangiger, ausschließlich API-basierter Zugriff auf proprietäre Modelle zur gängigen Praxis geworden ist. Diese Studie zeigt, dass sich selbst unter konservativen Annahmen über die Modellarchitektur mit relativ wenigen API-Abfragen überraschend viele nicht öffentliche Informationen über ein durch APIs geschütztes LLM erlernen lassen, etwa für weniger als 1.000 US-Dollar im Fall von OpenAIs gpt-3.5-turbo. Im Zentrum der Ergebnisse steht die Beobachtung, dass die meisten modernen LLMs unter einem Softmax-Bottleneck leiden, wodurch die Modellausgaben auf einen linearen Unterraum des gesamten Ausgaberaums beschränkt werden. Wir zeigen, dass sich daraus ein Model Image beziehungsweise eine Model Signature ableiten lässt, die zu geringen Kosten mehrere Fähigkeiten ermöglicht: die Hidden Size des LLM effizient zu bestimmen, Ausgaben für den gesamten Wortschatz zu erhalten, verschiedene Modell-Updates zu erkennen und voneinander zu unterscheiden, das Ursprungs-LLM anhand einer einzelnen vollständigen LLM-Ausgabe zu identifizieren und sogar die Parameter der Output-Layer zu schätzen. Empirische Untersuchungen bestätigen die Wirksamkeit dieser Methoden und ermöglichen es uns, die Embedding-Größe von OpenAIs gpt-3.5-turbo auf etwa 4.096 zu schätzen. Abschließend diskutieren wir, wie LLM-Anbieter sich gegen solche Angriffe schützen können und wie diese Fähigkeiten nicht als Bug, sondern als Feature verstanden werden können, indem sie mehr Transparenz und Rechenschaftspflicht ermöglichen.

The commercialization of large language models (LLMs) has led to the common practice of high-level API-only access to proprietary models. In this work, we show that even with a conservative assumption about the model architecture, it is possible to learn a surprisingly large amount of non-public information about an API-protected LLM from a relatively small number of API queries (e.g., costing under $1,000 for OpenAI's gpt-3.5-turbo). Our findings are centered on one key observation: most modern LLMs suffer from a softmax bottleneck, which restricts the model outputs to a linear subspace of the full output space. We show that this lends itself to a model image or a model signature which unlocks several capabilities with affordable cost: efficiently discovering the LLM's hidden size, obtaining full-vocabulary outputs, detecting and disambiguating different model updates, identifying the source LLM given a single full LLM output, and even estimating the output layer parameters. Our empirical investigations show the effectiveness of our methods, which allow us to estimate the embedding size of OpenAI's gpt-3.5-turbo to be about 4,096. Lastly, we discuss ways that LLM providers can guard against these attacks, as well as how these capabilities can be viewed as a feature (rather than a bug) by allowing for greater transparency and accountability.

Paper-Link

https://arxiv.org/abs/2403.09539

Weiterführende Lektüre

https://x.com/DimitrisPapail/status/1768654579254579385

DROID: Groß angelegter Robotik-Manipulationsdatensatz aus realen Umgebungen / DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset

Paper-Vorstellung

Ein Open-Source-Datensatz für groß angelegte Robotik-Manipulation zum Trainieren und Entwickeln leistungsfähigerer und robusterer Robotik-Manipulations-Policies; er umfasst 76.000 Demonstrations-Trajektorien, die in 564 Szenen und 86 Aufgaben gesammelt wurden; das Training mit DROID kann zu leistungsstärkeren Policies und besserer Generalisierung führen.

an open-source, large-scale robot manipulation dataset to train and build more capable and robust robotic manipulation policies; it contains 76K demonstration trajectories, collected across 564 scenes and 86 tasks; training with DROID leads to higher performing policies and generalization.

Paper-Abstract

Die Erstellung großer, vielfältiger und hochwertiger Datensätze für die Robotik-Manipulation ist ein wichtiger Meilenstein auf dem Weg zu leistungsfähigeren und robusteren Robotik-Manipulations-Policies. Solche Datensätze zu erstellen ist jedoch schwierig: Das Sammeln von Robotik-Manipulationsdaten in vielfältigen Umgebungen bringt logistische und sicherheitsrelevante Herausforderungen mit sich und erfordert erhebliche Investitionen in Hardware und menschliche Arbeitskraft. Daher werden selbst die heute allgemeinsten Robotik-Manipulations-Policies meist auf Daten trainiert, die nur in einer kleinen Zahl von Umgebungen mit begrenzter Szenen- und Aufgabenvielfalt gesammelt wurden. In dieser Arbeit stellen wir DROID (Distributed Robot Interaction Dataset) vor, einen vielfältigen Datensatz für Robotik-Manipulation mit 76.000 Demonstrations-Trajektorien beziehungsweise 350 Stunden Interaktionsdaten, die über 12 Monate hinweg von 50 Datensammlerinnen und Datensammlern in Nordamerika, Asien und Europa in 564 Szenen und 84 Aufgaben gesammelt wurden. Wir zeigen, dass das Training mit DROID zu Policies mit höherer Leistung und verbesserter Generalisierungsfähigkeit führt. Wir veröffentlichen den vollständigen Datensatz, den Code zum Policy-Learning und eine detaillierte Anleitung zur Reproduktion unseres Robotik-Hardware-Setups als Open Source.

The creation of large, diverse, high-quality robot manipulation datasets is an important stepping stone on the path toward more capable and robust robotic manipulation policies. However, creating such datasets is challenging: collecting robot manipulation data in diverse environments poses logistical and safety challenges and requires substantial investments in hardware and human labour. As a result, even the most general robot manipulation policies today are mostly trained on data collected in a small number of environments with limited scene and task diversity. In this work, we introduce DROID (Distributed Robot Interaction Dataset), a diverse robot manipulation dataset with 76k demonstration trajectories or 350 hours of interaction data, collected across 564 scenes and 84 tasks by 50 data collectors in North America, Asia, and Europe over the course of 12 months. We demonstrate that training with DROID leads to policies with higher performance and improved generalization ability. We open source the full dataset, policy learning code, and a detailed guide for reproducing our robot hardware setup.

Paper-Link

https://arxiv.org/abs/2403.12945

Weiterführende Lektüre

https://x.com/chelseabfinn/status/1770311755140575413

RAFT: Sprachmodelle für domänenspezifisches RAG anpassen / RAFT: Adapting Language Model to Domain Specific RAG

Paper-Vorstellung

Durch die Kombination der Vorteile von RAG und Fine-Tuning wird die Fähigkeit eines Modells verbessert, Fragen in domäneninternen „Open-Book“-Settings zu beantworten; in Verbindung mit RAFTs CoT-artigen Antworten hilft dies außerdem, das Schlussfolgern zu verbessern.

combines the benefits of RAG and fine-tuning to improve a model's ability to answer questions in "open-book" in-domain settings; combining it with RAFT's CoT-style response helps to improve reasoning.

Abstract

Das Vortraining großer Sprachmodelle (LLMs) auf großen Korpora aus Textdaten ist inzwischen zum Standardparadigma geworden. Wenn diese LLMs in vielen Downstream-Anwendungen eingesetzt werden, ist es üblich, zusätzlich neues Wissen (z. B. zeitkritische Nachrichten oder privates Domänenwissen) in das vortrainierte Modell einzubringen – entweder durch RAG-basiertes Prompting oder durch Fine-Tuning. Die optimale Methodik, mit der das Modell solches neues Wissen aufnimmt, ist jedoch weiterhin eine offene Frage. In diesem Paper stellen wir Retrieval Augmented FineTuning (RAFT) vor, ein Trainingsrezept, das die Fähigkeit des Modells verbessert, Fragen in domäneninternen „Open-Book“-Settings zu beantworten. Bei RAFT wird dem Modell zu einer Frage und einer Menge abgerufener Dokumente beigebracht, diejenigen Dokumente zu ignorieren, die nicht zur Beantwortung der Frage beitragen; diese nennen wir Ablenkungsdokumente. RAFT erreicht dies, indem es wörtlich die richtige Sequenz aus dem relevanten Dokument zitiert, die bei der Beantwortung der Frage hilft. In Kombination mit RAFTs Chain-of-Thought-artigen Antworten trägt dies dazu bei, die Schlussfolgerungsfähigkeit des Modells zu verbessern. Bei domänenspezifischem RAG verbessert RAFT die Modellleistung konsistent über die Datensätze PubMed, HotpotQA und Gorilla hinweg und liefert damit ein Post-Training-Rezept, um vortrainierte LLMs für domäneninternes RAG zu verbessern. Code und Demo von RAFT sind als Open Source unter github.com/ShishirPatil/gorilla verfügbar.

Pretraining Large Language Models (LLMs) on large corpora of textual data is now a standard paradigm. When using these LLMs for many downstream applications, it is common to additionally bake in new knowledge (e.g., time-critical news, or private domain knowledge) into the pretrained model either through RAG-based-prompting, or fine-tuning. However, the optimal methodology for the model to gain such new knowledge remains an open question. In this paper, we present Retrieval Augmented FineTuning (RAFT), a training recipe that improves the model's ability to answer questions in a "open-book" in-domain settings. In RAFT, given a question, and a set of retrieved documents, we train the model to ignore those documents that don't help in answering the question, which we call, distractor documents. RAFT accomplishes this by citing verbatim the right sequence from the relevant document that would help answer the question. This coupled with RAFT's chain-of-thought-style response helps improve the model's ability to reason. In domain-specific RAG, RAFT consistently improves the model's performance across PubMed, HotpotQA, and Gorilla datasets, presenting a post-training recipe to improve pre-trained LLMs to in-domain RAG. RAFT's code and demo are open-sourced at github.com/ShishirPatil/gorilla.

Dieser Beitrag wurde mit einem GPT-Modell zusammengestellt; er kann daher Fehler enthalten. Bitte ziehen Sie auch den Originaltext am Ende des Beitrags zurate. Wenn Ihnen beim Lesen unnatürliche Formulierungen oder Fehler auffallen, teilen Sie sie bitte in den Kommentaren mit.

⚠️Werbung⚠️: Fanden Sie diesen von der PyTorch Korea User Group zusammengestellten Beitrag nützlich? Wenn Sie Mitglied werden, schicken wir Ihnen wichtige Beiträge per E-Mail! (Standard ist Weekly, aber eine Umstellung auf Daily ist ebenfalls möglich.)

[2024/03/18 ~ 03/24] Die wichtigsten ML-Papers dieser Woche (Top ML Papers of the Week)

Grok-1

Paper-Vorstellung

Paper-Link

Weiterführende Lektüre

Evolutionäre Optimierung von Modell-Merging-Rezepten / Evolutionary Optimization of Model Merging Recipes

Paper-Vorstellung

Abstract

Paper-Link

Weiterführende Lektüre

TacticAI: KI-Assistent für Fußballtaktik / TacticAI: an AI assistant for football tactics

Paper-Einführung

Abstract des Papers

Paper-Link

Weiterführende Lektüre

Tool Use in LLMs / Tool Use in LLMs

Paper-Einführung

Abstract des Papers

Paper-Link

Mehr dazu

RankPrompt: Sprachmodelle durch schrittweise Vergleiche zu besseren Schlussfolgerern machen / RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners

Paper-Einführung

Paper-Abstract

Paper-Link

Mehr dazu

LLM4Decompile: Binärcode mit großen Sprachmodellen dekompilieren / LLM4Decompile: Decompiling Binary Code with Large Language Models

Paper-Einführung

Paper Abstract

Paper Link

Weiterlesen

Agent-FLAN: Entwurf von Daten und effektiven Agent-Tuning-Methoden für große Sprachmodelle / Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models

Paper-Einführung

Paper Abstract

Paper-Link

Weiterlesen

Wenn Logits eines API-geschützten LLM proprietäre Informationen preisgeben / Logits of API-Protected LLMs Leak Proprietary Information

Paper-Vorstellung

Abstract

Paper-Link

Weiterführende Lektüre

DROID: Groß angelegter Robotik-Manipulationsdatensatz aus realen Umgebungen / DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset

Paper-Vorstellung

Paper-Abstract

Paper-Link

Weiterführende Lektüre

RAFT: Sprachmodelle für domänenspezifisches RAG anpassen / RAFT: Adapting Language Model to Domain Specific RAG

Paper-Vorstellung

Abstract

Paper-Link

Weiterlesen

Original

Verwandte Beiträge

Noch keine Kommentare.