1 Punkte von ninebow 2024-06-24 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Ich habe die wöchentlich von DAIR.AI veröffentlichten Beiträge zu ML-Papers automatisch übersetzt.

  • Ein Blick auf die in dieser Woche ausgewählten Papers zeigt im Wesentlichen zwei große Trends. Zunächst fällt auf, dass sich die meisten Arbeiten auf Themen rund um Natural Language Processing (NLP) konzentrieren. Besonders Methoden zur Verbesserung der Effizienz von Sprachmodellen (LMs), die mit langen Kontexten umgehen, sowie von Information-Retrieval- und Question-Answering-(QA)-Systemen rücken dabei in den Mittelpunkt. So untersucht etwa das Paper „Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?“ die Möglichkeiten von Sprachmodellen beim Verständnis langer Kontexte, während „PlanRAG“ und „From RAG to Rich Parameters“ neue Ansätze zur Verbesserung von Information-Retrieval- und Question-Answering-Systemen vorstellen.

  • Ein weiterer bemerkenswerter Trend sind Versuche, die Memorization von Sprachmodellen zu verringern oder ihre Leistung durch Self-Refine-Prozesse zu verbessern. „Mitigating Memorization in LLMs“ und „Monte Carlos Tree Self-Refine“ sind in dieser Hinsicht besonders beachtenswert. Die Abschwächung von Memorization ist wichtig, damit Sprachmodelle nicht einfach nur Trainingsdaten nachahmen, sondern stärker verallgemeinertes Wissen lernen und kreative Antworten erzeugen können. Das ist einer der Schlüssel, um die Praxistauglichkeit und den Nutzen von Sprachmodellen zu maximieren.

  • Diese Trends werden vermutlich durch verschiedene Faktoren vorangetrieben. Erstens nimmt die Bedeutung von Natural Language Processing im Bereich der künstlichen Intelligenz täglich zu, und der technische Fortschritt in diesem Bereich verläuft rasant. Zweitens wächst mit der enormen Menge an Informationen auch der Bedarf an Technologien, die diese effizient verarbeiten und den Nutzern nützliche Informationen bereitstellen können. Schließlich werden aktuelle Sprachmodelle immer komplexer und leistungsfähiger, zugleich besteht aber weiterhin Bedarf an neuen Ansätzen, um die Probleme zu lösen, mit denen solche Modelle konfrontiert sind. Um diesen Anforderungen gerecht zu werden, suchen Forschende fortlaufend nach neuen Ideen und Methoden, die über bestehende Frameworks hinausgehen.


Claude 3.5 Sonnet / Claude 3.5 Sonnet

Paper-Vorstellung

Ein neues Modell, das bei mehreren gängigen Benchmarks wie MMLU und HumanEval State-of-the-Art-Leistung erreicht, auf mehreren Benchmarks mit Ausnahme von Aufgaben zum Lösen mathematischer Textaufgaben besser abschneidet als Claude 3 Opus und GPT-4o und auch bei Vision-Aufgaben starke Leistung zeigt, was mehrere neue Funktionen wie Bild-Text-Transkription und die Erzeugung von Artefakten ermöglicht.

A new model that achieves state-of-the-art performance on several common benchmarks such as MMLU and HumanEval; it outperforms Claude 3 Opus and GPT-4o on several benchmarks with the exception of math word problem-solving tasks; achieves strong performance on vision tasks which also helps power several new features like image-text transcription and generation of artifacts.

Paper-Link

https://www.anthropic.com/news/claude-3-5-sonnet

Weiterführende Links

https://discuss.pytorch.kr/t/gn-claude-3-5-sonnet-gpt4o/4665

https://x.com/AnthropicAI/status/1803790676988920098


DeepSeek-Coder-V2

Paper-Vorstellung

Konkurriert bei Aufgaben zur Code- und Mathematikgenerierung mit Closed-Source-Modellen, erreicht 90,2 % auf HumanEval und 75,7 % auf MATH; laut Bericht liegen diese Ergebnisse über der Leistung von GPT-4-Turbo-0409; umfasst Modelle mit 16B und 236B Parametern bei 128K Kontextlänge.

Competes with closed-sourced models on code and math generation tasks; achieves 90.2% on HumanEval and 75.7% on MATH; these results are higher than GPT-4-Turbo-0409 performance according to their report; includes a 16B and 236B parameter model with 128K context length.

Paper-Abstract

Wir stellen DeepSeek-Coder-V2 vor, ein Open-Source-Mixture-of-Experts-(MoE)-Code-Sprachmodell, das bei codespezifischen Aufgaben eine mit GPT4-Turbo vergleichbare Leistung erreicht. Konkret wurde DeepSeek-Coder-V2 von einem Zwischen-Checkpoint von DeepSeek-V2 aus mit zusätzlichen 6 Billionen Token weiter vortrainiert. Durch dieses fortgesetzte Pre-Training verbessert DeepSeek-Coder-V2 die Coding- und mathematischen Reasoning-Fähigkeiten von DeepSeek-V2 deutlich, während es bei allgemeinen Sprachaufgaben eine vergleichbare Leistung beibehält. Im Vergleich zu DeepSeek-Coder-33B zeigt DeepSeek-Coder-V2 erhebliche Fortschritte in verschiedenen Aspekten codebezogener Aufgaben sowie bei Reasoning- und allgemeinen Fähigkeiten. Darüber hinaus erweitert DeepSeek-Coder-V2 die Unterstützung für Programmiersprachen von 86 auf 338 und verlängert die Kontextlänge von 16K auf 128K. In Standard-Benchmark-Evaluierungen erzielt DeepSeek-Coder-V2 bei Coding- und Mathematik-Benchmarks eine überlegene Leistung gegenüber Closed-Source-Modellen wie GPT4-Turbo, Claude 3 Opus und Gemini 1.5 Pro.

We present DeepSeek-Coder-V2, an open-source Mixture-of-Experts (MoE) code language model that achieves performance comparable to GPT4-Turbo in code-specific tasks. Specifically, DeepSeek-Coder-V2 is further pre-trained from an intermediate checkpoint of DeepSeek-V2 with additional 6 trillion tokens. Through this continued pre-training, DeepSeek-Coder-V2 substantially enhances the coding and mathematical reasoning capabilities of DeepSeek-V2, while maintaining comparable performance in general language tasks. Compared to DeepSeek- Coder-33B, DeepSeek-Coder-V2 demonstrates significant advancements in various aspects of code-related tasks, as well as reasoning and general capabilities. Additionally, DeepSeek-Coder- V2 expands its support for programming languages from 86 to 338, while extending the context length from 16K to 128K. In standard benchmark evaluations, DeepSeek-Coder-V2 achieves superior performance compared to closed-source models such as GPT4-Turbo, Claude 3 Opus, and Gemini 1.5 Pro in coding and math benchmarks.

Paper-Link

https://github.com/deepseek-ai/DeepSeek-Coder-V2/blob/main/paper.pdf

Weiterführende Links

https://github.com/deepseek-ai/DeepSeek-Coder-V2

https://x.com/omarsar0/status/1803078095219417475


TextGrad: automatische „Differenzierung“ über Text / TextGrad: Automatic "Differentiation" via Text

Paper-Vorstellung

Neue Framework für automatische Differenzierung über Backpropagation auf Text-Feedback eines LLM; verbessert einzelne Komponenten, und natürliche Sprache hilft bei der Optimierung des Rechengraphen; funktioniert durch die Bereitstellung einer Zielfunktion, ohne Prompts oder Komponenten anzupassen; beansprucht in Kombination mit GPT4o Bestwerte bei LeetCodeHard und SoTA-Leistung auf GPQA zu erreichen.

A new framework for automatic differentiation through backpropagation on textual feedback provided by an LLM; this improves individual components and the natural language helps to optimize the computation graph; it works by providing an objective function without tuning prompts or components; claims to achieve LeetCodeHard best scores and SoTA performance on GPQA when combined with GPT4o.

Paper-Abstract

KI erlebt einen Paradigmenwechsel, bei dem Durchbrüche durch Systeme erzielt werden, die mehrere Large Language Models (LLMs) und andere komplexe Komponenten orchestrieren. Daher ist die Entwicklung prinzipienbasierter und automatisierter Optimierungsmethoden für zusammengesetzte KI-Systeme eine der wichtigsten neuen Herausforderungen. Neuronale Netze standen in ihren Anfangstagen vor einem ähnlichen Problem, bis Backpropagation und automatische Differenzierung das Feld veränderten, indem sie die Optimierung zu einem Turnkey-Verfahren machten. Davon inspiriert stellen wir TextGrad vor, ein leistungsstarkes Framework, das automatische „Differenzierung“ über Text durchführt. TextGrad propagiert von LLMs bereitgestelltes Text-Feedback rückwärts, um einzelne Komponenten eines zusammengesetzten KI-Systems zu verbessern. In unserem Framework liefern LLMs reichhaltige, allgemeine natürlichsprachliche Vorschläge zur Optimierung von Variablen in Rechengraphen, die von Code-Snippets bis zu molekularen Strukturen reichen. TextGrad folgt der Syntax und den Abstraktionen von PyTorch und ist flexibel sowie einfach zu verwenden. Es funktioniert sofort für eine Vielzahl von Aufgaben, wobei die Nutzer lediglich die Zielfunktion bereitstellen, ohne Komponenten oder Prompts des Frameworks anpassen zu müssen. Wir zeigen die Wirksamkeit und Allgemeingültigkeit von TextGrad in einem breiten Spektrum von Anwendungen, von Question Answering und Moleküloptimierung bis hin zur Planung von Strahlentherapien. Ohne das Framework zu modifizieren, verbessert TextGrad die Zero-Shot-Genauigkeit von GPT-4o bei Google-Proof Question Answering von $51%$ auf $55%$, erzielt einen relativen Leistungsgewinn von $20%$ bei der Optimierung von Lösungen für LeetCode-Hard-Coding-Probleme, verbessert Prompts für Reasoning, entwirft neue arzneimittelähnliche kleine Moleküle mit wünschenswerter in-silico-Bindung und erstellt Behandlungspläne in der Radioonkologie mit hoher Spezifität. TextGrad legt eine Grundlage, um die Entwicklung der nächsten Generation von KI-Systemen zu beschleunigen.

AI is undergoing a paradigm shift, with breakthroughs achieved by systems orchestrating multiple large language models (LLMs) and other complex components. As a result, developing principled and automated optimization methods for compound AI systems is one of the most important new challenges. Neural networks faced a similar challenge in its early days until backpropagation and automatic differentiation transformed the field by making optimization turn-key. Inspired by this, we introduce TextGrad, a powerful framework performing automatic ``differentiation'' via text. TextGrad backpropagates textual feedback provided by LLMs to improve individual components of a compound AI system. In our framework, LLMs provide rich, general, natural language suggestions to optimize variables in computation graphs, ranging from code snippets to molecular structures. TextGrad follows PyTorch's syntax and abstraction and is flexible and easy-to-use. It works out-of-the-box for a variety of tasks, where the users only provide the objective function without tuning components or prompts of the framework. We showcase TextGrad's effectiveness and generality across a diverse range of applications, from question answering and molecule optimization to radiotherapy treatment planning. Without modifying the framework, TextGrad improves the zero-shot accuracy of GPT-4o in Google-Proof Question Answering from $51%$ to $55%$, yields $20%$ relative performance gain in optimizing LeetCode-Hard coding problem solutions, improves prompts for reasoning, designs new druglike small molecules with desirable in silico binding, and designs radiation oncology treatment plans with high specificity. TextGrad lays a foundation to accelerate the development of the next-generation of AI systems.

Paper-Link

https://arxiv.org/abs/2406.07496v1

Weiterführende Lektüre

https://x.com/james_y_zou/status/1800917174124740667


Können Long-Context-Sprachmodelle Retrieval, RAG, SQL und mehr ersetzen? / Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

Paper-Einführung

Führt eine tiefgehende Leistungsanalyse von Long-Context-LLMs für In-Context-Retrieval und -Reasoning durch, stellt zunächst einen Benchmark mit realen Aufgaben vor, die einen Kontext von 1 Million Token erfordern, berichtet, dass Long-Context-LLMs ohne explizites Training für diese Aufgaben mit hochmodernen Retrieval- und RAG-Systemen konkurrieren können, deutet darauf hin, dass kompositionelles Reasoning, wie es für SQL-ähnliche Aufgaben erforderlich ist, für diese LLMs weiterhin schwierig ist, und betont die Notwendigkeit fortlaufender Forschung zu fortgeschrittenen Prompting-Strategien, nachdem deutliche Leistungssteigerungen bei ihrer Anwendung auf Long-Context-Probleme festgestellt wurden.

Conducts a deep performance analysis of long-context LLMs on in-context retrieval and reasoning; they first present a benchmark with real-world tasks requiring 1M token context; reports that long-context LLMs can rival state-of-the-art retrieval and RAG systems, without any explicit training on the tasks; suggests that compositional reasoning (required in SQL-like tasks) is still challenging for these LLMs; they also encourage the need for continued research on advanced prompting strategies as they noted significant boosts in performance when applying them for long context problems.

Paper-Abstract

Long-Context Language Models (LCLMs) haben das Potenzial, unseren Ansatz für Aufgaben grundlegend zu verändern, die traditionell auf externe Werkzeuge wie Retrieval-Systeme oder Datenbanken angewiesen sind. Die Fähigkeit von LCLMs, ganze Informationskorpora nativ aufzunehmen und zu verarbeiten, bietet zahlreiche Vorteile. Sie verbessert die Benutzerfreundlichkeit, da kein Spezialwissen über Tools erforderlich ist, ermöglicht ein robustes End-to-End-Modeling, das Fehlerfortpflanzung in komplexen Pipelines minimiert, und erlaubt den Einsatz ausgefeilter Prompting-Techniken über das gesamte System hinweg. Um diesen Paradigmenwechsel zu bewerten, stellen wir LOFT vor, einen Benchmark mit realen Aufgaben, die Kontexte von bis zu mehreren Millionen Token erfordern und zur Bewertung der Leistung von LCLMs bei In-Context-Retrieval und Schlussfolgerungen entwickelt wurden. Die Ergebnisse zeigen, dass LCLMs überraschenderweise mit Retrieval- und RAG-Systemen auf dem neuesten Stand der Technik konkurrieren können, obwohl sie für diese Aufgaben nie explizit trainiert wurden. Allerdings haben LCLMs in Bereichen wie dem für SQL-ähnliche Aufgaben erforderlichen kompositionellen Schlussfolgern weiterhin Schwierigkeiten. Besonders auffällig ist, dass Prompting-Strategien die Leistung stark beeinflussen, was den Bedarf an weiterer Forschung mit zunehmender Kontextlänge unterstreicht. Insgesamt bietet LOFT ein rigoroses Testfeld für LCLMs und zeigt ihr Potenzial, bestehende Paradigmen zu ersetzen und mit zunehmenden Modellfähigkeiten neue Aufgaben zu bewältigen.

Long-context language models (LCLMs) have the potential to revolutionize our approach to tasks traditionally reliant on external tools like retrieval systems or databases. Leveraging LCLMs' ability to natively ingest and process entire corpora of information offers numerous advantages. It enhances user-friendliness by eliminating the need for specialized knowledge of tools, provides robust end-to-end modeling that minimizes cascading errors in complex pipelines, and allows for the application of sophisticated prompting techniques across the entire system. To assess this paradigm shift, we introduce LOFT, a benchmark of real-world tasks requiring context up to millions of tokens designed to evaluate LCLMs' performance on in-context retrieval and reasoning. Our findings reveal LCLMs' surprising ability to rival state-of-the-art retrieval and RAG systems, despite never having been explicitly trained for these tasks. However, LCLMs still face challenges in areas like compositional reasoning that are required in SQL-like tasks. Notably, prompting strategies significantly influence performance, emphasizing the need for continued research as context lengths grow. Overall, LOFT provides a rigorous testing ground for LCLMs, showcasing their potential to supplant existing paradigms and tackle novel tasks as model capabilities scale.

Paper-Link

https://arxiv.org/abs/2406.13121

Weiterführende Links

https://github.com/google-deepmind/loft

https://x.com/omarsar0/status/1804184820806766875


PlanRAG: Retrieval-Augmented Generation nach vorgelagertem Planen für generative Large Language Models als Entscheidungsträger / PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers

Paper-Vorstellung

PlanRAG, eine neue RAG-Technik mit iterativem Planen vor dem Retrieval, verbessert die Entscheidungsfindung und besteht aus zwei Schritten: 1) Ein LM prüft Datenschema und Frage und erstellt einen Plan für die Entscheidungsfindung, und 2) der Retriever erzeugt Abfragen für die Datenanalyse. Im letzten Schritt wird geprüft, ob für eine weitere Analyse ein neuer Plan erforderlich ist; dann werden die vorherigen Schritte wiederholt oder eine Entscheidung auf Basis der Daten getroffen. Es zeigte sich, dass PlanRAG bei den vorgeschlagenen Decision-QA-Aufgaben effektiver ist als iteratives RAG.

Enhances decision making with a new RAG technique called iterative plan-then-RAG (PlanRAG); involves two steps: 1) an LM generates the plan for decision making by examining data schema and questions and 2) the retriever generates the queries for data analysis; the final step checks if a new plan for further analysis is needed and iterates on previous steps or makes a decision on the data; PlanRAG is found to be more effective than iterative RAG on the proposed Decision QA tasks.

Paper-Abstract

In dieser Arbeit wird untersucht, wie sich LLMs als Lösung für Entscheidungsfindung einsetzen lassen, die eine komplexe Datenanalyse erfordert. Decision QA wird dabei als die Aufgabe definiert, für eine Entscheidungsfrage $Q$, Geschäftsregeln $R$ und eine Datenbank $D$ die beste Entscheidung $d_{best}$ zu bestimmen. Da es keinen Benchmark gibt, mit dem sich Decision QA untersuchen lässt, schlagen die Autoren den Decision-QA-Benchmark DQA vor. Dieser Benchmark besteht aus zwei Szenarien, Locating und Building, die auf zwei Videospielen basieren (Europa Universalis IV und Victoria 3), deren Zielsetzung Decision QA nahezu entspricht. Um Decision QA effektiv zu adressieren, wird außerdem eine neue RAG-Technik namens iterative plan-then-retrieval augmented generation (PlanRAG) vorgeschlagen. Das PlanRAG-basierte LM erzeugt im ersten Schritt einen Plan für die Entscheidungsfindung, und im zweiten Schritt erzeugt der Retriever die Abfragen für die Datenanalyse. Die vorgeschlagene Methode übertrifft die aktuelle iterative RAG-Methode im Locating-Szenario um 15,8 % und im Building-Szenario um 7,4 %. Code und Benchmark sind unter https://github.com/myeon9h/PlanRAG veröffentlicht.

In this paper, we conduct a study to utilize LLMs as a solution for decision making that requires complex data analysis. We define Decision QA as the task of answering the best decision, $d_{best}$, for a decision-making question $Q$, business rules $R$ and a database $D$. Since there is no benchmark that can examine Decision QA, we propose Decision QA benchmark, DQA. It has two scenarios, Locating and Building, constructed from two video games (Europa Universalis IV and Victoria 3) that have almost the same goal as Decision QA. To address Decision QA effectively, we also propose a new RAG technique called the iterative plan-then-retrieval augmented generation (PlanRAG). Our PlanRAG-based LM generates the plan for decision making as the first step, and the retriever generates the queries for data analysis as the second step. The proposed method outperforms the state-of-the-art iterative RAG method by 15.8% in the Locating scenario and by 7.4% in the Building scenario, respectively. We release our code and benchmark at https://github.com/myeon9h/PlanRAG.

Paper-Link

https://arxiv.org/abs/2406.12430

Weiterlesen

https://github.com/myeon9h/PlanRAG

https://x.com/omarsar0/status/1803262374574448757


Nicht wie ein Goldfisch auswendig lernen! Memorization in generativen LLMs abschwächen / Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs

Paper-Vorstellung

Es wird eine einfache Technik vorgestellt, die durch eine Modifikation des Next-Token-Prediction-Ziels namens Goldfish Loss die wörtliche Generierung auswendig gelernter Trainingsdaten abschwächt. Dabei wird während des Trainings eine pseudorandomisierte Teilmenge von Trainingstoken ausgeschlossen. Die Autoren zeigen, dass Goldfish Loss gegenüber Memorization resistent ist und das Modell nützlich hält, dass aber möglicherweise längeres Training nötig ist, um effektiver aus den Trainingsdaten zu lernen.

Presents a modification of the next-token prediction objective called goldfish loss to help mitigate the verbatim generation of memorized training data; it uses a simple technique that excludes a pseudorandom subset of training tokens at training time; they show that the goldfish loss resists memorization and keeps the model useful; however, it may need to train for longer to more effectively learn from the training data.

Paper-Abstract

Große Sprachmodelle können ihre Trainingsdaten auswendig lernen und wiederholen, was Datenschutz- und Urheberrechtsrisiken verursachen kann. Um Memorization abzuschwächen, wurde eine subtile Modifikation des Next-Token-Trainingsziels eingeführt, die als Goldfish Loss bezeichnet wird. Während des Trainings wird eine zufällig gesampelte Teilmenge von Token von der Loss-Berechnung ausgeschlossen. Diese ausgelassenen Token werden vom Modell nicht auswendig gelernt, wodurch eine wörtliche Reproduktion einer vollständigen Token-Kette aus dem Trainingssatz verhindert werden kann. In umfangreichen Experimenten wurden Llama-2-Modelle im Milliardenbereich sowohl auf Basis vortrainierter Modelle als auch von Grund auf trainiert. Dabei wurde gezeigt, dass sich die extrahierbare Memorization deutlich verringert, während die Auswirkungen auf Downstream-Benchmarks gering bis nicht vorhanden sind.

Large language models can memorize and repeat their training data, causing privacy and copyright risks. To mitigate memorization, we introduce a subtle modification to the next-token training objective that we call the goldfish loss. During training, a randomly sampled subset of tokens are excluded from the loss computation. These dropped tokens are not memorized by the model, which prevents verbatim reproduction of a complete chain of tokens from the training set. We run extensive experiments training billion-scale Llama-2 models, both pre-trained and trained from scratch, and demonstrate significant reductions in extractable memorization with little to no impact on downstream benchmarks.

Paper-Link

https://arxiv.org/abs/2406.10209

Weiterlesen

https://github.com/ahans30/goldfish-loss

https://x.com/omarsar0/status/1802729440163647754


Mit LLaMa-3 8B über Monte-Carlo-Bäume selbst verfeinert zu mathematischen Olympiade-Lösungen auf GPT-4-Niveau / Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B

Paper-Vorstellung

Es wird berichtet, dass mit einem Ansatz, der LLMs mit Monte Carlo Tree Search integriert, mathematische Olympiade-Lösungen auf GPT-4-Niveau erreicht wurden. Dieser Ansatz konzentriert sich darauf, die mathematischen Schlussfolgerungsfähigkeiten des Systems durch Funktionen wie systematische Exploration, Selbstverfeinerung und Selbstbewertung zu verbessern.

Report to have achieved GPT-4 level mathematical olympiad solution using an approach that integrates LLMs with Monte Carlo Tree Search; this approach focuses on enhancing the mathematical reasoning performance of the system through capabilities such as systematic exploration, self-refinement, and self-evaluation.

Paper-Abstract

Dieses Whitepaper stellt den MCT Self-Refine (MCTSr)-Algorithmus vor, eine innovative Integration von Large Language Models (LLMs) mit Monte Carlo Tree Search (MCTS), die zur Leistungssteigerung bei komplexen mathematischen Schlussfolgerungsaufgaben entwickelt wurde. Insbesondere bei strategischem und mathematischem Reasoning adressiert MCTSr die Probleme von Genauigkeit und Zuverlässigkeit von LLMs und verbessert mithilfe systematischer Exploration und heuristischer Self-Refine-Mechanismen die Entscheidungsrahmen innerhalb von LLMs. Der Algorithmus konstruiert durch iterative Prozesse aus Selection, Self-Refine, Self-Evaluation und Backpropagation einen Monte-Carlo-Suchbaum und nutzt eine verbesserte Upper-Confidence-Bound-(UCB)-Formel, um das Gleichgewicht zwischen Exploration und Exploitation zu optimieren. Umfangreiche Experimente belegen die Wirksamkeit von MCTSr beim Lösen mathematischer Probleme auf Olympiadeniveau und zeigen deutlich verbesserte Erfolgsraten über mehrere Datensätze hinweg, darunter GSM8K, GSM Hard, MATH sowie Benchmarks auf Olympiadeniveau wie Math Odyssey, AIME und OlympiadBench. Diese Studie treibt den Einsatz von LLMs bei komplexen Reasoning-Aufgaben voran und schafft eine Grundlage für zukünftige AI-Integration, indem sie die Genauigkeit und Zuverlässigkeit von Entscheidungen in LLM-basierten Anwendungen verbessert.

This paper introduces the MCT Self-Refine (MCTSr) algorithm, an innovative integration of Large Language Models (LLMs) with Monte Carlo Tree Search (MCTS), designed to enhance performance in complex mathematical reasoning tasks. Addressing the challenges of accuracy and reliability in LLMs, particularly in strategic and mathematical reasoning, MCTSr leverages systematic exploration and heuristic self-refine mechanisms to improve decision-making frameworks within LLMs. The algorithm constructs a Monte Carlo search tree through iterative processes of Selection, self-refine, self-evaluation, and Backpropagation, utilizing an improved Upper Confidence Bound (UCB) formula to optimize the exploration-exploitation balance. Extensive experiments demonstrate MCTSr's efficacy in solving Olympiad-level mathematical problems, significantly improving success rates across multiple datasets, including GSM8K, GSM Hard, MATH, and Olympiad-level benchmarks, including Math Odyssey, AIME, and OlympiadBench. The study advances the application of LLMs in complex reasoning tasks and sets a foundation for future AI integration, enhancing decision-making accuracy and reliability in LLM-driven applications.

Paper-Link

https://arxiv.org/abs/2406.07394v2

Weiterführende Lektüre

https://x.com/rohanpaul_ai/status/1801259208341373013


Von RAGs zu reichhaltigen Parametern: Untersuchung, wie Sprachmodelle für Faktenabfragen externes Wissen gegenüber parametrischer Information nutzen / From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries

Paper-Einführung

Eine genauere Untersuchung, wie LLMs bei Faktenabfragen externes Wissen gegenüber parametrischer Information nutzen, zeigt, dass LLMs in einer RAG-Pipeline eine „Abkürzung“ nehmen und eine starke Tendenz dazu haben, zur Beantwortung von Fragen nur Kontextinformationen zu verwenden, während sie sich nur minimal auf ihr parametrisches Gedächtnis stützen.

Investigates more closely how LLMs utilize external knowledge over parametric information for factual queries; finds that in a RAG pipeline, LLMs take a “shortcut” and display a strong bias towards utilizing only the context information to answer the question, while relying minimally on their parametric memory.

Abstract

Retrieval Augmented Generation (RAG) erweitert die Fähigkeit von Sprachmodellen, mithilfe externen Kontexts zu schlussfolgern, um Antworten auf einen gegebenen User-Prompt anzureichern. Dieser Ansatz hat aufgrund praktischer Anwendungen von Sprachmodellen in Suche, Fragebeantwortung und Chatbots stark an Popularität gewonnen. Allerdings ist die genaue Funktionsweise dieses Ansatzes noch nicht klar verstanden. In diesem Paper untersuchen wir die RAG-Pipeline mechanistisch und heben hervor, dass Sprachmodelle Abkürzungen nehmen und eine starke Tendenz dazu haben, zur Beantwortung von Fragen nur Kontextinformationen zu nutzen, während sie sich nur minimal auf ihr parametrisches Gedächtnis verlassen. Wir untersuchen dieses mechanistische Verhalten in Sprachmodellen mittels: (i) Causal Mediation Analysis, um zu zeigen, dass das parametrische Gedächtnis beim Beantworten einer Frage nur minimal genutzt wird, und (ii) Attention Contributions und Knockouts, um zu zeigen, dass der Residual Stream des letzten Tokens nicht durch das Subjekt-Token in der Frage angereichert wird, sondern durch andere informative Tokens im Kontext. Wir stellen fest, dass dieses ausgeprägte Shortcut-Verhalten sowohl in den Modellfamilien LLaMa als auch Phi auftritt.

Retrieval Augmented Generation (RAG) enriches the ability of language models to reason using external context to augment responses for a given user prompt. This approach has risen in popularity due to practical applications in various applications of language models in search, question/answering, and chat-bots. However, the exact nature of how this approach works isn't clearly understood. In this paper, we mechanistically examine the RAG pipeline to highlight that language models take shortcut and have a strong bias towards utilizing only the context information to answer the question, while relying minimally on their parametric memory. We probe this mechanistic behavior in language models with: (i) Causal Mediation Analysis to show that the parametric memory is minimally utilized when answering a question and (ii) Attention Contributions and Knockouts to show that the last token residual stream do not get enriched from the subject token in the question, but gets enriched from other informative tokens in the context. We find this pronounced shortcut behaviour true across both LLaMa and Phi family of models.

Paper-Link

https://arxiv.org/abs/2406.12824

Weiterführende Lektüre

https://x.com/omarsar0/status/1803254134289895555


Open-Sora

Paper-Einführung

Ein Open-Source-Videogenerierungsmodell, das 16-sekündige 720p-Videos erzeugen kann; ein Modell mit 1,1 Milliarden Parametern, trainiert auf mehr als 30 Millionen Datenpunkten, das nun auch Image-to-Video unterstützt; es bietet ein verbessertes Diffusionsmodell und ein Videokompressionsnetzwerk für räumliche und zeitliche Kompression, erhöht die Steuerbarkeit der Generierung und senkt die Trainingskosten.

An open-source video generation model that can generate 16-second 720p videos; it’s a 1.1B parameter model trained on more than 30m data and now supports image-to-video; presents an enhanced diffusion model and video compression network for spatial and temporal compression; increases controllability of generations and reduces training costs.

Paper-Link

[IMG] Open-Sora 1.2 Report|1028x812

Weiterlesen

https://discuss.pytorch.kr/t/open-sora-feat-hpc-ai/3794

https://x.com/omarsar0/status/1803176105010171957


Tree Search für Sprachmodell-Agenten / Tree Search for Language Model Agents

Paper-Vorstellung

Es wird ein Tree-Search-Algorithmus zur Inferenzzeit vorgeschlagen, mit dem LM-Agenten Exploration durchführen und mehrstufiges Reasoning ermöglichen können; er wurde in interaktiven Web-Umgebungen getestet und auf GPT-4o angewendet, wodurch die Leistung deutlich verbessert wurde; außerdem wird gezeigt, dass die Leistung mit steigender Test-Time-Compute skaliert.

Proposes an inference-time tree search algorithm for LM agents to perform exploration and enable multi-step reasoning; it’s tested on interactive web environments and applied to GPT-4o to significantly improve performance; demonstrates that performance scales when increasing test-time compute.

Paper-Abstract

Autonome Agenten, die von Sprachmodellen (LMs) angetrieben werden, haben vielversprechende Fähigkeiten bei der Ausführung von Entscheidungsaufgaben wie Web-Automatisierung gezeigt. Dennoch bleibt eine grundlegende Herausforderung bestehen: LMs, die primär für das Verstehen und Generieren natürlicher Sprache optimiert sind, haben Schwierigkeiten mit mehrstufigem Reasoning, Planung und der Nutzung von Umwelt-Feedback, wenn sie realistische Computeraufgaben lösen sollen. Um dieses Problem anzugehen, schlagen wir einen Suchalgorithmus zur Inferenzzeit vor, mit dem LM-Agenten in interaktiven Web-Umgebungen explizit Exploration und mehrstufige Planung durchführen können. Unser Ansatz ist eine Form der Best-First-Tree-Search, die innerhalb des tatsächlichen Umgebungsraums arbeitet und mit den meisten bestehenden State-of-the-Art-Agenten komplementär ist. Es ist der erste Tree-Search-Algorithmus für LM-Agenten, der auf realistischen Web-Aufgaben Wirksamkeit zeigt. Auf dem anspruchsvollen VisualWebArena-Benchmark führt die Anwendung unseres Suchalgorithmus auf einen GPT-4o-Agenten zu einer relativen Steigerung der Erfolgsquote um 39,7 % gegenüber derselben Baseline ohne Suche und setzt damit einen neuen State of the Art mit 26,4 % Erfolgsquote. Auch auf WebArena bringt die Suche gegenüber einem Baseline-Agenten eine relative Verbesserung um 28,0 % und erreicht eine wettbewerbsfähige Erfolgsquote von 19,2 %. Unsere Experimente unterstreichen die Wirksamkeit von Suche für Web-Agenten und zeigen, dass die Leistung mit zunehmendem Test-Time-Compute skaliert. Wir analysieren unsere Ergebnisse gründlich, um Verbesserungen durch die Suche, Einschränkungen und vielversprechende Richtungen für künftige Arbeiten hervorzuheben.

Autonomous agents powered by language models (LMs) have demonstrated promise in their ability to perform decision-making tasks such as web automation. However, a fundamental challenge remains: LMs, primarily optimized for natural language understanding and generation, struggle with multi-step reasoning, planning, and using environmental feedback when attempting to solve realistic computer tasks. Towards addressing this, we propose an inference-time search algorithm for LM agents to explicitly perform exploration and multi-step planning in interactive web environments. Our approach is a form of best-first tree search that operates within the actual environment space, and is complementary with most existing state-of-the-art agents. It is the first tree search algorithm for LM agents that shows effectiveness on realistic web tasks. On the challenging VisualWebArena benchmark, applying our search algorithm on top of a GPT-4o agent yields a 39.7% relative increase in success rate compared to the same baseline without search, setting a state-of-the-art success rate of 26.4%. On WebArena, search also yields a 28.0% relative improvement over a baseline agent, setting a competitive success rate of 19.2%. Our experiments highlight the effectiveness of search for web agents, and we demonstrate that performance scales with increased test-time compute. We conduct a thorough analysis of our results to highlight improvements from search, limitations, and promising directions for future work.

Paper-Link

https://jykoh.com/search-agents/paper.pdf

Weiterlesen

https://jykoh.com/search-agents

https://x.com/kohjingyu/status/1803604487216701653


Originaltext

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c0f


Dieser Beitrag wurde mit einem GPT-Modell zusammengestellt, daher kann er Fehler enthalten. Bitte beachten Sie deshalb auch den Originaltext weiter unten. Wenn Ihnen beim Lesen unnatürliche Formulierungen oder inhaltliche Fehler auffallen, freuen wir uns über einen Kommentar. 🤗

⚠️Werbung⚠️: Fanden Sie diesen von der 🔥PyTorch Korean User Group🇰🇷 zusammengestellten Beitrag nützlich? Wenn Sie sich als Mitglied registrieren, senden wir Ihnen wichtige Beiträge per E-Mail💌 zu! Standardmäßig wöchentlich, aber Sie können auch auf täglich umstellen.

Noch keine Kommentare.

Noch keine Kommentare.