[2025/01/13 ~ 01/19] Die wichtigsten ML-Papers dieser Woche (Top ML Papers of the Week)

Ich habe einen automatisch übersetzten Beitrag zu den wöchentlich von DAIR.AI veröffentlichten ML-Papers erstellt.
Ein auffälliger Trend der in dieser Woche ausgewählten Papers ist die intensive Forschung zu großen Sprachmodellen (LLMs, Large Language Models) und multimodaler KI. Beispielsweise behandeln Papers wie "Self-Adaptive LLMs", "Foundations of LLMs", "Enhancing RAG" und "VideoRAG" Themen rund um LLMs und multimodales Lernen. Auch Arbeiten wie "Imagine while Reasoning in Space" und "OmniThink" untersuchen multimodale Ansätze, die verschiedene Datenformen nutzen, um komplexe Probleme zu lösen.
Dieser Trend deutet darauf hin, dass innerhalb der aktuellen KI-Forschungsgemeinschaft die Bedeutung von Sprachmodellen zunimmt und die Bemühungen wachsen, durch die Kombination unterschiedlicher Daten eine umfassendere Verständnistiefe zu erreichen. LLMs treiben den Stand der Technik in der natürlichen Sprachverarbeitung (NLP) voran, und es scheint sich die Erkenntnis zu verbreiten, dass für die weitere Entwicklung dieser Technologien ein integrierter Ansatz unter Nutzung multimodaler Daten nötig ist. Insbesondere spielt multimodale KI eine wichtige Rolle dabei, komplexere Probleme zu lösen, indem sie visuelles Verständnis und natürlichsprachliches Verständnis kombiniert.
Zusammenfassend zeigen die Papers dieser Woche, dass sich der Schwerpunkt der KI-Forschung auf große Sprachmodelle und multimodales Lernen konzentriert. Das deutet darauf hin, dass sich KI nicht nur auf die Verarbeitung von Text beschränkt, sondern sich in Richtung einer Verbindung mit visuellen Informationen entwickelt, um intelligentere und komplexere Problemlösungen zu ermöglichen. Daher ist zu erwarten, dass diese Forschung die Weiterentwicklung der KI-Technologie in Zukunft stark beeinflussen wird.

$\text{Transformer}^2$: selbstadaptive LLMs / $\text{Transformer}^2$: Self-adaptive LLMs

Paper-Einführung

Vorgestellt wird $\text{Transformer}^2$, ein neuartiges selbstadaptives Framework, das LLMs in Echtzeit an unbekannte Aufgaben anpasst, indem einzelne singuläre Komponenten ihrer Gewichtsmatrizen selektiv angepasst werden. Es besteht aus zwei zentralen Phasen: 1) einem Dispatch-System, das die Eigenschaften der eingehenden Aufgabe analysiert und identifiziert, und 2) einem Schritt, der über Reinforcement Learning trainierte "Experten"-Vektoren kombiniert, um aufgabenspezifisches Verhalten zu erzeugen; es soll mit weniger Parametern effizienter als LoRA sein und über verschiedene LLM-Architekturen hinweg funktionieren.

Introduces $\text{Transformer}^2$, a novel self-adaptation framework that adapts LLMs for unseen tasks in real-time by selectively adjusting singular components of their weight matrices; it’s built with two key phases: 1) a dispatch system that analyzes and identifies the properties of the incoming task, and 2) a step that combines "expert" vectors (trained via reinforcement learning) to create task-specific behaviors; claims to be more efficient than LoRA with fewer parameters and can works across different LLM architectures.

Abstract

Selbstadaptive große Sprachmodelle (LLMs) zielen darauf ab, die Herausforderungen traditioneller Fine-Tuning-Methoden zu lösen, die beim Umgang mit vielfältigen Aufgaben oft rechenintensiv sind und nur statisch reagieren. Wir stellen $\text{Transformer}^2$ vor, ein neuartiges selbstadaptives Framework, das LLMs in Echtzeit an unbekannte Aufgaben anpasst, indem es selektiv nur die singulären Komponenten ihrer Gewichtsmatrizen verändert. Während der Inferenz verwendet $\text{Transformer}^2$ einen Zwei-Pass-Mechanismus: Zunächst identifiziert ein Dispatch-System die Eigenschaften der Aufgabe, anschließend werden aufgabenspezifische, per Reinforcement Learning trainierte „Experten“-Vektoren dynamisch gemischt, um ein zielgerichtetes Verhalten für den eingehenden Prompt zu erhalten. Unsere Methode übertrifft verbreitete Ansätze wie LoRA mit weniger Parametern und höherer Effizienz. $\text{Transformer}^2$ zeigt Vielseitigkeit über verschiedene LLM-Architekturen und Modalitäten hinweg, einschließlich Vision-Language-Aufgaben. $\text{Transformer}^2$ stellt einen bedeutenden Fortschritt dar und bietet eine skalierbare, effiziente Lösung zur Verbesserung der Anpassungsfähigkeit und der aufgabenspezifischen Leistung von LLMs, wodurch der Weg für wirklich dynamische, sich selbst organisierende KI-Systeme geebnet wird.

Self-adaptive large language models (LLMs) aim to solve the challenges posed by traditional fine-tuning methods, which are often computationally intensive and static in their ability to handle diverse tasks. We introduce $\text{Transformer}^2$, a novel self-adaptation framework that adapts LLMs for unseen tasks in real-time by selectively adjusting only the singular components of their weight matrices. During inference, $\text{Transformer}^2$ employs a two-pass mechanism: first, a dispatch system identifies the task properties, and then task-specific "expert" vectors, trained using reinforcement learning, are dynamically mixed to obtain targeted behavior for the incoming prompt. Our method outperforms ubiquitous approaches such as LoRA, with fewer parameters and greater efficiency. $\text{Transformer}^2$ demonstrates versatility across different LLM architectures and modalities, including vision-language tasks. $\text{Transformer}^2$ represents a significant leap forward, offering a scalable, efficient solution for enhancing the adaptability and task-specific performance of LLMs, paving the way for truly dynamic, self-organizing AI systems.

Paper-Link

https://arxiv.org/abs/2501.06252

Weiterführende Lektüre

https://discuss.pytorch.kr/t/…

https://x.com/hardmaru/status/1879331049383334187

MiniMax-01: Foundation-Modelle mit Lightning Attention blitzschnell skalieren / MiniMax-01: Scaling Foundation Models with Lightning Attention

Paper-Einführung

Einführung einer neuen Modellserie mit integriertem Mixture-of-Experts, darunter ein Modell mit 32 Experten und 456 Milliarden Parametern, von denen pro Token 45,9 Milliarden aktiviert werden; laut eigenen Angaben erreicht es die Leistung aktueller Spitzenmodelle wie GPT-4o und Claude-3.5-Sonnet. Es bietet dabei ein 20- bis 32-fach längeres Kontextfenster, kann bis zu 4 Millionen Tokens verarbeiten, integriert lineare Attention mit optimierter Hardware-Auslastung zur Verbesserung von Effizienz und Skalierbarkeit von LLMs, und umfasst außerdem ein Vision-Modell namens MiniMax-VL-01, das durch fortlaufendes Training mit 51,2 Milliarden Vision-Language-Tokens aufgebaut wurde.

Introduces a new series of models that integrate Mixture-of-Experts; introduces a model with 32 experts and 456B parameters, and 45.9B are activated for each token; claims match the performance of state-of-the-art models like GPT-4o and Claude-3.5-Sonnet while offering a 20-32x longer context window; it can handle context windows of up to 4 million tokens; it integrates linear attention with optimized hardware utilization which enhances the efficiency and scalability of the LLM; there is also a vision model called MiniMax-VL-01 built through continued training with 512 billion vision-language tokens.

Paper-Abstract

Wir stellen die MiniMax-01-Serie vor, darunter MiniMax-Text-01 und MiniMax-VL-01, die mit Top-Tier-Modellen vergleichbar sind und zugleich überlegene Fähigkeiten bei der Verarbeitung längerer Kontexte bieten. Der Kern liegt in Lightning Attention und ihrer effizienten Skalierung. Um die Rechenkapazität zu maximieren, kombinieren wir sie mit Mixture of Experts (MoE) und schaffen so ein Modell mit 32 Experten und insgesamt 456 Milliarden Parametern, von denen 45,9 Milliarden pro Token aktiviert werden. Wir entwickeln eine optimierte Parallelisierungsstrategie sowie hoch effiziente Techniken zur Überlappung von Berechnung und Kommunikation für MoE und Lightning Attention. Dieser Ansatz ermöglicht effizientes Training und Inferenz auf Modellen mit Hunderten Milliarden Parametern über Kontexte von mehreren Millionen Tokens. Das Kontextfenster von MiniMax-Text-01 kann während des Trainings bis zu 1 Million Tokens erreichen und bei der Inferenz zu vertretbaren Kosten auf 4 Millionen Tokens extrapolieren. Unser Vision-Language-Modell MiniMax-VL-01 wurde durch fortlaufendes Training mit 51,2 Milliarden Vision-Language-Tokens aufgebaut. Experimente auf Standard- und internen Benchmarks zeigen, dass unsere Modelle die Leistung aktueller Spitzenmodelle wie GPT-4o und Claude-3.5-Sonnet erreichen und dabei ein 20- bis 32-mal längeres Kontextfenster bieten. MiniMax-01 wird unter https://github.com/MiniMax-AI öffentlich veröffentlicht.

We introduce MiniMax-01 series, including MiniMax-Text-01 and MiniMax-VL-01, which are comparable to top-tier models while offering superior capabilities in processing longer contexts. The core lies in lightning attention and its efficient scaling. To maximize computational capacity, we integrate it with Mixture of Experts (MoE), creating a model with 32 experts and 456 billion total parameters, of which 45.9 billion are activated for each token. We develop an optimized parallel strategy and highly efficient computation-communication overlap techniques for MoE and lightning attention. This approach enables us to conduct efficient training and inference on models with hundreds of billions of parameters across contexts spanning millions of tokens. The context window of MiniMax-Text-01 can reach up to 1 million tokens during training and extrapolate to 4 million tokens during inference at an affordable cost. Our vision-language model, MiniMax-VL-01 is built through continued training with 512 billion vision-language tokens. Experiments on both standard and in-house benchmarks show that our models match the performance of state-of-the-art models like GPT-4o and Claude-3.5-Sonnet while offering 20-32 times longer context window. We publicly release MiniMax-01 at https://github.com/MiniMax-AI.

Paper-Link

https://arxiv.org/abs/2501.08313

Weiterführende Links

https://github.com/MiniMax-AI

https://x.com/omarsar0/status/1879572512075587872

VideoRAG: Retrieval-Augmented Generation über Video-Korpora / VideoRAG: Retrieval-Augmented Generation over Video Corpus

Paper-Einführung

Ein Framework, das RAG durch die Nutzung von Videoinhalten als externe Wissensquelle erweitert; anders als bestehende RAG-Ansätze, die sich hauptsächlich auf Text oder Bilder konzentrieren, ruft VideoRAG auf Basis von Anfragen dynamisch relevante Videos ab und integriert sowohl deren visuelle als auch textuelle Elemente in den Generierungsprozess. Das Framework nutzt Large Video Language Models (LVLMs), um Videoinhalte direkt zu verarbeiten, wodurch zeitliche Dynamiken, räumliche Details und multimodale Hinweise, die statische Modalitäten oft nicht vermitteln können, effektiver erfasst werden; für Videos ohne textuelle Beschreibungen schlagen die Autoren vor, Automatic Speech Recognition zu verwenden, um Transkripte zu erzeugen und so sicherzustellen, dass sowohl visuelle als auch textuelle Modalitäten genutzt werden können.

A framework that enhances RAG by leveraging video content as an external knowledge source; unlike existing RAG approaches that primarily focus on text or images, VideoRAG dynamically retrieves relevant videos based on queries and incorporates both their visual and textual elements into the generation process; the framework utilizes Large Video Language Models (LVLMs) to process video content directly, enabling more effective capture of temporal dynamics, spatial details, and multimodal cues that static modalities often fail to convey; for videos lacking textual descriptions, they propose using automatic speech recognition to generate transcripts, ensuring both visual and textual modalities can be leveraged.

Paper-Abstract

Retrieval-Augmented Generation (RAG) ist eine leistungsstarke Strategie, um das Problem faktisch falscher Ausgaben in Foundation Models zu adressieren, indem zu Abfragen relevantes externes Wissen abgerufen und in den Generierungsprozess integriert wird. Bestehende RAG-Ansätze konzentrieren sich jedoch in erster Linie auf Textinformationen; einige neuere Ansätze beginnen zwar, Bilder zu berücksichtigen, übersehen dabei aber häufig Videos – eine reichhaltige Quelle multimodalen Wissens, die Ereignisse, Prozesse und kontextuelle Details effektiver darstellen kann als jede andere Modalität. Einige jüngere Arbeiten untersuchen zwar, wie sich Videos in den Antwortgenerierungsprozess einbinden lassen, definieren jedoch entweder abfragebezogene Videos im Voraus, anstatt sie abhängig von der Abfrage zu retrieven, oder wandeln Videos in Textbeschreibungen um, ohne ihren multimodalen Reichtum zu nutzen. Um diese Probleme anzugehen, stellen wir VideoRAG vor, ein neuartiges Framework, das nicht nur relevante Videos dynamisch auf Basis ihrer Relevanz für die Abfrage retrievt, sondern bei der Generierung der Ausgabe auch sowohl visuelle als auch textuelle Informationen der Videos nutzt. Um dies praktisch umzusetzen, basiert unsere Methode zudem auf den jüngsten Fortschritten bei Large Video Language Models (LVLMs), die die direkte Verarbeitung von Videoinhalten ermöglichen, um sie für das Retrieval zu repräsentieren und die retrievten Videos gemeinsam mit den Abfragen nahtlos zu integrieren. Experimente bestätigen die Wirksamkeit von VideoRAG und zeigen, dass es relevanten Baselines überlegen ist.

Retrieval-Augmented Generation (RAG) is a powerful strategy to address the issue of generating factually incorrect outputs in foundation models by retrieving external knowledge relevant to queries and incorporating it into their generation process. However, existing RAG approaches have primarily focused on textual information, with some recent advancements beginning to consider images, and they largely overlook videos, a rich source of multimodal knowledge capable of representing events, processes, and contextual details more effectively than any other modality. While a few recent studies explore the integration of videos in the response generation process, they either predefine query-associated videos without retrieving them according to queries, or convert videos into the textual descriptions without harnessing their multimodal richness. To tackle these, we introduce VideoRAG, a novel framework that not only dynamically retrieves relevant videos based on their relevance with queries but also utilizes both visual and textual information of videos in the output generation. Further, to operationalize this, our method revolves around the recent advance of Large Video Language Models (LVLMs), which enable the direct processing of video content to represent it for retrieval and seamless integration of the retrieved videos jointly with queries. We experimentally validate the effectiveness of VideoRAG, showcasing that it is superior to relevant baselines.

Paper-Link

https://arxiv.org/abs/2501.05874

Weiterlesen

https://x.com/omarsar0/status/1878827350315659421

Titans: Lernen, sich zur Testzeit Dinge einzuprägen / Titans: Learning to Memorize at Test Time

Paper-Vorstellung

Es wird ein neuronales Langzeitgedächtnismodul eingeführt, das historischen Kontext speichert und der Attention hilft, sich auf den aktuellen Kontext zu konzentrieren, während zugleich weit zurückliegende Informationen genutzt werden; dieses neuronale Speichermodul fungiert als langfristigeres und beständigeres Gedächtnis als die alleinige Nutzung von Attention (die eher als kurzfristig gilt); Titan, das auf neuronalem Gedächtnis basiert, zeigt gute Ergebnisse bei Sprachmodellierung, Common-Sense-Reasoning, Genomik und Zeitreihenaufgaben.

Introduces a neural long-term memory module to memorize historical context and help attention to attend to the current context while utilizing long past information; the neural memory module acts as a long-term, more persistent memory than just using attention alone (considered more short-term); Titan, which is based on neural memory, shows good results in language modeling, common-sense reasoning, genomics, and time series tasks.

Paper-Abstract (Abstract)

Seit mehr als einem Jahrzehnt wird intensiv daran geforscht, wie sich rekurrente Modelle und Attention effektiv nutzen lassen. Während rekurrente Modelle darauf abzielen, Daten in einen Speicher fester Größe zu komprimieren, der als Hidden State bezeichnet wird, ermöglicht Attention die Berücksichtigung des gesamten Kontextfensters und erfasst die direkten Abhängigkeiten aller Tokens. Diese präzisere Modellierung von Abhängigkeiten ist jedoch mit quadratischen Kosten verbunden und beschränkt das Modell auf einen Kontext fester Länge. Wir stellen ein neues neuronales Langzeitgedächtnismodul vor, das lernt, vergangenen Kontext zu speichern, und Attention dabei hilft, sich auf den aktuellen Kontext zu konzentrieren und zugleich weit zurückliegende Informationen zu nutzen. Wir zeigen, dass dieses neuronale Gedächtnis den Vorteil eines schnell parallelisierbaren Trainings bietet und dabei eine schnelle Inferenz beibehält. Aus der Perspektive des Gedächtnisses argumentieren wir, dass Attention aufgrund ihres begrenzten Kontexts, aber der präzisen Modellierung von Abhängigkeiten, als Kurzzeitgedächtnis fungiert, während neuronales Gedächtnis aufgrund seiner Fähigkeit, Daten zu speichern, als langfristigeres und beständigeres Gedächtnis wirkt. Auf Grundlage dieser beiden Module führen wir eine neue Architekturfamilie namens Titans ein und präsentieren drei Varianten, um zu zeigen, wie sich Gedächtnis effektiv in diese Architektur integrieren lässt. Unsere experimentellen Ergebnisse zu Sprachmodellierung, Common-Sense-Reasoning, Genomik und Zeitreihenaufgaben zeigen, dass Titans effektiver sind als Transformer und aktuelle moderne lineare rekurrente Modelle. Außerdem lassen sie sich im Vergleich zu Baselines mit höherer Genauigkeit bei Needle-in-a-Haystack-Aufgaben effektiv auf Kontextfenstergrößen von mehr als 2M skalieren.

Over more than a decade there has been an extensive research effort on how to effectively utilize recurrent models and attention. While recurrent models aim to compress the data into a fixed-size memory (called hidden state), attention allows attending to the entire context window, capturing the direct dependencies of all tokens. This more accurate modeling of dependencies, however, comes with a quadratic cost, limiting the model to a fixed-length context. We present a new neural long-term memory module that learns to memorize historical context and helps attention to attend to the current context while utilizing long past information. We show that this neural memory has the advantage of fast parallelizable training while maintaining a fast inference. From a memory perspective, we argue that attention due to its limited context but accurate dependency modeling performs as a short-term memory, while neural memory due to its ability to memorize the data, acts as a long-term, more persistent, memory. Based on these two modules, we introduce a new family of architectures, called Titans, and present three variants to address how one can effectively incorporate memory into this architecture. Our experimental results on language modeling, common-sense reasoning, genomics, and time series tasks show that Titans are more effective than Transformers and recent modern linear recurrent models. They further can effectively scale to larger than 2M context window size with higher accuracy in needle-in-haystack tasks compared to baselines.

Paper-Link

https://arxiv.org/abs/2501.00663

Weiterlesen

https://x.com/omarsar0/status/1879896681010921742

Grundlagen großer Sprachmodelle / Foundations of Large Language Models

Paper-Vorstellung

Eine neue Übersicht zu den Grundlagen von LLMs, die Bereiche wie Pre-Training, Prompting und Alignment-Methoden behandelt.

New survey on the foundations of LLMs covering areas such as pre-training, prompting, and alignment methods.

Abstract

Dieses Buch handelt von großen Sprachmodellen. Wie der Titel andeutet, konzentriert es sich in erster Linie auf grundlegende Konzepte und nicht auf eine umfassende Abdeckung sämtlicher modernster Technologien. Das Buch ist in vier Hauptkapitel gegliedert, die jeweils einen zentralen Bereich behandeln: Pre-Training, generative Modelle, Prompting-Techniken und Alignment-Methoden. Es richtet sich an Studierende, Fachleute und Praktiker aus der Sprachverarbeitung und verwandten Bereichen und kann als Nachschlagewerk für alle dienen, die sich für große Sprachmodelle interessieren.

This is a book about large language models. As indicated by the title, it primarily focuses on foundational concepts rather than comprehensive coverage of all cutting-edge technologies. The book is structured into four main chapters, each exploring a key area: pre-training, generative models, prompting techniques, and alignment methods. It is intended for college students, professionals, and practitioners in natural language processing and related fields, and can serve as a reference for anyone interested in large language models.

Paper-Link

https://arxiv.org/abs/2501.09223

Weiterlesen

https://discuss.pytorch.kr/t/pdf-231p-feat-arxiv/5895

https://x.com/omarsar0/status/1880284477445767586

OmniThink: Erweiterung von Wissensgrenzen im maschinellen Schreiben durch Denken / OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking

Paper-Vorstellung

Ein neues Framework, das einen menschenähnlichen Prozess aus iterativer Erweiterung und Reflexion emuliert; es wurde entwickelt, um das kognitive Verhalten von Lernenden zu simulieren, wenn sie ihr Wissen vertiefen; im Vergleich zu RAG und Rollenspiel kann OmniThink durch kontinuierliche Reflexion und Erkundung die Wissensgrenzen erweitern; dadurch ist es ideal für Anwendungsfälle, die Long-Form-Generierung erfordern.

A new framework that emulates a human-like process of iterative expansion and reflection; it's built to simulate the cognitive behavior of learners as they deepen their knowledge; compared to RAG and role-playing, OmniThink can expand knowledge boundaries through continuous reflection and exploration; this makes it ideal for use cases that require long-form generation.

Abstract

Maschinelles Schreiben mit großen Sprachmodellen stützt sich häufig auf Retrieval-Augmented Generation. Diese Ansätze bleiben jedoch innerhalb der Grenzen des vordefinierten Umfangs des Modells und schränken dadurch die Erzeugung inhaltsreicher Inhalte ein. Insbesondere mangelt es konventionell abgerufenen Informationen oft an Tiefe und Nutzen, zudem neigen sie zu Redundanz, was die Qualität generierter Artikel negativ beeinflusst und zu oberflächlichen, repetitiven und wenig originellen Ergebnissen führt. Um diese Probleme zu adressieren, schlagen wir OmniThink vor, ein Framework für maschinelles Schreiben, das den menschenähnlichen iterativen Prozess von Erweiterung und Reflexion nachahmt. Die Kernidee von OmniThink besteht darin, das kognitive Verhalten von Lernenden zu simulieren, während sie ihr Wissen über Themen schrittweise vertiefen. Experimentelle Ergebnisse zeigen, dass OmniThink die Wissensdichte generierter Dokumente verbessert, ohne Kennzahlen wie Kohärenz und Tiefe zu beeinträchtigen. Menschliche Bewertungen und Expertenfeedback unterstreichen zudem das Potenzial von OmniThink, reale Herausforderungen bei der Generierung von Longform-Artikeln zu bewältigen.

Machine writing with large language models often relies on retrieval-augmented generation. However, these approaches remain confined within the boundaries of the model's predefined scope, limiting the generation of content with rich information. Specifically, vanilla-retrieved information tends to lack depth, utility, and suffers from redundancy, which negatively impacts the quality of generated articles, leading to shallow, repetitive, and unoriginal outputs. To address these issues, we propose OmniThink, a machine writing framework that emulates the human-like process of iterative expansion and reflection. The core idea behind OmniThink is to simulate the cognitive behavior of learners as they progressively deepen their knowledge of the topics. Experimental results demonstrate that OmniThink improves the knowledge density of generated articles without compromising metrics such as coherence and depth. Human evaluations and expert feedback further highlight the potential of OmniThink to address real-world challenges in the generation of long-form articles.

Paper-Link

https://arxiv.org/abs/2501.09751

Weiterführende Lektüre

https://x.com/omarsar0/status/1880275861401923619

Verbesserung von Retrieval-Augmented Generation: Eine Studie zu Best Practices / Enhancing Retrieval-Augmented Generation: A Study of Best Practices

Paper-Vorstellung

Untersucht systematisch die Faktoren und Methoden zur Verbesserung von RAG-Systemen, darunter Retrieval-Strategien, Query Expansion, kontrastives In-Context Learning, Prompt-Design und Chunking.

Systematically explores the factors and methods that improve RAG systems such as retrieval strategies, query expansion, contrastive in-context learning, prompt design, and chunking.

Paper-Abstract

Retrieval-Augmented-Generation-(RAG-)Systeme haben in jüngster Zeit bemerkenswerte Fortschritte gezeigt, indem sie Retrieval-Mechanismen in Sprachmodelle integrieren und so ihre Fähigkeit verbessern, genauere und kontextuell relevantere Antworten zu erzeugen. Der Einfluss verschiedener Komponenten und Konfigurationen innerhalb von RAG-Systemen ist jedoch noch nicht ausreichend untersucht. Ein umfassendes Verständnis dieser Elemente ist entscheidend, um RAG-Systeme an komplexe Retrieval-Aufgaben anzupassen und eine optimale Leistung über unterschiedliche Anwendungen hinweg sicherzustellen. In dieser Arbeit entwickeln wir mehrere fortgeschrittene RAG-Systemdesigns, die Query Expansion, verschiedene neuartige Retrieval-Strategien und ein neuartiges Contrastive In-Context Learning RAG integrieren. Unsere Studie untersucht systematisch zentrale Faktoren, darunter die Größe des Sprachmodells, Prompt-Design, die Größe von Dokument-Chunks, die Größe der Wissensbasis, den Retrieval-Stride, Techniken zur Query Expansion, Wissensbasen für Contrastive In-Context Learning, mehrsprachige Wissensbasen sowie einen Focus Mode, der relevanten Kontext auf Satzebene abruft. Durch umfangreiche Experimente liefern wir eine detaillierte Analyse dazu, wie diese Faktoren die Qualität der Antworten beeinflussen. Unsere Ergebnisse bieten umsetzbare Erkenntnisse für die Entwicklung von RAG-Systemen und schaffen ein Gleichgewicht zwischen Kontextreichtum und Retrieval-Generierungs-Effizienz. Damit ebnen sie den Weg für anpassungsfähigere und leistungsstärkere RAG-Frameworks in unterschiedlichen realen Szenarien. Unser Code und die Implementierungsdetails sind öffentlich verfügbar.

Retrieval-Augmented Generation (RAG) systems have recently shown remarkable advancements by integrating retrieval mechanisms into language models, enhancing their ability to produce more accurate and contextually relevant responses. However, the influence of various components and configurations within RAG systems remains underexplored. A comprehensive understanding of these elements is essential for tailoring RAG systems to complex retrieval tasks and ensuring optimal performance across diverse applications. In this paper, we develop several advanced RAG system designs that incorporate query expansion, various novel retrieval strategies, and a novel Contrastive In-Context Learning RAG. Our study systematically investigates key factors, including language model size, prompt design, document chunk size, knowledge base size, retrieval stride, query expansion techniques, Contrastive In-Context Learning knowledge bases, multilingual knowledge bases, and Focus Mode retrieving relevant context at sentence-level. Through extensive experimentation, we provide a detailed analysis of how these factors influence response quality. Our findings offer actionable insights for developing RAG systems, striking a balance between contextual richness and retrieval-generation efficiency, thereby paving the way for more adaptable and high-performing RAG frameworks in diverse real-world scenarios. Our code and implementation details are publicly available.

Paper-Link

https://arxiv.org/abs/2501.07391

Weiterführende Lektüre

https://x.com/omarsar0/status/1879178916021318029

AutoCBT: Ein autonomes Multi-Agenten-Framework für kognitive Verhaltenstherapie in der psychologischen Beratung / AutoCBT: An Autonomous Multi-agent Framework for Cognitive Behavioral Therapy in Psychological Counseling

Paper-Einführung

Vorgestellt wird AutoCBT, ein Multi-Agenten-Framework für die kognitive Verhaltenstherapie. Die Studie schlägt ein allgemeines Multi-Agenten-Framework vor, das für Single-Turn-Szenarien in der psychologischen Beratung hochwertige Antworten erzeugt, verbessert die Autonomiefähigkeiten der einzelnen Agenten durch die Kombination aus dynamischem Routing, Memory- und Supervisory-Mechanismen, und die experimentellen Ergebnisse zeigen, dass AutoCBT hochwertige automatisierte psychologische Beratungsdienste bereitstellen kann; im Vergleich zu anderen rein promptbasierten Beratungs-Frameworks verbessert AutoCBT die Dialogqualität.

Proposes a multi-agent framework, AutoCBT, for Cognitive Behavioral Therapy; the work proposes a general multi-agent framework that generates high-quality responses for single-turn psychological consultation scenarios; it uses a combination of dynamic routing, memory, and supervisory mechanisms to enhance the autonomous ability of each agent; experimental results show that AutoCBT can provide higher-quality automated psychological counseling services; AutoCBT improves dialogue quality compared to other purely prompt-based counseling frameworks.

Paper-Abstract (Abstract)

Die herkömmliche psychologische Beratung in Präsenz bleibt weitgehend ein Nischenangebot, das vor allem von Menschen mit psychischen Problemen gewählt wird, während automatisierte Online-Beratung eine mögliche Lösung für diejenigen bietet, die sich aus Scham scheuen, Hilfe zu suchen. Die kognitive Verhaltenstherapie (CBT) ist ein essenzieller und weit verbreiteter Ansatz in der psychologischen Beratung. Mit dem Aufkommen von Large Language Models (LLMs) und Agententechnologien werden automatische CBT-Diagnose und -Behandlung möglich. Allerdings verwenden aktuelle LLM-basierte CBT-Systeme Agenten mit fester Struktur, was ihre Selbstoptimierungsfähigkeit einschränkt, oder sie liefern aufgrund redundanter Antwortmuster leere und wenig hilfreiche Vorschläge. In dieser Arbeit nutzen wir Quora-ähnliche Single-Consultation-Modelle und das YiXinLi-Single-Consultation-Modell, um ein allgemeines Agenten-Framework aufzubauen, das hochwertige Antworten für Single-Turn-Szenarien in der psychologischen Beratung erzeugt. Mithilfe eines bilingualen Datensatzes bewerten wir die Qualität der von den einzelnen Frameworks erzeugten Beratungsantworten mit einer einzelnen Antwort. Anschließend integrieren wir dynamisches Routing und Supervisory-Mechanismen, die von realer psychologischer Beratung inspiriert sind, um ein CBT-orientiertes autonomes Multi-Berater-Framework zu konstruieren und damit seine allgemeine Anwendbarkeit zu demonstrieren. Die experimentellen Ergebnisse zeigen, dass AutoCBT höherwertige automatisierte psychologische Beratungsdienste bereitstellen kann.

Traditional in-person psychological counseling remains primarily niche, often chosen by individuals with psychological issues, while online automated counseling offers a potential solution for those hesitant to seek help due to feelings of shame. Cognitive Behavioral Therapy (CBT) is an essential and widely used approach in psychological counseling. The advent of large language models (LLMs) and agent technology enables automatic CBT diagnosis and treatment. However, current LLM-based CBT systems use agents with a fixed structure, limiting their self-optimization capabilities, or providing hollow, unhelpful suggestions due to redundant response patterns. In this work, we utilize Quora-like and YiXinLi single-round consultation models to build a general agent framework that generates high-quality responses for single-turn psychological consultation scenarios. We use a bilingual dataset to evaluate the quality of single-response consultations generated by each framework. Then, we incorporate dynamic routing and supervisory mechanisms inspired by real psychological counseling to construct a CBT-oriented autonomous multi-agent framework, demonstrating its general applicability. Experimental results indicate that AutoCBT can provide higher-quality automated psychological counseling services.

Paper-Link

https://arxiv.org/abs/2501.09426

Weiterführende Lektüre

https://x.com/omarsar0/status/1880283025595867631

Stellen Sie sich vor, während Sie im Raum schlussfolgern: Visualisierung des Denkens: Multimodale Visualisierung / Imagine while Reasoning in Space: Multimodal Visualization-of-Thought

Paper-Einführung

Eingeführt wird MVoT (Multimodal Visualization-of-Thought), ein neues Reasoning-Framework, das es KI-Modellen ermöglicht, sowohl in Text als auch in Bildern zu „denken“, und das traditionelles Chain-of-Thought-Prompting erweitert, indem es Modellen erlaubt, neben textuellen Erklärungen visuelle Darstellungen ihrer Reasoning-Schritte zu erzeugen; das Framework wird in Chameleon-7B, einem multimodalen Sprachmodell, implementiert und führt einen „token discrepancy loss“ ein, um die Qualität der erzeugten Visualisierungen zu verbessern; insbesondere in komplexen Szenarien übertrifft es bestehende Ansätze deutlich, und MVoT erzielt unter anderem bei Aufgaben zu Labyrinthen und zur Druckerinstallation eine Genauigkeit von über 90 % und schneidet damit klar besser ab als bisherige Ansätze.

Introduces MVoT (Multimodal Visualization-of-Thought), a new reasoning framework that enables AI models to "think" in both text and images; MVoT enhances the traditional Chain-of-Thought prompting by allowing models to generate visual representations of their reasoning steps alongside text explanations; the framework is implemented in Chameleon-7B, a multimodal language model, and introduces a "token discrepancy loss" to improve the quality of generated visualizations; MVoT significantly outperforms traditional approaches, especially in complex scenarios; MVoT achieves over 90% accuracy on maze and printer installation tasks.

Paper-Abstract (Abstract)

Chain-of-Thought-(CoT)-Prompting hat sich als äußerst effektiv erwiesen, um komplexes Schlussfolgern in Large Language Models (LLMs) und multimodalen Large Language Models (MLLMs) zu verbessern. Bei komplexen räumlichen Schlussfolgerungsaufgaben stößt es jedoch an Grenzen. Dennoch ist menschliche Kognition nicht allein auf Sprache beschränkt, sondern erweitert sich so, dass bemerkenswerte Denkfähigkeiten sowohl in Worten als auch in Bildern möglich sind. Inspiriert von diesem Mechanismus schlagen wir ein neues Schlussfolgerungsparadigma vor: Multimodal Visualization-of-Thought (MVoT). Es ermöglicht visuelles Denken in MLLMs, indem Bildvisualisierungen ihrer Gedankenspuren erzeugt werden. Um eine hochwertige Visualisierung sicherzustellen, führen wir einen Token-Discrepancy-Loss in autoregressive MLLMs ein. Diese Innovation verbessert sowohl die visuelle Kohärenz als auch die Genauigkeit deutlich. Wir validieren diesen Ansatz anhand mehrerer dynamischer räumlicher Schlussfolgerungsaufgaben. Die experimentellen Ergebnisse zeigen, dass MVoT über verschiedene Aufgaben hinweg eine wettbewerbsfähige Leistung erzielt. Darüber hinaus zeigt es robuste und verlässliche Verbesserungen in den anspruchsvollsten Szenarien, in denen CoT versagt. Letztlich eröffnet MVoT neue Möglichkeiten für komplexe Schlussfolgerungsaufgaben, bei denen visuelles Denken verbales Schlussfolgern wirksam ergänzen kann.

Chain-of-Thought (CoT) prompting has proven highly effective for enhancing complex reasoning in Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs). Yet, it struggles in complex spatial reasoning tasks. Nonetheless, human cognition extends beyond language alone, enabling the remarkable capability to think in both words and images. Inspired by this mechanism, we propose a new reasoning paradigm, Multimodal Visualization-of-Thought (MVoT). It enables visual thinking in MLLMs by generating image visualizations of their reasoning traces. To ensure high-quality visualization, we introduce token discrepancy loss into autoregressive MLLMs. This innovation significantly improves both visual coherence and fidelity. We validate this approach through several dynamic spatial reasoning tasks. Experimental results reveal that MVoT demonstrates competitive performance across tasks. Moreover, it exhibits robust and reliable improvements in the most challenging scenarios where CoT fails. Ultimately, MVoT establishes new possibilities for complex reasoning tasks where visual thinking can effectively complement verbal reasoning.

Paper-Link

https://arxiv.org/abs/2501.07542

Weiterführende Lektüre

https://x.com/omarsar0/status/1879181711982129420

ChemAgent: Verbesserung chemischen Schlussfolgerns in Large Language Models durch eine sich selbst aktualisierende Bibliothek / ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning

Paper-Einführung

Wir stellen ein neues Framework vor, das darauf ausgelegt ist, die Leistung von LLMs beim chemischen Schlussfolgern durch eine dynamische, sich selbst aktualisierende Bibliothek zu verbessern. Die Bibliothek wird entwickelt, indem chemische Aufgaben in Teilaufgaben zerlegt und diese in eine strukturierte Sammlung überführt werden, auf die bei zukünftigen Anfragen zurückgegriffen werden kann; wenn dem System ein neues Problem gegeben wird, greift es relevante Informationen aus der Bibliothek erneut auf und verfeinert sie, um eine effektivere Aufgabenzerlegung zu ermöglichen; die Bibliothek wird dynamisch mit neuen Teilaufgaben und Lösungen aktualisiert, sobald diese auftreten und validiert werden; Experimente auf SciBench zeigen, dass ChemAgent Leistungssteigerungen von bis zu 46 % (GPT-4) erreicht und bestehende Methoden damit deutlich übertrifft.

Presents a new framework designed to improve the performance of LLMs on chemical reasoning through a dynamic, self-updating library; the library is developed by decomposing chemical tasks into sub-tasks and compiling them into a structured collection that can be referenced for future queries; when the system is given a new problem, it retries and refines relevant information from the library to enable more effective task decomposition; the library is dynamically updated with new sub-tasks and solutions as they are encountered and validated; experiments on SciBench demonstrate that ChemAgent achieves performance gains of up to 46% (GPT-4), significantly outperforming existing methods.

Abstract

Chemisches Schlussfolgern umfasst in der Regel komplexe, mehrstufige Prozesse, die präzise Berechnungen erfordern; selbst kleine Fehler können dabei zu einer Kaskade von Fehlschlägen führen. Außerdem haben Large Language Models (LLMs) bei chemischen Schlussfolgerungsaufgaben Schwierigkeiten, domänenspezifische Formeln zu verarbeiten, Schlussfolgerungsschritte präzise auszuführen und Code effektiv zu integrieren. Um diese Herausforderungen zu bewältigen, stellt Unity ChemAgent vor, ein neuartiges Framework, das darauf ausgelegt ist, die Leistung von LLMs durch eine dynamische, sich selbst aktualisierende Bibliothek zu verbessern. Diese Bibliothek wird aufgebaut, indem chemische Aufgaben in Teilaufgaben zerlegt und diese Teilaufgaben in eine strukturierte Sammlung kompiliert werden, auf die bei zukünftigen Anfragen zurückgegriffen werden kann. Wenn dann ein neues Problem vorgelegt wird, ruft ChemAgent relevante Informationen aus der Bibliothek ab, die als Memory bezeichnet wird, verfeinert sie und erleichtert so eine effektive Aufgabenzerlegung und die Erstellung von Lösungen. Dieser Ansatz entwirft drei Arten von Memory sowie eine bibliotheksgestützte Reasoning-Komponente, sodass sich LLMs durch Erfahrung im Laufe der Zeit verbessern können. Experimentelle Ergebnisse auf vier Datensätzen für chemisches Schlussfolgern aus SciBench zeigen, dass ChemAgent Leistungssteigerungen von bis zu 46 % (GPT-4) erzielt und bestehende Methoden damit deutlich übertrifft. Diese Forschungsergebnisse deuten auf erhebliches Potenzial für zukünftige Anwendungen hin, darunter Aufgaben wie Wirkstoffforschung und Materialwissenschaft. Weitere Informationen finden Sie unter https://github.com/gersteinlab/chemagent

Chemisches Schlussfolgern umfasst in der Regel komplexe, mehrstufige Prozesse, die präzise Berechnungen erfordern, wobei selbst kleine Fehler zu einer Kaskade von Fehlschlägen führen können. Darüber hinaus haben Large Language Models (LLMs) bei chemischen Schlussfolgerungsaufgaben Schwierigkeiten, domänenspezifische Formeln zu verarbeiten, Schlussfolgerungsschritte präzise auszuführen und Code effektiv zu integrieren. Um diese Herausforderungen zu bewältigen, präsentieren wir ChemAgent, ein neuartiges Framework, das darauf ausgelegt ist, die Leistung von LLMs durch eine dynamische, sich selbst aktualisierende Bibliothek zu verbessern. Diese Bibliothek wird entwickelt, indem chemische Aufgaben in Teilaufgaben zerlegt und diese Teilaufgaben in eine strukturierte Sammlung kompiliert werden, auf die bei künftigen Anfragen zurückgegriffen werden kann. Wenn dann ein neues Problem gestellt wird, ruft ChemAgent relevante Informationen aus der Bibliothek ab und verfeinert sie, die wir Memory nennen, wodurch eine effektive Aufgabenzerlegung und die Generierung von Lösungen erleichtert werden. Unsere Methode entwirft drei Arten von Memory und eine bibliotheksgestützte Reasoning-Komponente, wodurch sich LLMs im Laufe der Zeit durch Erfahrung verbessern können. Experimentelle Ergebnisse auf vier Datensätzen für chemisches Schlussfolgern aus SciBench zeigen, dass ChemAgent Leistungssteigerungen von bis zu 46 % (GPT-4) erzielt und bestehende Methoden deutlich übertrifft. Unsere Ergebnisse deuten auf erhebliches Potenzial für künftige Anwendungen hin, darunter Aufgaben wie Wirkstoffforschung und Materialwissenschaft. Unser Code ist unter https://github.com/gersteinlab/chemagent zu finden

Dieser Beitrag wurde mit einem GPT-Modell zusammengestellt und kann daher Fehler enthalten; bitte ziehen Sie auch den Originaltext am Ende des Beitrags zurate! Wenn Ihnen beim Lesen unnatürliche Formulierungen oder Fehler auffallen, teilen Sie uns das bitte in den Kommentaren mit.* 🤗

⚠️Werbung⚠️: Fanden Sie diesen von der 🔥PyTorch Korean User Group🇰🇷 zusammengestellten Beitrag nützlich? Wenn Sie sich als Mitglied registrieren, senden wir Ihnen wichtige Beiträge per E-Mail💌 zu! Standardmäßig wöchentlich, aber Sie können auch auf täglich umstellen.

[2025/01/13 ~ 01/19] Die wichtigsten ML-Papers dieser Woche (Top ML Papers of the Week)

$\text{Transformer}^2$: selbstadaptive LLMs / $\text{Transformer}^2$: Self-adaptive LLMs

Paper-Einführung

Abstract

Paper-Link

Weiterführende Lektüre

MiniMax-01: Foundation-Modelle mit Lightning Attention blitzschnell skalieren / MiniMax-01: Scaling Foundation Models with Lightning Attention

Paper-Einführung

Paper-Abstract

Paper-Link

Weiterführende Links

VideoRAG: Retrieval-Augmented Generation über Video-Korpora / VideoRAG: Retrieval-Augmented Generation over Video Corpus

Paper-Einführung

Paper-Abstract

Paper-Link

Weiterlesen

Titans: Lernen, sich zur Testzeit Dinge einzuprägen / Titans: Learning to Memorize at Test Time

Paper-Vorstellung

Paper-Abstract (Abstract)

Paper-Link

Weiterlesen

Grundlagen großer Sprachmodelle / Foundations of Large Language Models

Paper-Vorstellung

Abstract

Paper-Link

Weiterlesen

OmniThink: Erweiterung von Wissensgrenzen im maschinellen Schreiben durch Denken / OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking

Paper-Vorstellung

Abstract

Paper-Link

Weiterführende Lektüre

Verbesserung von Retrieval-Augmented Generation: Eine Studie zu Best Practices / Enhancing Retrieval-Augmented Generation: A Study of Best Practices

Paper-Vorstellung

Paper-Abstract

Paper-Link

Weiterführende Lektüre

AutoCBT: Ein autonomes Multi-Agenten-Framework für kognitive Verhaltenstherapie in der psychologischen Beratung / AutoCBT: An Autonomous Multi-agent Framework for Cognitive Behavioral Therapy in Psychological Counseling

Paper-Einführung

Paper-Abstract (Abstract)

Paper-Link

Weiterführende Lektüre

Stellen Sie sich vor, während Sie im Raum schlussfolgern: Visualisierung des Denkens: Multimodale Visualisierung / Imagine while Reasoning in Space: Multimodal Visualization-of-Thought

Paper-Einführung

Paper-Abstract (Abstract)

Paper-Link

Weiterführende Lektüre

ChemAgent: Verbesserung chemischen Schlussfolgerns in Large Language Models durch eine sich selbst aktualisierende Bibliothek / ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning

Paper-Einführung

Abstract

Paper-Link

Mehr lesen

Original

Verwandte Beiträge

Noch keine Kommentare.