ML-Paper dieser Woche

(discuss.pytorch.kr)

7 Punkte von ninebow 2025-10-01 | Noch keine Kommentare. | Auf WhatsApp teilen

[2025/09/22 ~ 28] Lesenswerte AI/ML-Paper dieser Woche

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Fortschritte bei AI-Agenten: Jüngste Forschungen untersuchen, wie sich Paper in AI-Agenten umwandeln lassen. Paper2Agent etwa transformiert Forschungsergebnisse in aktive Systeme, damit Nutzer sie leichter anwenden können. Dieser Ansatz fördert die Verbreitung und Wiederverwendung von Forschungsergebnissen und eröffnet ein neues Paradigma, in dem AI als Forschungsassistenz fungiert.

2️⃣ Integration von parallelem Denken und Reinforcement Learning: Arbeiten wie Parallel-R1 und ParaThinker schlagen vor, paralleles Denken zu nutzen, um die Denkfähigkeit großer Sprachmodelle (LLMs) zu verbessern. Sie steigern die Leistung, indem sie mit Reinforcement Learning (RL) gleichzeitig verschiedene Denkpfade erkunden, die zur Lösung komplexer Probleme nötig sind. Dieser Ansatz trägt dazu bei, im Vergleich zu bestehenden sequenziellen Denkmodellen eine höhere Genauigkeit zu erreichen.

3️⃣ Integration von Information Retrieval und Strukturierung: Forschungen zu Retrieval And Structuring (RAS) Augmented Generation untersuchen, wie sich dynamisches Information Retrieval und strukturierte Wissensrepräsentation kombinieren lassen, um die Grenzen von LLMs zu überwinden. Dieser Ansatz trägt zur Leistungssteigerung von LLMs bei, indem unstrukturierter Text in organisierte Formen überführt und verschiedene Mechanismen zum Zugriff auf externes Wissen erforscht werden.

Paper2Agent: Forschungsarbeiten als interaktive und verlässliche AI-Agenten neu denken / Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents

Paper-Einführung

Paper2Agent ist ein automatisiertes Framework, das Forschungsarbeiten in interaktive künstliche Intelligenz-(AI-)Agenten umwandelt, und präsentiert einen innovativen Ansatz, um die Nutzung und Verbreitung von Forschungsergebnissen zu beschleunigen. Herkömmliche Forschungsarbeiten verlangen von den Lesern erheblichen Aufwand, um Inhalte zu verstehen und anzuwenden, was eine Hürde für Wiederverwendung und Verbreitung darstellt. Um dieses Problem zu lösen, analysiert Paper2Agent systematisch die Arbeit und die zugehörige Codebasis und nutzt mehrere Agenten, um einen Model Context Protocol (MCP)-Server aufzubauen. Dabei wird das MCP durch wiederholte Tests verbessert und gehärtet, sodass am Ende ein AI-Agent entsteht, der komplexe wissenschaftliche Abfragen in natürlicher Sprache ausführen kann.

Dieses Framework hat Agenten entwickelt, die mithilfe verschiedener Methodologien wie AlphaGenome, ScanPy und TISSUE genomische Varianteninterpretation und Single-Cell-Analysen durchführen. Diese Agenten können nicht nur die Ergebnisse der Originalarbeit reproduzieren, sondern auch auf neue Nutzeranfragen präzise antworten. Indem Paper2Agent statische Forschungsarbeiten in dynamische und interaktive AI-Agenten verwandelt, eröffnet es ein neues Paradigma für Wissensverbreitung und legt die Grundlage für ein Ökosystem kooperativer AI-Co-Scientists.

Diese Forschung verändert die Art wissenschaftlicher Kommunikation grundlegend und trägt dazu bei, Forschungsergebnisse von bloßen Dokumenten in aktive wissensbasierte Systeme zu überführen. Mit Paper2Agent können Forschende mit Agenten in natürlicher Sprache interagieren und Forschungsmethoden einfach anwenden, ohne komplexe Software-Ökosysteme beherrschen zu müssen. Dieser Ansatz erhöht die Zugänglichkeit von Forschungsergebnissen, fördert die Demokratisierung fortgeschrittener Methodologien und spielt eine wichtige Rolle dabei, die Geschwindigkeit praktischer Forschungsanwendungen zu erhöhen.

Letztlich wird sich Paper2Agent als innovative Plattform etablieren, die die Nutzbarkeit von Forschungsarbeiten maximiert und eine interaktive, kollaborative Verbreitung wissenschaftlichen Wissens ermöglicht.

Abstract des Papers

Wir stellen Paper2Agent vor, ein automatisiertes Framework, das Forschungsarbeiten in AI-Agenten umwandelt. Paper2Agent transformiert Forschungsergebnisse von passiven Artefakten in aktive Systeme, die die nachgelagerte Nutzung, Adoption und Entdeckung beschleunigen können. Konventionelle Forschungsarbeiten verlangen von den Lesern erhebliche Investitionen, um den Code, die Daten und Methoden eines Papers zu verstehen und an die eigene Arbeit anzupassen, was Hürden für Verbreitung und Wiederverwendung schafft. Paper2Agent adressiert diese Herausforderung, indem es ein Paper automatisch in einen AI-Agenten umwandelt, der als sachkundiger Forschungsassistent fungiert. Das System analysiert die Arbeit und die zugehörige Codebasis systematisch mit mehreren Agenten, konstruiert einen Model Context Protocol (MCP)-Server und erzeugt und führt dann iterativ Tests aus, um das resultierende MCP zu verfeinern und robuster zu machen. Diese Paper-MCPs können anschließend flexibel mit einem Chat-Agenten (z. B. Claude Code) verbunden werden, um komplexe wissenschaftliche Abfragen in natürlicher Sprache auszuführen und dabei Tools und Workflows aus der Originalarbeit aufzurufen. Wir zeigen die Wirksamkeit von Paper2Agent bei der Erstellung verlässlicher und leistungsfähiger Paper-Agenten durch eingehende Fallstudien. Paper2Agent erzeugte einen Agenten, der AlphaGenome zur Interpretation genomischer Varianten nutzt, sowie Agenten auf Basis von ScanPy und TISSUE, die Single-Cell- und Spatial-Transcriptomics-Analysen durchführen. Wir validieren, dass diese Paper-Agenten die Ergebnisse der Originalarbeit reproduzieren und neue Nutzeranfragen korrekt ausführen können. Indem statische Papers in dynamische, interaktive AI-Agenten verwandelt werden, führt Paper2Agent ein neues Paradigma für Wissensverbreitung und ein Fundament für das kollaborative Ökosystem von AI-Co-Scientists ein.
> We introduce Paper2Agent, an automated framework that converts research papers into AI agents. Paper2Agent transforms research output from passive artifacts into active systems that can accelerate downstream use, adoption, and discovery. Conventional research papers require readers to invest substantial effort to understand and adapt a paper's code, data, and methods to their own work, creating barriers to dissemination and reuse. Paper2Agent addresses this challenge by automatically converting a paper into an AI agent that acts as a knowledgeable research assistant. It systematically analyzes the paper and the associated codebase using multiple agents to construct a Model Context Protocol (MCP) server, then iteratively generates and runs tests to refine and robustify the resulting MCP. These paper MCPs can then be flexibly connected to a chat agent (e.g. Claude Code) to carry out complex scientific queries through natural language while invoking tools and workflows from the original paper. We demonstrate Paper2Agent's effectiveness in creating reliable and capable paper agents through in-depth case studies. Paper2Agent created an agent that leverages AlphaGenome to interpret genomic variants and agents based on ScanPy and TISSUE to carry out single-cell and spatial transcriptomics analyses. We validate that these paper agents can reproduce the original paper's results and can correctly carry out novel user queries. By turning static papers into dynamic, interactive AI agents, Paper2Agent introduces a new paradigm for knowledge dissemination and a foundation for the collaborative ecosystem of AI co-scientists.

Paper-Link

https://arxiv.org/abs/2509.06917

Weiterführende Lektüre

https://github.com/jmiao24/Paper2Agent

https://huggingface.co/spaces/Paper2Agent/alphagenome_agent

Paralleles Denken: Methode zur Verbesserung paralleler Denkfähigkeiten durch Reinforcement Learning / Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

Einführung in das Paper

Paralleles Denken ist ein innovativer Ansatz zur Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle (LLMs), bei dem mehrere Schlussfolgerungspfade gleichzeitig erkundet werden. Bestehende Verfahren des Supervised Fine-Tuning (SFT) haben jedoch die Einschränkung, dass sie auf synthetischen Daten beruhen und das Modell dadurch auf bloßes Imitationslernen beschränken, was Exploration und Generalisierung behindert. Um dieses Problem zu lösen, wurde Parallel-R1 vorgeschlagen, das erste Reinforcement-Learning-(RL-)Framework, das parallele Denkverhalten für die Lösung komplexer realer Probleme ermöglicht.

Parallel-R1 verwendet einen zweistufigen Trainingsprozess mit einem progressiven Curriculum: Zunächst lernt das Modell einfache Probleme, anschließend erkundet und generalisiert es mithilfe von RL parallele Denkfähigkeiten für schwierigere Aufgaben. Dabei zeigt das Modell die Tendenz, paralleles Denken in der Anfangsphase als Explorationsstrategie zu nutzen und es in späteren Phasen zu einer Strategie für mehrperspektivische Verifikation weiterzuentwickeln. Experimentelle Ergebnisse zeigen, dass Parallel-R1 auf verschiedenen Mathematik-Benchmarks eine um 8,4 % höhere Genauigkeit als bestehende sequenzielle Denkmodelle erreicht; insbesondere auf dem AIME25-Benchmark wurde eine Leistungssteigerung von 42,9 % erzielt.

Der wichtigste Beitrag dieser Forschung besteht darin, ein RL-Framework für paralleles Denken vorzuschlagen, das das Modell dazu anleitet, paralleles Denken selbst zu erlernen. Darüber hinaus übernimmt der Explorationsmechanismus des parallelen Denkens eine strukturelle Rolle, indem er das Modell zu effektiveren Bereichen im Policy-Raum führt und so zum Lernen der finalen Policy beiträgt. Parallel-R1 kann als wichtige Grundlage zur Verbesserung der Reasoning-Fähigkeiten von LLMs dienen und dürfte künftige Forschung dabei unterstützen, das Konzept des parallelen Denkens weiterzuentwickeln.

Abstract

Paralleles Denken ist ein neuer Ansatz zur Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle (LLMs), bei dem mehrere Schlussfolgerungspfade gleichzeitig erkundet werden. Die Aktivierung dieser Fähigkeit durch Training bleibt jedoch schwierig, da bestehende Methoden überwiegend auf überwachtes Fine-Tuning (SFT) mit synthetischen Daten setzen, was eher lehrergeführte Imitation als Exploration und Generalisierung fördert. Im Gegensatz dazu schlagen wir \textbf{Parallel-R1} vor, das erste Reinforcement-Learning-(RL-)Framework, das parallele Denkverhalten für komplexe reale Reasoning-Aufgaben ermöglicht. Unser Framework verwendet ein progressives Curriculum, das das Cold-Start-Problem beim Training parallelen Denkens mit RL explizit adressiert. Zunächst nutzen wir SFT auf promptgenerierten Trajektorien aus einfacheren Aufgaben, um die Fähigkeit zum parallelen Denken zu vermitteln, und wechseln dann zu RL, um diese Fähigkeit auf schwierigeren Problemen zu erkunden und zu generalisieren. Experimente auf verschiedenen Mathematik-Benchmarks, darunter MATH, AMC23 und AIME, zeigen, dass Parallel-R1 paralleles Denken erfolgreich vermittelt und gegenüber einem sequenziellen Denkmodell, das direkt mit RL auf schwierigen Aufgaben trainiert wurde, eine Genauigkeitssteigerung von 8,4 % erzielt. Weitere Analysen zeigen eine klare Veränderung im Denkverhalten des Modells: In einer frühen Phase nutzt es paralleles Denken als Explorationsstrategie, während es dieselbe Fähigkeit in einer späteren Phase zur Verifikation aus mehreren Perspektiven einsetzt. Besonders wichtig ist, dass wir paralleles Denken als \textbf{Explorationsgerüst während der mittleren Trainingsphase} validieren konnten, wobei diese temporäre Explorationsphase nach RL eine höhere Leistungsobergrenze erschließt und auf AIME25 eine Verbesserung von 42,9 % gegenüber der Baseline ermöglicht. Unser Modell, unsere Daten und unser Code werden unter https://github.com/zhengkid/Parallel-R1 als Open Source verfügbar sein.

Parallel thinking has emerged as a novel approach for enhancing the reasoning capabilities of large language models (LLMs) by exploring multiple reasoning paths concurrently. However, activating such capabilities through training remains challenging, as existing methods predominantly rely on supervised fine-tuning (SFT) over synthetic data, which encourages teacher-forced imitation rather than exploration and generalization. Different from them, we propose \textbf{Parallel-R1}, the first reinforcement learning (RL) framework that enables parallel thinking behaviors for complex real-world reasoning tasks. Our framework employs a progressive curriculum that explicitly addresses the cold-start problem in training parallel thinking with RL. We first use SFT on prompt-generated trajectories from easier tasks to instill the parallel thinking ability, then transition to RL to explore and generalize this skill on harder problems. Experiments on various math benchmarks, including MATH, AMC23, and AIME, show that Parallel-R1 successfully instills parallel thinking, leading to 8.4% accuracy improvements over the sequential thinking model trained directly on challenging tasks with RL. Further analysis reveals a clear shift in the model's thinking behavior: at an early stage, it uses parallel thinking as an exploration strategy, while in a later stage, it uses the same capability for multi-perspective verification. Most significantly, we validate parallel thinking as a \textbf{mid-training exploration scaffold}, where this temporary exploratory phase unlocks a higher performance ceiling after RL, yielding a 42.9% improvement over the baseline on AIME25. Our model, data, and code will be open-source at https://github.com/zhengkid/Parallel-R1.

Paper-Link

https://arxiv.org/abs/2509.07980

Weiterführende Lektüre

https://zhengkid.github.io/Parallel_R1.github.io/

https://github.com/zhengkid/Parallel-R1

Survey zu Retrieval- und Structuring-Augmented Generation mit großen Sprachmodellen / A Survey on Retrieval And Structuring Augmented Generation with Large Language Models

Einführung in das Paper

Große Sprachmodelle (LLMs) haben im Bereich der natürlichen Sprachverarbeitung bahnbrechende Fortschritte erzielt, stehen in realen Anwendungen jedoch vor Problemen wie Halluzinationen, veraltetem Wissen und begrenzter Domain-Expertise. Um diese Grenzen zu überwinden, trägt der vorgeschlagene Ansatz der Retrieval- und Structuring-Augmented Generation (RAS) dazu bei, die Leistung von LLMs zu verbessern, indem er dynamische Informationsgewinnung mit strukturierter Wissensrepräsentation kombiniert. Diese Studie untersucht verschiedene Retrieval-Mechanismen für den Zugriff auf externes Wissen, darunter sparse, dense und hybride Ansätze. Diese Retrieval-Mechanismen unterstützen LLMs dabei, präzisere und verlässlichere Informationen zu erzeugen.

Auch Textstrukturierungstechnologien, die unstrukturierten Text in organisierte Repräsentationen umwandeln, spielen eine wichtige Rolle. Durch Methoden wie Taxonomieaufbau, hierarchische Klassifikation und Informationsextraktion steigern LLMs ihre Fachkompetenz in bestimmten Domänen und ermöglichen mehrstufiges Schlussfolgern bei komplexen Abfragen. RAS integriert diese strukturierten Repräsentationen mit LLMs und verbessert so deren Fähigkeit zur Antwortgenerierung durch promptbasierte Methoden, Inferenz-Frameworks und Knowledge-Embedding-Techniken.

Diese Studie identifiziert die technischen Herausforderungen von RAS und betont die Bedeutung von Retrieval-Effizienz, Strukturqualität und Wissensintegration. Darüber hinaus zeigt sie künftige Forschungsmöglichkeiten wie multimodales Retrieval, cross-linguale Strukturen und interaktive Systeme auf, um die Einsatzmöglichkeiten von LLMs zu erweitern. Der RAS-Ansatz gilt als innovative Methodik, die die Leistung von LLMs maximieren kann und voraussichtlich zur Weiterentwicklung der natürlichen Sprachverarbeitung beitragen wird.

Paper-Abstract

Große Sprachmodelle (LLMs) haben die natürliche Sprachverarbeitung mit ihren bemerkenswerten Fähigkeiten bei Textgenerierung und Schlussfolgern revolutioniert. Allerdings stehen diese Modelle bei der Bereitstellung in realen Anwendungen vor wesentlichen Herausforderungen, darunter Halluzinationen, veraltetes Wissen und begrenzte Domänenexpertise. Retrieval-and-Structuring-(RAS)-Augmented-Generation begegnet diesen Einschränkungen, indem dynamisches Information Retrieval mit strukturierten Wissensrepräsentationen integriert wird. Diese Survey-Arbeit untersucht (1) Retrieval-Mechanismen einschließlich spärlicher, dichter und hybrider Ansätze für den Zugriff auf externes Wissen; (2) Textstrukturierungstechniken wie Taxonomieaufbau, hierarchische Klassifikation und Informationsextraktion, die unstrukturierten Text in organisierte Repräsentationen umwandeln; und (3) wie diese strukturierten Repräsentationen über promptbasierte Methoden, Inferenz-Frameworks und Knowledge-Embedding-Techniken mit LLMs integriert werden. Darüber hinaus identifiziert sie technische Herausforderungen bei Retrieval-Effizienz, Strukturqualität und Wissensintegration und hebt Forschungsmöglichkeiten in multimodalem Retrieval, cross-lingualen Strukturen und interaktiven Systemen hervor. Dieser umfassende Überblick bietet Forschenden und Praktikern Einblicke in RAS-Methoden, Anwendungen und zukünftige Richtungen.

Large Language Models (LLMs) have revolutionized natural language processing with their remarkable capabilities in text generation and reasoning. However, these models face critical challenges when deployed in real-world applications, including hallucination generation, outdated knowledge, and limited domain expertise. Retrieval And Structuring (RAS) Augmented Generation addresses these limitations by integrating dynamic information retrieval with structured knowledge representations. This survey (1) examines retrieval mechanisms including sparse, dense, and hybrid approaches for accessing external knowledge; (2) explore text structuring techniques such as taxonomy construction, hierarchical classification, and information extraction that transform unstructured text into organized representations; and (3) investigate how these structured representations integrate with LLMs through prompt-based methods, reasoning frameworks, and knowledge embedding techniques. It also identifies technical challenges in retrieval efficiency, structure quality, and knowledge integration, while highlighting research opportunities in multimodal retrieval, cross-lingual structures, and interactive systems. This comprehensive overview provides researchers and practitioners with insights into RAS methods, applications, and future directions.

Paper-Link

https://arxiv.org/abs/2509.10697

ParaThinker: Native paralleles Denken als neues Paradigma zur Skalierung von LLM-Test-Time-Compute / ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute

Paper-Einführung

Die Weiterentwicklung großer Sprachmodelle (LLMs) stützt sich in jüngster Zeit stark auf Strategien zur Skalierung von Test-Time-Compute, was zur Verbesserung der Inferenzfähigkeiten der Modelle beiträgt. Allerdings stoßen diese Ansätze auf einen Flaschenhals, bei dem die Leistungssteigerung mit zunehmendem Rechenaufwand nur noch gering ausfällt. Dieses Problem zeigt sich in einem als "Tunnel Vision" bezeichneten Phänomen, bei dem unvollständiges Schlussfolgern in frühen Phasen dazu führt, dass das Modell auf suboptimalen Pfaden feststeckt. Um dieses Problem zu lösen, wurde mit Native Thought Parallelism ein neues Paradigma vorgeschlagen, bei dem mehrere unterschiedliche Schlussfolgerungspfade gleichzeitig erzeugt und anschließend zu einer endgültigen Antwort zusammengeführt werden.

Das End-to-End-Framework ParaThinker konzentriert sich auf die Umsetzung dieser Denkparallelität. Das System wird so trainiert, dass das Modell unabhängig voneinander vielfältige Gedankengänge erzeugt, wodurch das Tunnel-Vision-Problem wirksam umgangen und die potenzielle Inferenzleistung des Modells maximiert wird. ParaThinker erreicht dieses Ziel durch drei zentrale Innovationen. Erstens werden trainierbare Kontroll-Tokens eingeführt, um die Eigenständigkeit jedes Pfads sicherzustellen, zweitens werden gedankenspezifische Positions-Embeddings verwendet, um die Herkunft jedes Pfads klar zu unterscheiden, und drittens ermöglicht eine Strategie des Supervised Fine-Tuning, dass das Modell mehr parallele Pfade erzeugen kann.

Dieser Ansatz erzielte auf anspruchsvollen Reasoning-Benchmarks im Vergleich zu bestehenden autoregressiven Reasoning-Modellen eine durchschnittliche Genauigkeitssteigerung von 12,3 % beim 1.5B-Modell und 7,5 % beim 7B-Modell, während die Latenz mit 7,1 % nur geringfügig zunahm. Damit zeigt ParaThinker das Potenzial, dass kleinere Modelle deutlich größere Modelle übertreffen können, und weist einen neuen Weg für die künftige Skalierung von LLMs. Die Forschungsergebnisse leisten einen wichtigen Beitrag zum LLM-Forschungsfeld, indem sie den Flaschenhals im Reasoning-Prozess von LLMs aufzeigen und belegen, dass Native Thought Parallelism eine bessere Skalierungsmethode ist.

Paper-Abstract

Die jüngsten Fortschritte bei Large Language Models (LLMs) wurden durch die Skalierung der Rechenleistung zur Testzeit vorangetrieben – eine Strategie, die das Schlussfolgern verbessert, indem längere, sequenzielle Denkprozesse erzeugt werden. Obwohl dieser Ansatz wirksam ist, stößt er mit zunehmender Rechenleistung auf einen erheblichen Flaschenhals: Zusätzliche Berechnung bringt nur noch geringe Leistungsgewinne. Wir argumentieren, dass diese Grenze keine inhärente Beschränkung der Modellfähigkeit ist, sondern ein Fehler der Skalierungsstrategie selbst. Wir bezeichnen dieses Phänomen als „Tunnel Vision“: Unvollständige frühe Schritte des Modells führen dazu, dass es auf einem suboptimalen Schlussfolgerungspfad festgelegt wird. Um dies zu überwinden, führen wir ein neues Skalierungsparadigma ein: native Gedankenparallelität. Wir stellen ParaThinker vor, ein End-to-End-Framework, das ein LLM darauf trainiert, mehrere unterschiedliche Schlussfolgerungspfade parallel zu erzeugen und sie zu einer überlegenen finalen Antwort zu synthetisieren. Indem verschiedene Denkansätze gleichzeitig erkundet werden, umgeht ParaThinker das Tunnel-Vision-Problem effektiv und erschließt das latente Schlussfolgerungspotenzial des Modells. Unser Ansatz zeigt, dass die parallele Skalierung von Rechenleistung (Breite) ein effektiverer und effizienterer Weg zu besserem Schlussfolgern ist als die bloß sequenzielle Skalierung (Tiefe). Auf anspruchsvollen Reasoning-Benchmarks erzielt ParaThinker im Vergleich zu sequenziellen LLMs deutliche Genauigkeitssteigerungen (durchschnittlich 12,3 % bei 1.5B-Modellen und 7,5 % bei 7B-Modellen), während der Latenz-Overhead minimal bleibt (7,1 %). Dadurch können kleinere Modelle deutlich größere Gegenstücke übertreffen, und paralleles Denken etabliert sich als eine kritische, effiziente Dimension für die Skalierung künftiger LLMs.

Recent advances in Large Language Models (LLMs) have been driven by test-time compute scaling - a strategy that improves reasoning by generating longer, sequential thought processes. While effective, this approach encounters a significant bottleneck as computation increases, where further computation offers only marginal performance gains. We argue this ceiling is not an inherent limit of the model's capability but a flaw in the scaling strategy itself, a phenomenon we term "Tunnel Vision", where a model's imperfect initial steps lock it into a suboptimal reasoning path. To overcome this, we introduce a new scaling paradigm: native thought parallelism. We present ParaThinker, an end-to-end framework that trains an LLM to generate multiple, diverse reasoning paths in parallel and synthesize them into a superior final answer. By exploring different lines of thoughts simultaneously, ParaThinker effectively sidesteps the Tunnel Vision issue and unlocks the model's latent reasoning potential. Our approach demonstrates that scaling compute in parallel (width) is a more effective and efficient way to superior reasoning than simply scaling sequentially (depth). On challenging reasoning benchmarks, ParaThinker achieves substantial accuracy improvements over sequential LLMs (12.3% for 1.5B and 7.5% for 7B models on average with 8 parallel paths), while adding only negligible latency overhead (7.1%). This enables smaller models to surpass much larger counterparts and establishes parallel thinking as a critical, efficient dimension for scaling future LLMs.

Paper-Link

https://arxiv.org/abs/2509.04475

In-Context Fine-Tuning für Time-Series-Foundation-Modelle / In-Context Fine-Tuning for Time-Series Foundation Models

Paper-Einführung

Die Vorhersage von Zeitreihendaten ist in vielen Bereichen eine wichtige Aufgabe, und die jüngsten Fortschritte bei Time-Series-Foundation-Modellen eröffnen neue Möglichkeiten zur Lösung dieses Problems. In dieser Studie wird eine neue Methodik vorgeschlagen, um die Leistung solcher Modelle zu maximieren: $\textit{in-context fine-tuning}$. Diese Methodik ist darauf ausgelegt, dass ein vortrainiertes Foundation-Modell mehrere Zeitreihenbeispiele nutzt, um eine bestimmte Zeitreihe in die Zukunft zu prognostizieren.

Das vorgeschlagene Modell wird nicht nur mit der Historie der Zielzeitreihe trainiert, sondern nutzt auch Beispiele verwandter Zeitreihen im Kontextfenster, damit es sich während der Inferenz an die spezifische Verteilung der Zieldomäne anpassen kann. Dieser Ansatz ermöglicht es dem Modell, Muster aus unterschiedlichen Zeitreihen zu lernen und auf dieser Grundlage präzisere Vorhersagen zu treffen. Die experimentellen Ergebnisse zeigen, dass dieses Modell gegenüber überwachtem Deep Learning, statistischen Modellen und anderen bestehenden Time-Series-Foundation-Modellen deutlich überlegen ist.

Insbesondere liefert der In-Context-Fine-Tuning-Ansatz eine Leistung, die selbst mit Modellen konkurrieren kann, die explizit auf die Zieldomäne feinabgestimmt wurden, was die Innovationskraft dieser Methodik unterstreicht. Die Modellarchitektur basiert auf TimesFM und ist so aufgebaut, dass sie Zeitreihendaten effizient verarbeiten kann. Die Eingabebeispiele werden in Patches der Länge $p$ aufgeteilt und mithilfe einer Padding-Maske verarbeitet, um die Genauigkeit der Vorhersage sicherzustellen.

Im Tokenisierungsprozess werden Patches und Maske zu erzeugten Tokens zusammengeführt, die in gestapelte Transformer-Layer eingespeist werden; daraus werden die Vorhersageergebnisse abgeleitet. Diese Abfolge spielt eine wichtige Rolle dabei, dass das Modell die Eingabedaten effektiv verarbeitet und die Zeitreihe der nächsten $h$ Schritte vorhersagt. Diese Studie präsentiert einen neuen Ansatz für die Vorhersage von Zeitreihendaten und zeigt empirisch, dass In-Context Fine-Tuning eine bessere Leistung als bestehende Methoden erzielen kann.

Abstract

Angespornt vom jüngsten Erfolg von Time-Series-Foundation-Modellen für Zero-Shot-Prognosen präsentieren wir eine Methodik für das $\textit{In-Context-Fine-Tuning}$ eines Time-Series-Foundation-Modells. Konkret entwerfen wir ein vortrainiertes Foundation-Modell, das zur Vorhersage einer Ziel-Zeitreihe in die Zukunft mit mehreren Zeitreihenbeispielen gepromptet werden kann. Unser Foundation-Modell wird gezielt darauf trainiert, im Kontextfenster zusätzlich zur Historie der Ziel-Zeitreihe Beispiele aus mehreren verwandten Zeitreihen zu nutzen, um sich bei der Inferenz an die spezifische Verteilung der Zieldomäne anzupassen. Wir zeigen, dass ein solches Foundation-Modell, das bei der Inferenz In-Context-Beispiele verwendet, auf gängigen Forecasting-Benchmarks deutlich bessere Ergebnisse erzielen kann als überwachte Deep-Learning-Methoden, statistische Modelle sowie andere Time-Series-Foundation-Modelle. Interessanterweise kann unser In-Context-Fine-Tuning-Ansatz sogar mit der Leistung eines Foundation-Modells konkurrieren, das explizit auf die Zieldomäne feinabgestimmt wurde.
> Motivated by the recent success of time-series foundation models for zero-shot forecasting, we present a methodology for $\textit{in-context fine-tuning}$ of a time-series foundation model. In particular, we design a pretrained foundation model that can be prompted (at inference time) with multiple time-series examples, in order to forecast a target time-series into the future. Our foundation model is specifically trained to utilize examples from multiple related time-series in its context window (in addition to the history of the target time-series) to help it adapt to the specific distribution of the target domain at inference time. We show that such a foundation model that uses in-context examples at inference time can obtain much better performance on popular forecasting benchmarks compared to supervised deep learning methods, statistical models, as well as other time-series foundation models. Interestingly, our in-context fine-tuning approach even rivals the performance of a foundation model that is explicitly fine-tuned on the target domain.

Paper-Link

https://arxiv.org/abs/2410.24087

Weiterlesen

https://research.google/blog/…

https://icml.cc/virtual/2025/poster/43707

1 Bit ist alles, was wir brauchen: binär normalisierte neuronale Netze / 1 bit is all we need: binary normalized neural networks

Paper-Einführung

Die Weiterentwicklung großer neuronaler Netzwerkmodelle liefert in verschiedenen Anwendungsbereichen hervorragende Leistungen, doch mit dem Größenwachstum dieser Modelle entstehen Herausforderungen bei den Speicheranforderungen und der Recheneffizienz. Um diese Probleme zu lösen, schlägt diese Studie einen neuen Typ neuronalen Netzwerkmodells vor, die binär normalisierte Schicht (binary normalized layer), bei der die Parameter aller Layer auf ein einziges Bit beschränkt werden. Diese Schicht setzt sämtliche Parameter, einschließlich Kernel-Gewichten und Biases, auf 0 oder 1 und ist so ausgelegt, dass der Speicherverbrauch drastisch reduziert wird, während eine ähnliche Leistung wie bei Modellen mit herkömmlichen 32-Bit-Gleitkomma-Parametern erhalten bleibt.

Die binär normalisierte Schicht lässt sich auf verschiedene neuronale Netzwerkarchitekturen anwenden, darunter Fully Connected, Convolution und Attention, und verwendet im Trainingsprozess zwei Formen von Werten — 32-Bit-Werte in voller Präzision und binarisierte Werte —, um stabiles Lernen zu gewährleisten. In dieser Arbeit wurden zwei Modelle konstruiert, die binär normalisierte Schichten nutzen, um Probleme der Multiklassen-Bildklassifikation und des Language-Decoding zu lösen. Die experimentellen Ergebnisse zeigen, dass diese Modelle nahezu dieselbe Leistung wie Modelle mit herkömmlichen 32-Bit-Parametern erreichen, während der Speicherverbrauch um das 32-Fache sinkt.

Dieser innovative Ansatz besitzt das Potenzial, die Effizienz großer neuronaler Netzwerkmodelle erheblich zu verbessern, und bietet den Vorteil, dass er sich auch auf kostengünstiger Hardware leicht umsetzen lässt. Mit binär normalisierten Schichten eröffnet sich eine neue Möglichkeit, die Speicheranforderungen neuronaler Netzwerkmodelle zu senken und ihre Praxistauglichkeit in unterschiedlichen Anwendungsfeldern zu erhöhen. Künftige Forschung wird voraussichtlich darauf abzielen, die Leistung binär normalisierter Schichten weiter zu verbessern und Methoden für ihren Einsatz in verschiedenen Bereichen zu untersuchen.

Paper-Abstract

Im Folgenden finden Sie Abstracts aus dem Bereich AI/ML. Mit der zunehmenden Größe großer neuronaler Netzwerkmodelle, insbesondere von Sprachmodellen und Foundation-Image-Modellen, entstehen Herausforderungen bei der Bereitstellung, was Bemühungen ausgelöst hat, den Speicherbedarf zu senken und die Recheneffizienz zu verbessern. Diese Bemühungen sind entscheidend, um die praktische Bereitstellung und die effektive Nutzung dieser Modelle in verschiedenen Anwendungen sicherzustellen. In dieser Arbeit wurde ein neuartiger Typ neuronaler Netzwerkschichten und -modelle entwickelt, der ausschließlich Single-Bit-Parameter verwendet. Bei diesem neuen Modelltyp haben alle Parameter aller Schichten, also Kernel-Gewichte und Biases, ausschließlich die Werte 0 oder 1. Dieser neue Modelltyp verwendet Schichten mit der Bezeichnung binary normalized layer. Diese binary normalized layers können jeden Typ annehmen, etwa Fully Connected, Convolutional, Attention usw., und bestehen aus leichten Abwandlungen der entsprechenden konventionellen Schichten. Um die Wirksamkeit der binary normalized layers zu demonstrieren, wurden zwei Modelle zur Lösung eines Multiclass-Bildklassifikationsproblems sowie ein Sprachdecoder zur Vorhersage des nächsten Tokens einer Sequenz aufgebaut. Das Modell zur Bildklassifikation besteht aus Convolutional- und Fully-Connected-Schichten, und das Sprachmodell setzt sich aus Transformer-Blöcken mit Multi-Head-Attention zusammen. Die Ergebnisse zeigen, dass Modelle mit binary normalized layers nahezu dieselben Resultate liefern wie äquivalente Modelle mit reellen 32-Bit-Parametern. Binary normalized layers ermöglichen die Entwicklung von Modellen, die 32-mal weniger Speicher als heutige Modelle benötigen und eine gleichwertige Leistung bieten. Außerdem lassen sich binary normalized layers auf heutigen Computern mithilfe von 1-Bit-Arrays leicht implementieren und erfordern keine Entwicklung spezieller elektronischer Hardware. Dieser neue Schichttyp eröffnet eine neue Ära für große neuronale Netzwerkmodelle mit reduziertem Speicherbedarf, die auf einfacher und kostengünstiger Hardware wie Mobilgeräten oder allein mit CPUs bereitgestellt werden können.
> The increasing size of large neural network models, specifically language models and foundational image models, poses deployment challenges, prompting efforts to reduce memory requirements and enhance computational efficiency. These efforts are critical to ensure practical deployment and effective utilization of these models across various applications. In this work, a novel type of neural network layers and models is developed that uses only single-bit parameters. In this novel type of models all parameters of all layers, including kernel weights and biases, only have values equal to zero or one. This novel type of models uses layers named as binary normalized layer. These binary normalized layers can be of any type, such as fully connected, convolutional, attention, etc., and they consist of slight variations of the corresponding conventional layers. To show the effectiveness of the binary normalized layers, two different models are configured to solve a multiclass image classification problem and a language decoder to predict the next token of a sequence. The model to solve the image classification has convolutional and fully connected layers, and the language model is composed of transformer blocks with multi-head attention. The results show that models with binary normalized layers present almost the same results obtained by equivalent models with real 32-bit parameters. The binary normalized layers allow to develop models that use 32 times less memory than current models and have equivalent performance. Besides, the binary normalized layers can be easily implemented on current computers using 1-bit arrays, and do not require the development of dedicated electronic hardware. This novel type of layers opens a new era for large neural network models with reduced memory requirements that can be deployed using simple and cheap hardware, such as mobile devices or only cpus.

Paper-Link

https://arxiv.org/abs/2509.07025

Selbstkonsistenz in Sprachmodellen internalisieren: Multi-Agent Consensus Alignment / Internalizing Self-Consistency in Language Models: Multi-Agent Consensus Alignment

Paper-Einführung

Sprachmodelle (LMs) neigen dazu, auf denselben Prompt widersprüchliche Antworten zu erzeugen, und zeigen dadurch inkonsistentes Schlussfolgern. Bestehende Inferenzmethoden zur Laufzeit können solche Unstimmigkeiten zwar abschwächen, lösen aber nicht das grundlegende Problem der schwierigen Auswahl eines Schlussfolgerungspfads, der zu konsistenten Ergebnissen führt. Um dieses Problem zu adressieren, formalisiert diese Arbeit Selbstkonsistenz als intrinsische Eigenschaft eines gut ausgerichteten Reasoning-Modells und führt ein Reinforcement-Learning-Framework namens Multi-Agent Consensus Alignment (MACA) ein. MACA nutzt Mehrheits-/Minderheitsergebnisse, um das Modell nachträglich so zu trainieren, dass es Schlussfolgerungspfade bevorzugt, die mit internem Konsens übereinstimmen. Diese Pfade entstehen aus tiefgehenden Diskussionen zwischen Agenten und erzeugen reichhaltigere Konsenssignale durch auf Peer-Argumenten basierendes Schlussfolgern statt durch eine bloße Ansammlung unabhängiger Versuche. MACA ermöglicht es Agenten, auch ohne externe Supervision selbstständiger, entschlossener und prägnanter zu lernen, und führt zu deutlichen Verbesserungen bei verschiedener Selbstkonsistenz, Single-Agent-Reasoning, samplingbasiertem Reasoning und Multi-Agent-Kollektiventscheidungen. Diese Ergebnisse zeigen eine starke Generalisierungsfähigkeit auf ungesehene Benchmarks sowie eine robuste Selbst-Ausrichtung, die die latenten Reasoning-Fähigkeiten von Sprachmodellen verlässlicher zum Vorschein bringt.

Paper-Abstract

Sprachmodelle (LLMs) sind inkonsistente Schlussfolgerer und erzeugen für denselben Prompt häufig widersprüchliche Antworten. Inferenzmethoden zur Laufzeit können diese Inkonsistenzen zwar abmildern, lösen aber nicht das Kernproblem: LLMs haben Schwierigkeiten, unter explorativem Sampling zuverlässig jene Reasoning-Pfade auszuwählen, die zu konsistenten Ergebnissen führen. Um dies anzugehen, formalisieren wir Selbstkonsistenz als intrinsische Eigenschaft gut ausgerichteter Reasoning-Modelle und führen Multi-Agent Consensus Alignment (MACA) ein. MACA ist ein Reinforcement-Learning-Framework, das Modelle im Post-Training dazu bringt, Reasoning-Trajektorien zu bevorzugen, die mit ihrem internen Konsens übereinstimmen, indem Mehrheits-/Minderheitsergebnisse aus Multi-Agent-Debatten genutzt werden. Diese Trajektorien entstehen aus deliberativen Austauschen, in denen Agenten ihre Schlussfolgerungen auf die Argumente ihrer Peers stützen. Dadurch entstehen reichhaltigere Konsenssignale als bei einer einfachen Mehrheitsabstimmung in nur einer Runde, was zu besseren Ergebnissen führt. MACA ermöglicht es Agenten, sich ohne externe Supervision in Multi-Agent-Umgebungen selbst beizubringen, Erkenntnisse von Peers besser zu nutzen und zugleich entschlossener und prägnanter zu werden. Das führt zu deutlichen Verbesserungen bei der Selbstkonsistenz (+27,6 % auf GSM8K), beim Single-Agent-Reasoning (+23,7 % auf MATH), bei samplingbasierter Inferenz (+22,4 % Pass@20 auf MATH) und bei Multi-Agent-Ensemble-Entscheidungen (+42,7 % auf MathQA). Zusammen mit einer starken Generalisierung auf ungesehene Benchmarks (+16,3 % auf GPQA, +11,6 % auf CommonsenseQA) zeigen diese Ergebnisse eine robuste Selbstausrichtung, die das latente Reasoning-Potenzial von Sprachmodellen zuverlässiger erschließt.
> Language Models (LMs) are inconsistent reasoners, often generating contradictory responses to identical prompts. While inference-time methods can mitigate these inconsistencies, they fail to address the core problem: LMs struggle to reliably select reasoning pathways leading to consistent outcomes under exploratory sampling. To address this, we formalize self-consistency as an intrinsic property of well-aligned reasoning models and introduce Multi-Agent Consensus Alignment (MACA), a reinforcement learning framework that post-trains models to favor reasoning trajectories aligned with their internal consensus using majority/minority outcomes from multi-agent debate. These trajectories emerge from deliberative exchanges where agents ground reasoning in peer arguments, not just aggregation of independent attempts, creating richer consensus signals than single-round majority voting. MACA enables agents to teach themselves to be more decisive and concise, and better leverage peer insights in multi-agent settings without external supervision, driving substantial improvements across self-consistency (+27.6% on GSM8K), single-agent reasoning (+23.7% on MATH), sampling-based inference (+22.4% Pass@20 on MATH), and multi-agent ensemble decision-making (+42.7% on MathQA). These findings, coupled with strong generalization to unseen benchmarks (+16.3% on GPQA, +11.6% on CommonsenseQA), demonstrate robust self-alignment that more reliably unlocks latent reasoning potential of language models.

Paper-Link

https://arxiv.org/abs/2509.15172

Universelle Deep Research: Eigenes Modell und eigene Strategie mitbringen / Universal Deep Research: Bring Your Own Model and Strategy

Paper-Einführung

Universal Deep Research (UDR) ist ein generalisiertes agentisches System, das entwickelt wurde, um die Einschränkung bestehender Deep-Research-Tools zu überwinden, die bestimmte Forschungsstrategien in fest verdrahteter Weise ausführen. UDR bietet Nutzern die Möglichkeit, ihre eigenen maßgeschneiderten Deep-Research-Strategien zu erstellen, zu bearbeiten und zu verfeinern, und ist insofern innovativ, als dafür kein zusätzliches Training oder Finetuning erforderlich ist. Das System belegt seine Allgemeingültigkeit anhand verschiedener Beispiele, die von minimalen Forschungsstrategien bis hin zu breit angelegten und fokussierten Strategien reichen.

Der Kern von UDR besteht darin, über eine Benutzeroberfläche Experimente zu erleichtern, damit Forschende ihre eigenen Forschungsstrategien frei erkunden können. Dieser Ansatz eröffnet Forschenden die Möglichkeit, eigene originelle Methoden zu entwickeln, ohne auf bestehende Werkzeuge angewiesen zu sein. Insbesondere kapselt UDR verschiedene Sprachmodelle, wodurch Nutzer flexibel ihr bevorzugtes Modell auswählen und verwenden können.

Diese Forschung trägt zur Weiterentwicklung von Deep-Research-Tools bei und legt den Schwerpunkt darauf, Forschenden die Entwicklung kreativerer und stärker personalisierter Forschungsstrategien zu ermöglichen. Es ist zu erwarten, dass die Einführung von UDR eine wichtige Rolle dabei spielen wird, Effizienz und Wirksamkeit von Forschung zu steigern. In diesem Sinne wird sich UDR als innovatives System etablieren, das im Bereich Deep Research neue Möglichkeiten eröffnet.

Paper-Abstract

Deep-Research-Tools gehören heute zu den wirkungsvollsten und am häufigsten anzutreffenden agentischen Systemen. Wir beobachten jedoch, dass jeder bislang vorgestellte Deep-Research-Agent fest darauf ausgelegt ist, eine bestimmte Forschungsstrategie mit einer festen Auswahl an Werkzeugen auszuführen. Wir stellen Universal Deep Research (UDR) vor, ein generalistisches agentisches System, das sich um jedes Sprachmodell legen lässt und es dem Nutzer ermöglicht, seine eigenen vollständig angepassten Deep-Research-Strategien ohne zusätzliches Training oder Finetuning zu erstellen, zu bearbeiten und zu verfeinern. Um die Allgemeingültigkeit unseres Systems zu demonstrieren, statten wir UDR mit Beispielstrategien für minimale, expansive und intensive Forschung aus und stellen eine Benutzeroberfläche bereit, die Experimente mit dem System erleichtert.
> Deep research tools are among the most impactful and most commonly encountered agentic systems today. We observe, however, that each deep research agent introduced so far is hard-coded to carry out a particular research strategy using a fixed choice of tools. We introduce Universal Deep Research (UDR), a generalist agentic system that wraps around any language model and enables the user to create, edit, and refine their own entirely custom deep research strategies without any need for additional training or finetuning. To showcase the generality of our system, we equip UDR with example minimal, expansive, and intensive research strategies, and provide a user interface to facilitate experimentation with the system.

Paper-Link

https://arxiv.org/abs/2509.00244

AlphaAgents: Multi-Agenten auf Basis großer Sprachmodelle für die Konstruktion von Aktienportfolios / AlphaAgents: Large Language Model based Multi-Agents for Equity Portfolio Constructions

Einführung in die Arbeit

Die Weiterentwicklung großer Sprachmodelle (LLMs) trägt dazu bei, die Effizienz und Anpassungsfähigkeit von KI-Agenten zu maximieren, und eröffnet damit neue Möglichkeiten für die Zusammenarbeit mehrerer Agenten bei der Lösung komplexer Probleme. Diese Studie untersucht einen rollenbasierten Ansatz für Aktienauswahl und Portfoliomanagement unter Einsatz eines solchen Multi-Agenten-Systems. Das zentrale Ziel der Arbeit besteht darin, die Leistung bei der Aktienauswahl zu bewerten, wenn mehrere KI-Agenten zusammenarbeiten, und diese mit bestehenden Benchmarks zu vergleichen.

Das Multi-Agenten-System besteht aus Agenten mit unterschiedlichen Fachgebieten wie Fundamentalanalyse, Sentiment-Analyse und Bewertung; sie diskutieren ihre Einschätzungen miteinander, um ein optimales Portfolio zusammenzustellen. In der Studie werden 15 Technologieaktien zufällig ausgewählt und die Performance mithilfe von Backtesting bewertet, wobei die Wirksamkeit des Portfolios anhand risikoadjustierter Renditen und der Sharpe Ratio analysiert wird. Diese Methodik zeigt das Potenzial auf, durch kollaborative Entscheidungsprozesse mehrerer Agenten bessere Anlagestrategien abzuleiten.

Die Studie analysiert die Stärken und Grenzen von Multi-Agenten-Systemen und schlägt Wege vor, Entscheidungsprozesse zu verbessern, indem die unterschiedlichen Perspektiven von KI-Agenten integriert werden. Zugleich bestehen bei der Implementierung solcher Systeme Herausforderungen, etwa die Überprüfung der logischen Konsistenz durch menschliches Review. Die Ergebnisse zeigen, dass Multi-Agenten-Systeme einen innovativen Ansatz für die Konstruktion von Aktienportfolios bieten können; in künftigen Arbeiten soll untersucht werden, wie sich Aktiengewichtungen abhängig von der Zuverlässigkeit des LLM anpassen lassen.

Diese Forschung trägt zur Entwicklung KI-basierter Anlagestrategien bei und zeigt die Einsatzmöglichkeiten von Multi-Agenten-Systemen auf.

Abstract

Das Feld der KI-Agenten entwickelt sich rasant weiter, angetrieben durch die Fähigkeiten großer Sprachmodelle (LLMs), Aufgaben mit menschenähnlicher Effizienz und Anpassungsfähigkeit autonom auszuführen und zu verfeinern. In diesem Kontext hat sich die Zusammenarbeit mehrerer Agenten als vielversprechender Ansatz herausgebildet, der es mehreren KI-Agenten ermöglicht, gemeinsam komplexe Herausforderungen zu lösen. Diese Studie untersucht die Anwendung rollenbasierter Multi-Agenten-Systeme zur Unterstützung der Aktienauswahl in Equity Research und Portfoliomanagement. Wir präsentieren eine umfassende Analyse, die von einem Team spezialisierter Agenten durchgeführt wurde, und bewerten deren Leistung bei der Aktienauswahl im Vergleich zu etablierten Benchmarks unter unterschiedlichen Risikotoleranzniveaus. Darüber hinaus untersuchen wir die Vorteile und Grenzen des Einsatzes von Multi-Agenten-Frameworks in der Aktienanalyse und liefern wichtige Einblicke in ihre praktische Wirksamkeit und die Herausforderungen bei der Implementierung.

The field of artificial intelligence (AI) agents is evolving rapidly, driven by the capabilities of Large Language Models (LLMs) to autonomously perform and refine tasks with human-like efficiency and adaptability. In this context, multi-agent collaboration has emerged as a promising approach, enabling multiple AI agents to work together to solve complex challenges. This study investigates the application of role-based multi-agent systems to support stock selection in equity research and portfolio management. We present a comprehensive analysis performed by a team of specialized agents and evaluate their stock-picking performance against established benchmarks under varying levels of risk tolerance. Furthermore, we examine the advantages and limitations of employing multi-agent frameworks in equity analysis, offering critical insights into their practical efficacy and implementation challenges.

Link zur Arbeit

https://arxiv.org/abs/2508.11152

Survey zu Reinforcement Learning für Large Reasoning Models / A Survey of Reinforcement Learning for Large Reasoning Models

Einführung in die Arbeit

Reinforcement Learning (RL) spielt eine wichtige Rolle bei der Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle (Large Language Models, LLMs), und dieses Paper betrachtet die Weiterentwicklung hin zu Large Reasoning Models (LRMs) durch RL. RL zeigt besonders starke Ergebnisse bei komplexen logischen Aufgaben wie mathematischer Problemlösung und Coding-Aufgaben und hat sich als grundlegende Methodik für die Transformation von LLMs in LRMs etabliert. Die Ausweitung von RL auf LRMs steht jedoch in Bezug auf Rechenressourcen, Algorithmendesign, Trainingsdaten und Infrastruktur vor mehreren Herausforderungen.

Die Studie untersucht verschiedene Arbeiten zur Anwendung von RL auf die Verbesserung der Reasoning-Fähigkeiten von LLMs und LRMs und analysiert dabei insbesondere zentrale RL-Bausteine wie Reward-Design, Policy-Optimierung und Sampling-Strategien mit Fokus auf jüngste Entwicklungen einschließlich des Modells DeepSeek-R1. Das Reward-Design ist ein wichtiges Signal, das die Lernrichtung des Modells bestimmt, wobei die Bedeutung verifizierbarer Reward-Mechanismen hervorgehoben wird. Policy-Optimierung ist der Prozess, in dem das Modell lernt, optimale Aktionen auszuwählen; dazu zählen sowohl Critic-basierte als auch Critic-freie Algorithmen. Darüber hinaus werden Sampling-Strategien als Mittel zur Steigerung der Effizienz von RL behandelt, einschließlich dynamischem Sampling und Hyperparameter-Tuning.

Das Paper betont die Bedeutung integrierter Trainingsprozesse für LLMs mittels RL sowie die Qualität und Struktur der Trainingsressourcen und zeigt anhand von Anwendungsfällen in Software Engineering und Robotik die praktische Nutzbarkeit von RL. Insbesondere treibt die Integration von RL und dem Agenten-Paradigma Fortschritte in der Codegenerierung voran und erzielt auch bei multimodalen Aufgaben erfolgreiche Ergebnisse. Diese Forschung weist auf neue Richtungen zur Verbesserung der Reasoning-Fähigkeiten von LLMs hin und dürfte letztlich dazu beitragen, eine Grundlage für das Erreichen von Artificial SuperIntelligence (ASI) zu schaffen.

Abstract

In diesem Paper werden aktuelle Fortschritte bei Reinforcement Learning (RL) für Schlussfolgerungen mit Large Language Models (LLMs) untersucht. RL hat bemerkenswerte Erfolge dabei erzielt, die Fähigkeiten von LLMs zu erweitern, insbesondere bei der Bewältigung komplexer logischer Aufgaben wie Mathematik und Coding. Dadurch hat sich RL als grundlegende Methodik etabliert, um LLMs in LRMs zu verwandeln. Angesichts des rasanten Fortschritts in diesem Bereich steht die weitere Skalierung von RL für LRMs inzwischen vor grundlegenden Herausforderungen – nicht nur bei den Rechenressourcen, sondern auch beim Algorithmusdesign, bei Trainingsdaten und bei der Infrastruktur. Vor diesem Hintergrund ist es sinnvoll, die Entwicklung dieses Gebiets erneut zu betrachten, seine Richtung neu zu bewerten und Strategien zu erkunden, um die Skalierbarkeit von RL auf dem Weg zu Artificial SuperIntelligence (ASI) zu verbessern. Insbesondere betrachten wir Forschungsarbeiten, die RL für die Reasoning-Fähigkeiten von LLMs und LRMs anwenden, vor allem seit der Veröffentlichung von DeepSeek-R1, und untersuchen dabei grundlegende Komponenten, Kernprobleme, Trainingsressourcen und nachgelagerte Anwendungen, um künftige Chancen und Richtungen in diesem sich schnell entwickelnden Bereich zu identifizieren. Wir hoffen, dass dieser Review zukünftige Forschung zu RL für breitere Reasoning-Modelle fördern wird. GitHub: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs

In diesem Paper werden aktuelle Fortschritte bei Reinforcement Learning (RL) für Schlussfolgerungen mit Large Language Models (LLMs) untersucht. RL hat bemerkenswerte Erfolge dabei erzielt, die Fähigkeiten von LLMs zu erweitern, insbesondere bei der Bewältigung komplexer logischer Aufgaben wie Mathematik und Coding. Dadurch hat sich RL als grundlegende Methodik etabliert, um LLMs in LRMs zu verwandeln. Angesichts des rasanten Fortschritts in diesem Bereich steht die weitere Skalierung von RL für LRMs inzwischen vor grundlegenden Herausforderungen – nicht nur bei den Rechenressourcen, sondern auch beim Algorithmusdesign, bei Trainingsdaten und bei der Infrastruktur. Vor diesem Hintergrund ist es sinnvoll, die Entwicklung dieses Gebiets erneut zu betrachten, seine Richtung neu zu bewerten und Strategien zu erkunden, um die Skalierbarkeit von RL auf dem Weg zu Artificial SuperIntelligence (ASI) zu verbessern. Insbesondere betrachten wir Forschungsarbeiten, die RL für die Reasoning-Fähigkeiten von LLMs und LRMs anwenden, vor allem seit der Veröffentlichung von DeepSeek-R1, und untersuchen dabei grundlegende Komponenten, Kernprobleme, Trainingsressourcen und nachgelagerte Anwendungen, um künftige Chancen und Richtungen in diesem sich schnell entwickelnden Bereich zu identifizieren. Wir hoffen, dass dieser Review zukünftige Forschung zu RL für breitere Reasoning-Modelle fördern wird. GitHub: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs

Paper-Link

https://arxiv.org/abs/2509.08827

Weiterführende Lektüre

https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs

⚠️Werbung⚠️: War dieser von der 🔥PyTorch Korea User Group🇰🇷 zusammengestellte Beitrag hilfreich für Sie? Wenn Sie Mitglied werden, senden wir Ihnen wichtige Beiträge per E-Mail💌 zu! Standard ist Weekly, aber ein Wechsel zu Daily ist ebenfalls möglich.

[2025/09/22 ~ 28] Lesenswerte AI/ML-Paper dieser Woche