ML-Papers der Woche

(discuss.pytorch.kr)

7 Punkte von ninebow 2025-12-24 | Noch keine Kommentare. | Auf WhatsApp teilen

[2025/12/15 ~ 21] Ausgewählte AI/ML-Papers der Woche

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Die Bedeutung von Agenten-Adaption: Die diese Woche ausgewählten Papers betonen die Notwendigkeit von Adaption, um Leistung und Zuverlässigkeit agentenbasierter AI-Systeme zu erhöhen. Vorgeschlagen wird ein systematisches Framework, das die Adaption von Agenten und Tools integriert, den Designraum verschiedener Adaptionsstrategien klarer macht und praktische Leitlinien bietet.

2️⃣ Fortschritte bei Memory-Systemen: Agenten-Memory hat sich zu einer Kernfunktion von AI-Systemen entwickelt, und es werden Memory-Systeme in unterschiedlichen Formen und mit verschiedenen Funktionen erforscht. Da bestehende Klassifizierungen die Vielfalt moderner Agenten-Memorys nicht ausreichend erfassen, wird eine neue Forschungsrichtung vorgeschlagen, die Form, Funktion und Dynamik von Memory integriert analysiert.

3️⃣ Effizienter Modellwechsel und Optimierung: Neuere Papers untersuchen Wege, durch den Übergang von autoregressiven Sprachmodellen (AR) zu Diffusions-Sprachmodellen (dLM) gleichzeitig Geschwindigkeit und Genauigkeit zu verbessern. Insbesondere werden verschiedene Attention-Muster und Trainingsstrategien verglichen und Prinzipien sowie Methoden für einen effizienten Übergang vorgeschlagen, um die Modellleistung zu maximieren.

Adaption agentischer AI / Adaptation of Agentic AI

Paper-Einführung

Moderne agentische AI-Systeme basieren auf Foundation Models und sind zunehmend in der Lage, komplexe und spezialisierte Aufgaben auszuführen. Um Leistung, Zuverlässigkeit und Generalisierung solcher Systeme zu verbessern, hat sich Adaption als zentraler Mechanismus etabliert. Diese Studie präsentiert ein systematisches Framework, das sowohl Agenten-Adaption als auch Tool-Adaption umfasst. Dadurch wird der Designraum verschiedener Adaptionsstrategien klarer und die Trade-offs zwischen den Strategien werden explizit gemacht. Das Framework gliedert sich in Adaption anhand von Tool-Ausführungssignalen und Agenten-Ausgabesignalen sowie in Tool-Adaption in Form von Kritiker-Agenten und Supervisor-Agenten.

Die Studie untersucht repräsentative Ansätze in jeder Kategorie, analysiert ihre Stärken und Grenzen und hebt wichtige offene Herausforderungen und künftige Chancen hervor. Insbesondere konzentrierten sich frühe Methoden vom Typ A1 auf Supervised Fine-Tuning und Direct Preference Optimization; diese Methoden entwickelten sich dahin weiter, Trainingssignale durch das Sammeln modellbezogener Antworten im Zusammenhang mit Tool-Nutzung zu gewinnen. Frühe Modelle wie Toolformer versuchten, die Tool-Nutzung durch selbstüberwachte Lernsignale zu verbessern, hatten jedoch Grenzen bei der Anwendung in realen Umgebungen.

Um diese Grenzen zu überwinden, führten nachfolgende Modelle wie TRICE und ToolAlpaca Reinforcement Learning über Ausführungs-Feedback ein und entwickelten sich in Richtung einer direkten Verbesserung der Tool-Nutzungsfähigkeit. TP-LLaMA schlägt einen neuen Ansatz vor, bei dem fehlgeschlagene Pfade genutzt werden, damit das Modell aus Fehlschlägen lernen kann, während Gorilla strukturelle Korrektheit betont, um aus großen Sammlungen von Machine-Learning-APIs die richtigen API-Calls zu erzeugen. CodeAct schlägt ein Paradigma vor, das durch direkte Interaktion mit einer ausführbaren Code-Umgebung lernt und dadurch eine Zielsetzung auf Basis verifizierbarer Ergebnisse ermöglicht.

Schließlich ermöglichen RLVR-basierte Methoden (verifizierbare Belohnungen), dass Modelle durch Online-Interaktion mit Tools und Umgebungen direkt lernen, wodurch Adaption dynamisch und kontextsensitiv wird. Diese Forschung trägt zur Weiterentwicklung agentischer AI-Systeme bei und liefert eine wichtige Grundlage für künftige Forschung sowie praktische Anwendungen.

Paper-Abstract

Moderne agentische AI-Systeme basieren auf Foundation Models, die so angepasst werden können, dass sie durch Planung, Schlussfolgern und Interaktion mit externen Tools zunehmend komplexe und spezialisierte Aufgaben ausführen. Mit wachsender Leistungsfähigkeit und Reichweite dieser Systeme wird Adaption zu einem zentralen Mechanismus zur Verbesserung von Leistung, Zuverlässigkeit und Generalisierung. In diesem Paper führen wir die schnell wachsende Forschungslandschaft in einem systematischen Framework zusammen, das sowohl Agenten-Adaption als auch Tool-Adaption umfasst. Wir unterteilen diese weiter in Agenten-Adaption auf Basis von Tool-Ausführungssignalen und auf Basis von Agenten-Ausgabesignalen sowie in agentenagnostische und agentenüberwachte Formen der Tool-Adaption. Wir zeigen, dass dieses Framework hilft, den Designraum von Adaptionsstrategien in agentischer AI zu klären, ihre Trade-offs explizit zu machen und praktische Leitlinien für die Auswahl oder den Wechsel zwischen Strategien beim Systemdesign zu liefern. Anschließend untersuchen wir repräsentative Ansätze in jeder Kategorie, analysieren ihre Stärken und Grenzen und heben zentrale offene Herausforderungen und künftige Chancen hervor. Insgesamt zielt dieses Paper darauf ab, Forschenden und Praktikerinnen und Praktikern, die leistungsfähigere, effizientere und zuverlässigere agentische AI-Systeme entwickeln wollen, eine konzeptionelle Grundlage und eine praktische Roadmap zu bieten.
> Cutting-edge agentic AI systems are built on foundation models that can be adapted to plan, reason, and interact with external tools to perform increasingly complex and specialized tasks. As these systems grow in capability and scope, adaptation becomes a central mechanism for improving performance, reliability, and generalization. In this paper, we unify the rapidly expanding research landscape into a systematic framework that spans both agent adaptations and tool adaptations. We further decompose these into tool-execution-signaled and agent-output-signaled forms of agent adaptation, as well as agent-agnostic and agent-supervised forms of tool adaptation. We demonstrate that this framework helps clarify the design space of adaptation strategies in agentic AI, makes their trade-offs explicit, and provides practical guidance for selecting or switching among strategies during system design. We then review the representative approaches in each category, analyze their strengths and limitations, and highlight key open challenges and future opportunities. Overall, this paper aims to offer a conceptual foundation and practical roadmap for researchers and practitioners seeking to build more capable, efficient, and reliable agentic AI systems.

Paper-Link

https://arxiv.org/abs/2512.16301

Weiterführende Lektüre

https://github.com/pat-jj/Awesome-Adaptation-of-Agentic-AI

Memory im Zeitalter der AI-Agenten / Memory in the Age of AI Agents

Paper-Einführung

Agenten-Memory hat sich in modernen Systemen der künstlichen Intelligenz (AI) als unverzichtbares Element etabliert, und diese Studie zielt darauf ab, die Komplexität und Vielfalt dieses Memorys systematisch zu ordnen und zu analysieren. Frühere Arbeiten unterscheiden sich stark hinsichtlich Motivation, Implementierungsweise und Evaluationsprotokollen von Agenten-Memory, wodurch es an konzeptioneller Klarheit mangelt. Daher definiert dieses Paper den Umfang von Agenten-Memory klarer und betont die Abgrenzung zu Large-Language-Model-(LLM)-Memory, Retrieval-Augmented Generation (RAG) und Context Engineering.

Die Studie analysiert Agenten-Memory aus drei Perspektiven: Form, Funktion und Dynamik. Aus morphologischer Perspektive werden drei Hauptformen vorgestellt: tokenbasiertes, parametrisches und latentes Memory, wobei die Eigenschaften und Funktionsweisen jeder Form erläutert werden. Aus funktionaler Perspektive wird zwischen faktischem, erfahrungsbasiertem und Arbeits-Memory unterschieden, um die jeweilige Rolle jedes Memory-Typs klar zu machen. Aus dynamischer Perspektive wird untersucht, wie Memory gebildet, weiterentwickelt und abgerufen wird, um zu analysieren, wie Memory während der Interaktion des Agenten mit seiner Umgebung funktioniert.

Diese Studie bietet zudem eine umfassende Zusammenfassung von Memory-Benchmarks und Open-Source-Frameworks, um die praktische Entwicklung zu unterstützen, und skizziert neue Forschungsfronten wie Memory-Automatisierung, die Integration von Reinforcement Learning, multimodales Memory und Multi-Agent-Memory. Dieser Ansatz schafft eine Grundlage dafür, Memory im Design von Agenten-Memory-Systemen als erstklassiges primitives Konzept neu zu denken, und weist die Richtung für künftige Forschung.

Insgesamt wird erwartet, dass das Paper zur Weiterentwicklung von Memory-Systemen für AI-Agenten beiträgt, indem es den aktuellen Stand der Forschung zu Agenten-Memory umfassend ordnet und Einsichten für zukünftige Forschung liefert.

Abstract

Memory hat sich als Kernfähigkeit von auf Foundation Models basierenden Agenten herausgebildet und wird auch künftig eine wichtige Rolle spielen. Während die Forschung zu Agenten-Memory rasch wächst und beispiellose Aufmerksamkeit erhält, wird das Feld zugleich zunehmend fragmentiert. Bestehende Arbeiten, die unter den Begriff Agenten-Memory fallen, unterscheiden sich oft erheblich in ihrer Motivation, Implementierung und ihren Evaluationsprotokollen, während die Verbreitung nur lose definierter Memory-Terminologien die konzeptionelle Klarheit weiter verwischt hat. Traditionelle Taxonomien wie Langzeit-/Kurzzeitgedächtnis haben sich als unzureichend erwiesen, um die Vielfalt moderner Agenten-Memory-Systeme zu erfassen. Diese Arbeit zielt darauf ab, einen aktuellen Überblick über die heutige Forschungslandschaft zu Agenten-Memory zu geben. Wir beginnen damit, den Umfang von Agenten-Memory klar abzugrenzen und ihn von verwandten Konzepten wie LLM-Memory, Retrieval-Augmented Generation (RAG) und Context Engineering zu unterscheiden. Anschließend betrachten wir Agenten-Memory durch die einheitlichen Perspektiven von Formen, Funktionen und Dynamiken. Aus der Perspektive der Formen identifizieren wir drei dominante Ausprägungen von Agenten-Memory, nämlich tokenbasiertes, parametrisches und latentes Memory. Aus der Perspektive der Funktionen schlagen wir eine feingranularere Taxonomie vor, die zwischen faktischem, erfahrungsbasiertem und Working Memory unterscheidet. Aus der Perspektive der Dynamiken analysieren wir, wie Memory entsteht, sich entwickelt und im Zeitverlauf abgerufen wird. Zur Unterstützung praktischer Entwicklung erstellen wir eine umfassende Zusammenfassung von Memory-Benchmarks und Open-Source-Frameworks. Über die Konsolidierung hinaus formulieren wir eine zukunftsgerichtete Perspektive auf neue Forschungsgrenzen, darunter Memory-Automatisierung, die Integration von Reinforcement Learning, multimodales Memory, Multi-Agent-Memory und Fragen der Vertrauenswürdigkeit. Wir hoffen, dass dieser Survey nicht nur als Referenz für bestehende Arbeiten dient, sondern auch als konzeptionelle Grundlage dafür, Memory im Design zukünftiger agentischer Intelligenz als erstklassiges primitives Konzept neu zu denken.
> Memory has emerged, and will continue to remain, a core capability of foundation model-based agents. As research on agent memory rapidly expands and attracts unprecedented attention, the field has also become increasingly fragmented. Existing works that fall under the umbrella of agent memory often differ substantially in their motivations, implementations, and evaluation protocols, while the proliferation of loosely defined memory terminologies has further obscured conceptual clarity. Traditional taxonomies such as long/short-term memory have proven insufficient to capture the diversity of contemporary agent memory systems. This work aims to provide an up-to-date landscape of current agent memory research. We begin by clearly delineating the scope of agent memory and distinguishing it from related concepts such as LLM memory, retrieval augmented generation (RAG), and context engineering. We then examine agent memory through the unified lenses of forms, functions, and dynamics. From the perspective of forms, we identify three dominant realizations of agent memory, namely token-level, parametric, and latent memory. From the perspective of functions, we propose a finer-grained taxonomy that distinguishes factual, experiential, and working memory. From the perspective of dynamics, we analyze how memory is formed, evolved, and retrieved over time. To support practical development, we compile a comprehensive summary of memory benchmarks and open-source frameworks. Beyond consolidation, we articulate a forward-looking perspective on emerging research frontiers, including memory automation, reinforcement learning integration, multimodal memory, multi-agent memory, and trustworthiness issues. We hope this survey serves not only as a reference for existing work, but also as a conceptual foundation for rethinking memory as a first-class primitive in the design of future agentic intelligence.

Paper-Link

https://arxiv.org/abs/2512.13564

Weiterführende Lektüre

https://github.com/Shichun-Liu/Agent-Memory-Paper-List

Detailed Balance in von Large Language Models gesteuerten Agenten / Detailed balance in large language model-driven agents

Paper-Einführung

Auf Large Language Models (LLMs) basierende Agenten bieten einen innovativen Ansatz zur Lösung komplexer Probleme, doch trotz des empirischen Erfolgs solcher Systeme fehlt es an einem theoretischen Framework. Diese Studie schlägt eine neue Methodik vor, die auf dem Prinzip der kleinsten Wirkung basiert, um die generative Richtung von LLMs abzuschätzen. Durch die experimentelle Messung der Übergangswahrscheinlichkeiten zwischen von LLMs erzeugten Zuständen weist diese Methodik statistisch nach, dass in den von LLMs erzeugten Übergängen Detailed Balance auftritt. Diese Erkenntnis deutet darauf hin, dass LLMs dies möglicherweise nicht dadurch erreichen, dass sie einen bestimmten Satz von Regeln oder Strategien lernen, sondern indem sie implizit eine Klasse von Potentialfunktionen lernen, die verschiedene LLM-Architekturen und Prompt-Templates übergreifen können.

Diese Studie ist der erste Fall, in dem makroskopische physikalische Gesetze in der von LLMs erzeugten Dynamik entdeckt wurden, und stellt einen Versuch dar, eine Theorie der makroskopischen Dynamik komplexer Systeme der künstlichen Intelligenz (AI) zu etablieren. Damit soll eine Grundlage geschaffen werden, auf der sich die Forschung zu AI-Agenten von einer bloßen Sammlung von Engineering-Praktiken zu einer vorhersagbaren und quantifizierbaren Wissenschaft weiterentwickeln kann. Das Verständnis der Dynamik der Übergänge, die im Generierungsprozess von LLMs auftreten, ist wesentlich, um die Funktionsprinzipien solcher Systeme aufzuklären.

Diese Arbeit schlägt ein neues theoretisches Framework vor, das die Generierungsdynamik von LLMs beschreiben kann, und weist damit eine neue Richtung für die AI-Forschung. Die durch experimentelle Ansätze erhobenen Daten leisten einen wichtigen Beitrag zum Verständnis der Funktionsweise von LLMs und können als Grundlage für künftige Forschung dienen. Diese Forschungsergebnisse liefern wichtige Einsichten für das Design und den Einsatz von LLM-basierten Agenten und dürften zur Weiterentwicklung der AI-Technologie beitragen.

Abstract

LLM-basierte Agenten (Large Language Models) entwickeln sich zu einem starken neuen Paradigma für die Lösung komplexer Probleme. Trotz des empirischen Erfolgs dieser Ansätze fehlt jedoch weiterhin ein theoretisches Framework, das ihre makroskopische Dynamik verstehen und vereinheitlichen kann. In dieser Arbeit wird eine auf dem Prinzip der kleinsten Wirkung basierende Methode vorgeschlagen, um die zugrunde liegende generative Gerichtetheit von in Agenten eingebetteten LLMs abzuschätzen. Durch die experimentelle Messung der Übergangswahrscheinlichkeiten zwischen von LLMs erzeugten Zuständen entdecken wir statistisch ein detailliertes Gleichgewicht in den von LLMs erzeugten Übergängen. Dies deutet darauf hin, dass LLM-Generierung im Allgemeinen nicht durch das Erlernen von Regelsätzen und Strategien erreicht wird, sondern vielmehr durch das implizite Erlernen einer Klasse zugrunde liegender Potenzialfunktionen, die unterschiedliche LLM-Architekturen und Prompt-Templates übergreifen könnte. Soweit uns bekannt ist, ist dies die erste Entdeckung eines makroskopischen physikalischen Gesetzes in der generativen Dynamik von LLMs, das nicht von spezifischen Modelldetails abhängt. Diese Arbeit ist ein Versuch, eine Theorie der makroskopischen Dynamik komplexer AI-Systeme zu etablieren, mit dem Ziel, die Forschung zu AI-Agenten von einer Sammlung technischer Praxisansätze zu einer Wissenschaft weiterzuentwickeln, die auf wirksamen, vorhersagbaren und quantifizierbaren Messungen basiert.
> Large language model (LLM)-driven agents are emerging as a powerful new paradigm for solving complex problems. Despite the empirical success of these practices, a theoretical framework to understand and unify their macroscopic dynamics remains lacking. This Letter proposes a method based on the least action principle to estimate the underlying generative directionality of LLMs embedded within agents. By experimentally measuring the transition probabilities between LLM-generated states, we statistically discover a detailed balance in LLM-generated transitions, indicating that LLM generation may not be achieved by generally learning rule sets and strategies, but rather by implicitly learning a class of underlying potential functions that may transcend different LLM architectures and prompt templates. To our knowledge, this is the first discovery of a macroscopic physical law in LLM generative dynamics that does not depend on specific model details. This work is an attempt to establish a macroscopic dynamics theory of complex AI systems, aiming to elevate the study of AI agents from a collection of engineering practices to a science built on effective measurements that are predictable and quantifiable.

Paper-Link

https://arxiv.org/abs/2512.10047

Effizientes DLM: Von autoregressiven zu Diffusion Language Models und darüber hinaus bei der Geschwindigkeit / Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed

Paper-Einführung

Diffusion Language Models (dLM) entwickeln sich zu einem vielversprechenden Paradigma, das parallele nicht-autoregressive Generierung ermöglicht, haben jedoch im Vergleich zu autoregressiven Sprachmodellen (Autoregressive Language Models, AR) eine geringere Trainingseffizienz. Um dieses Problem zu lösen, wurde eine Methodik vorgeschlagen, mit der sich AR-Modelle in effiziente dLMs umwandeln lassen. Die Forschenden analysierten die Grenzen bestehender AR-to-dLM-Konvertierungsmethoden und stellten fest, dass die Beibehaltung der Verteilung vortrainierter Gewichte des AR-Modells für eine effektive Umwandlung entscheidend ist.

Darauf aufbauend wurde ein Ansatz des kontinuierlichen Pretrainings eingeführt, der blockweise Attention-Muster beibehält. Dieser Ansatz ermöglicht bidirektionales Modeling innerhalb jedes Blocks und hilft dadurch, die Gewichtsverteilung des AR-Modells besser zu erhalten. Außerdem ermöglicht er KV-Caching und bietet damit den Vorteil, Genauigkeit und Effizienz gleichzeitig zu verbessern. Um Unterschiede in der Verteilung von Mask-Token beim Training zu verringern, wurde zudem eine positionsabhängige Token-Masking-Strategie vorgeschlagen. Diese weist späteren Tokens während des Trainings eine höhere Maskierungswahrscheinlichkeit zu, um das Verhalten beim Testen besser nachzuahmen.

Mit dieser Methodik wurden umfangreiche Untersuchungen zu den Attention-Mustern, der Trainingsdynamik und den Designentscheidungen von dLMs durchgeführt, was praktikable Einsichten für eine skalierbare Konvertierung von AR zu dLM liefert. Letztlich zeigt die Efficient-DLM-Familie eine Leistung, die moderne AR-Modelle und dLMs übertrifft. Insbesondere erreichte Efficient-DLM 8B im Vergleich zu Dream 7B bzw. Qwen3 4B eine um +5,4 % bzw. +2,7 % höhere Genauigkeit sowie einen 4,5-fach bzw. 2,7-fach höheren Durchsatz. Diese Arbeit präsentiert damit eine neue Methodik für die effektive Umwandlung von AR-Modellen in dLMs und trägt dazu bei, sowohl die Trainingseffizienz als auch die Modellleistung zu verbessern.

Abstract

Diffusionssprachmodelle (dLMs) haben sich als vielversprechendes Paradigma etabliert, das parallele, nicht-autoregressive Generierung ermöglicht, doch ihre Lerneffizienz bleibt hinter der autoregressiver (AR) Sprachmodelle zurück, wenn sie von Grund auf trainiert werden. Um dieses Problem zu lösen, untersuchen wir die AR-zu-dLM-Konvertierung, um vortrainierte AR-Modelle in effiziente dLMs umzuwandeln, die hohe Geschwindigkeit mit der Aufgabengenauigkeit von AR-Modellen verbinden. Dazu identifizieren wir die Grenzen bestehender AR-zu-dLM-Methoden bei Aufmerksamkeitsmustern und Zielsetzungen und schlagen anschließend Prinzipien und Methoden für eine effektivere AR-zu-dLM-Konvertierung vor. Konkret vergleichen wir zunächst systematisch verschiedene Aufmerksamkeitsmuster und stellen fest, dass die Beibehaltung der Gewichtsverteilungen vortrainierter AR-Modelle für eine effektive AR-zu-dLM-Konvertierung entscheidend ist. Daher führen wir ein kontinuierliches Pretraining mit einem blockweisen Aufmerksamkeitsmuster ein, das zwischen Blöcken kausal bleibt und zugleich bidirektionales Modellieren innerhalb jedes Blocks ermöglicht. Wir stellen fest, dass dieser Ansatz die Gewichtsverteilungen vortrainierter AR-Modelle besser bewahren kann als vollständig bidirektionales Modellieren und zusätzlich zu seinem bekannten Vorteil, KV-Caching zu ermöglichen, sowohl bei Genauigkeit als auch bei Effizienz zu einem Win-win führt. Zweitens schlagen wir zur Verringerung der Trainings-Test-Diskrepanz bei der Verteilung von Maskentokens eine positionsabhängige Token-Masking-Strategie vor, die späteren Tokens während des Trainings höhere Maskierungswahrscheinlichkeiten zuweist, um das Verhalten zur Testzeit besser nachzubilden. Auf Basis dieses Frameworks führen wir umfassende Untersuchungen zu den Aufmerksamkeitsmustern von dLMs, den Trainingsdynamiken und weiteren Designentscheidungen durch und liefern umsetzbare Erkenntnisse für eine skalierbare AR-zu-dLM-Konvertierung. Aus diesen Studien geht die Efficient-DLM-Familie hervor, die aktuelle AR-Modelle und dLMs übertrifft. So erzielt unser Efficient-DLM 8B beispielsweise im Vergleich zu Dream 7B und Qwen3 4B jeweils eine um +5,4 %/+2,7 % höhere Genauigkeit bei einem 4,5x/2,7x höheren Durchsatz.
> Diffusion language models (dLMs) have emerged as a promising paradigm that enables parallel, non-autoregressive generation, but their learning efficiency lags behind that of autoregressive (AR) language models when trained from scratch. To this end, we study AR-to-dLM conversion to transform pretrained AR models into efficient dLMs that excel in speed while preserving AR models' task accuracy. We achieve this by identifying limitations in the attention patterns and objectives of existing AR-to-dLM methods and then proposing principles and methodologies for more effective AR-to-dLM conversion. Specifically, we first systematically compare different attention patterns and find that maintaining pretrained AR weight distributions is critical for effective AR-to-dLM conversion. As such, we introduce a continuous pretraining scheme with a block-wise attention pattern, which remains causal across blocks while enabling bidirectional modeling within each block. We find that this approach can better preserve pretrained AR models' weight distributions than fully bidirectional modeling, in addition to its known benefit of enabling KV caching, and leads to a win-win in accuracy and efficiency. Second, to mitigate the training-test gap in mask token distributions (uniform vs. highly left-to-right), we propose a position-dependent token masking strategy that assigns higher masking probabilities to later tokens during training to better mimic test-time behavior. Leveraging this framework, we conduct extensive studies of dLMs' attention patterns, training dynamics, and other design choices, providing actionable insights into scalable AR-to-dLM conversion. These studies lead to the Efficient-DLM family, which outperforms state-of-the-art AR models and dLMs, e.g., our Efficient-DLM 8B achieves +5.4%/+2.7% higher accuracy with 4.5x/2.7x higher throughput compared to Dream 7B and Qwen3 4B, respectively.

Paper-Link

https://arxiv.org/abs/2512.14067

Alles ist Kontext: Agentische Dateisystem-Abstraktion für Context Engineering / Everything is Context: Agentic File System Abstraction for Context Engineering

Paper-Einführung

Die Fortschritte bei Generative AI (GenAI) haben tiefgreifende Veränderungen im Design von Softwaresystemen ausgelöst, insbesondere durch Foundation Models, die Architektur und Betrieb neu definieren. Die zentrale Herausforderung verlagert sich derzeit über das Fine-Tuning von Modellen hinaus hin zum "Context Engineering", also zur effektiven Erfassung und Strukturierung von externem Wissen, Speicher, Tools und menschlichen Eingaben. Bestehende Ansätze wie Prompt Engineering oder Retrieval-Augmented Generation (RAG) sind fragmentiert, wodurch die erzeugten Kontextartefakte häufig flüchtig und schwer verifizierbar sind.

Diese Studie, inspiriert von der Unix-Philosophie "Alles ist eine Datei", schlägt eine Dateisystem-Abstraktion für Context Engineering vor. Diese Abstraktion stellt eine persistente und verwaltete Infrastruktur zur Verwaltung heterogener Kontextartefakte bereit und ermöglicht dadurch konsistentes Mounting, Metadaten und Zugriffskontrolle. Innerhalb des AIGNE-Frameworks implementiert, übernimmt diese Architektur über eine verifizierbare Context-Engineering-Pipeline aus Kontextgeneratoren, Loadern und Evaluatoren die Zusammenstellung, Bereitstellung und Verifikation von Kontext unter Token-Beschränkungen.

Da GenAI sich als aktiver Kooperationspartner für Entscheidungsunterstützung etabliert, übernehmen Menschen eine zentrale Rolle als Kuratoren, Prüfer und Co-Denkende. Die Studie belegt die Praxistauglichkeit der vorgeschlagenen Architektur anhand von Agenten mit Gedächtnis und einem MCP-basierten GitHub-Assistenten und zeigt ihre operative Einsetzbarkeit in Entwickler- und Industrieumgebungen. Dieser Ansatz schafft eine wiederverwendbare Grundlage für verantwortungsvolle, menschenzentrierte KI-Zusammenarbeit und trägt dazu bei, verifizierbare und wartungsfreundliche GenAI-Systeme zu unterstützen.

Abschließend unterstreicht die Studie die Bedeutung von Context Engineering für das Design von GenAI-Systemen und zeigt, wie eine dateisystembasierte Abstraktion die Grundlage für persistentes und transparentes Kontextmanagement schaffen kann.

Paper-Abstract

Generative AI (GenAI) hat das Design von Softwaresystemen neu gestaltet, indem Foundation-Modelle als vortrainierte Subsysteme eingeführt wurden. Die neue Herausforderung ist nicht länger das Fine-Tuning der Modelle, sondern Context Engineering: wie Systeme externes Wissen, Speicher, Tools und menschliche Eingaben erfassen, strukturieren und verwalten, um vertrauenswürdiges Schlussfolgern zu ermöglichen. Bestehende Praktiken wie Prompt Engineering, Retrieval-Augmented Generation (RAG) und Tool-Integration bleiben fragmentiert und erzeugen flüchtige Artefakte, die Nachvollziehbarkeit und Verantwortlichkeit einschränken. Dieses Paper schlägt, inspiriert vom Unix-Konzept „everything is a file“, eine Dateisystem-Abstraktion für Context Engineering vor. Diese Abstraktion bietet eine persistente, verwaltete Infrastruktur zur Verwaltung heterogener Kontext-Artefakte durch einheitliches Mounting, Metadaten und Zugriffskontrolle. Innerhalb des Open-Source-Frameworks AIGNE implementiert, realisiert diese Architektur eine verifizierbare Context-Engineering-Pipeline, bestehend aus Context Constructor, Loader und Evaluator, die unter Token-Beschränkungen Kontext zusammenstellt, bereitstellt und validiert. Da GenAI zu einem aktiven Kollaborateur in der Entscheidungsunterstützung wird, spielen Menschen eine zentrale Rolle als Kuratoren, Prüfer und gemeinsame Schlussfolgernde. Die vorgeschlagene Architektur schafft eine wiederverwendbare Grundlage für verantwortliche, menschenzentrierte KI-Zusammenarbeit anhand von zwei Beispielen: einem Agenten mit Speicher und einem MCP-basierten GitHub-Assistenten. Die Implementierung im AIGNE-Framework zeigt, wie diese Architektur in Entwickler- und Industrieumgebungen operationalisiert werden kann, und unterstützt verifizierbare, wartbare und industriefähige GenAI-Systeme.
> Generative AI (GenAI) has reshaped software system design by introducing foundation models as pre-trained subsystems that redefine architectures and operations. The emerging challenge is no longer model fine-tuning but context engineering-how systems capture, structure, and govern external knowledge, memory, tools, and human input to enable trustworthy reasoning. Existing practices such as prompt engineering, retrieval-augmented generation (RAG), and tool integration remain fragmented, producing transient artefacts that limit traceability and accountability. This paper proposes a file-system abstraction for context engineering, inspired by the Unix notion that 'everything is a file'. The abstraction offers a persistent, governed infrastructure for managing heterogeneous context artefacts through uniform mounting, metadata, and access control. Implemented within the open-source AIGNE framework, the architecture realises a verifiable context-engineering pipeline, comprising the Context Constructor, Loader, and Evaluator, that assembles, delivers, and validates context under token constraints. As GenAI becomes an active collaborator in decision support, humans play a central role as curators, verifiers, and co-reasoners. The proposed architecture establishes a reusable foundation for accountable and human-centred AI co-work, demonstrated through two exemplars: an agent with memory and an MCP-based GitHub assistant. The implementation within the AIGNE framework demonstrates how the architecture can be operationalised in developer and industrial settings, supporting verifiable, maintainable, and industry-ready GenAI systems.

Paper-Link

https://arxiv.org/abs/2512.05470

Auf dem Weg zu einer Wissenschaft der Skalierung von Agentensystemen / Towards a Science of Scaling Agent Systems

Paper-Einführung

Agenten- und sprachmodellbasierte Systeme spielen in realen KI-Anwendungen eine zunehmend wichtige Rolle, doch die Prinzipien, die die Leistung solcher Systeme bestimmen, sind bislang nicht ausreichend erforscht. Diese Studie will diese Lücke schließen, indem sie quantitative Skalierungsprinzipien für Agentensysteme ableitet, um Praktiker bei prinzipienbasierten Designentscheidungen statt rein empirischer Vorgehensweisen zu unterstützen. Die Untersuchung wird über vier unterschiedliche Benchmarks durchgeführt — Finance-Agent, BrowseComp-Plus, PlanCraft und Workbench — und bewertet in einem kontrollierten Setting 180 Konfigurationen, indem fünf typische Architekturen (einzeln, unabhängig, zentralisiert, verteilt, hybrid) auf drei Sprachmodell-Familien angewendet werden.

Kern dieser Studie ist die Ableitung eines Vorhersagemodells mithilfe empirischer Koordinationsmetriken. Dieses Modell berücksichtigt verschiedene Faktoren wie Effizienz, Overhead, Fehlerverstärkung und Redundanz und erreicht einen kreuzvalidierten R²-Wert von 0.513. Die Studie identifiziert drei wesentliche Effekte. Erstens zeigt der Tool-Koordinations-Trade-off, dass tool-zentrierte Aufgaben unter festem Rechenbudget durch den Overhead von Multi-Agenten-Systemen unverhältnismäßig stark beeinträchtigt werden. Zweitens zeigt die Fähigkeitssättigung, dass Koordination ab einer Single-Agent-Performance von etwa 45 % abnimmt oder negative Erträge verursacht. Drittens zeigt die topologieabhängige Fehlerverstärkung, dass unabhängige Agenten Fehler um das 17,2-Fache verstärken, während zentrale Koordination dies auf das 4,4-Fache begrenzt.

Zentrale Koordination verbessert die Leistung bei parallelisierbaren Aufgaben wie finanziellem Reasoning um 80,9 %, während verteilte Koordination bei dynamischer Web-Navigation relativ bessere Ergebnisse zeigt. Bei sequenziellen Reasoning-Aufgaben führen jedoch alle Multi-Agent-Varianten zu Leistungseinbußen von 39–70 %. Diese Erkenntnisse leisten einen wichtigen Beitrag zur Vorhersage der Leistung von Agentensystemen und zur Ableitung optimaler Koordinationsstrategien und liefern prädiktive Prinzipien auf Basis der Eigenschaften agentischer Aufgaben. Durch die quantitative Herleitung von Skalierungsprinzipien für Agentensysteme schafft diese Studie eine Grundlage dafür, dass Praktiker Systeme effektiver entwerfen und optimieren können.

Abstract des Papers

Agenten, auf Sprachmodellen (LM) basierende Systeme, die zu Schlussfolgern, Planung und Handeln fähig sind, werden zum dominierenden Paradigma für reale KI-Anwendungen. Trotz dieser breiten Akzeptanz sind die Prinzipien, die ihre Leistung bestimmen, bislang unzureichend erforscht, sodass Praktiker eher auf Heuristiken als auf fundierte Designentscheidungen angewiesen sind. Wir schließen diese Lücke, indem wir quantitative Skalierungsprinzipien für Agentensysteme ableiten. Wir evaluieren dies anhand von vier vielfältigen Benchmarks: Finance-Agent, BrowseComp-Plus, PlanCraft und Workbench. Mithilfe von fünf kanonischen Architekturen (Single, Independent, Centralized, Decentralized, Hybrid), umgesetzt über drei LLM-Familien hinweg, führen wir eine kontrollierte Evaluation mit 180 Konfigurationen unter standardisierten Tools und Token-Budgets durch. Wir leiten ein Vorhersagemodell auf Basis empirischer Koordinationsmetriken ab, darunter Effizienz, Overhead, Fehlerverstärkung und Redundanz, das ein kreuzvalidiertes $R^2=0.513$ erreicht. Wir identifizieren drei dominante Effekte: (1) einen Tool-Koordinations-Trade-off: Unter festen Rechenbudgets leiden tool-intensive Aufgaben überproportional unter dem Overhead von Multi-Agenten-Systemen. (2) eine Fähigkeitssättigung: Koordination bringt abnehmende oder negative Erträge (beta=-0.408, p<0.001), sobald Single-Agent-Baselines etwa 45 % überschreiten. (3) eine topologieabhängige Fehlerverstärkung: Unabhängige Agenten verstärken Fehler durch unkontrollierte Weitergabe um das 17,2-Fache, während zentralisierte Koordination dies auf das 4,4-Fache begrenzt. Zentralisierte Koordination verbessert die Leistung bei parallelisierbaren Aufgaben wie finanzieller Argumentation um 80,9 %, während dezentrale Koordination bei dynamischer Web-Navigation überlegen ist (+9,2 % gegenüber +0,2 %). Bei sequenziellen Schlussfolgerungsaufgaben verschlechterten jedoch alle Multi-Agenten-Varianten die Leistung um 39–70 %. Das Framework sagt für 87 % der zurückgehaltenen Konfigurationen die optimale Koordinationsstrategie voraus und liefert damit ein prädiktives Prinzip agentischer Skalierung auf Basis messbarer Aufgabeneigenschaften.
> Agents, language model (LM)-based systems that are capable of reasoning, planning, and acting are becoming the dominant paradigm for real-world AI applications. Despite this widespread adoption, the principles that determine their performance remain underexplored, leaving practitioners to rely on heuristics rather than principled design choices. We address this gap by deriving quantitative scaling principles for agent systems. We evaluate this across four diverse benchmarks: Finance-Agent, BrowseComp-Plus, PlanCraft, and Workbench. Using five canonical architectures (Single, Independent, Centralized, Decentralized, Hybrid) instantiated across three LLM families, we perform a controlled evaluation spanning 180 configurations with standardized tools and token budgets. We derive a predictive model using empirical coordination metrics, including efficiency, overhead, error amplification, and redundancy, that achieves cross-validated $R^2=0.513$. We identify three dominant effects: (1) a tool-coordination trade-off: under fixed computational budgets, tool-heavy tasks suffer disproportionately from multi-agent overhead. (2) a capability saturation: coordination yields diminishing or negative returns (beta=-0.408, p<0.001) once single-agent baselines exceed ~45%. (3) topology-dependent error amplification: independent agents amplify errors 17.2x through unchecked propagation, while centralized coordination contains this to 4.4x. Centralized coordination improves performance by 80.9% on parallelizable tasks like financial reasoning, while decentralized coordination excels on dynamic web navigation (+9.2% vs. +0.2%). Yet for sequential reasoning tasks, all multi-agent variants degraded performance by 39-70%. The framework predicts the optimal coordination strategy for 87% of held-out configurations, providing a predictive principle of agentic scaling based on measurable task properties.

Paper-Link

https://arxiv.org/abs/2512.08296

LMCache: Eine effiziente KV-Cache-Schicht für LLM-Inferenz im Enterprise-Maßstab / LMCache: An Efficient KV Cache Layer for Enterprise-Scale LLM Inference

Paper-Einführung

Als neuer Ansatz zur Steigerung der Effizienz von Large Language Model (LLM)-Inferenz wurde LMCache vorgeschlagen. Traditionell wurde der KV-Cache im GPU-Speicher abgelegt, um den Decoding-Schritt von LLMs zu beschleunigen. Inzwischen übersteigt die von Nutzern gespeicherte Menge an KV-Cache jedoch die Kapazität des GPU-Speichers. Vor diesem Hintergrund hat sich LMCache als die erste Open-Source-Lösung etabliert, die den KV-Cache außerhalb der GPU verlagert und dessen Wiederverwendung zwischen verschiedenen Queries und Inferenz-Engines ermöglicht.

Die Kernfunktionen von LMCache sind die Unterstützung von Cache-Offloading und der Verteilung von Prefill und Decode (PD). Dadurch wird die Wiederverwendung von Präfixen zwischen Queries möglich, und die Übertragung von Caches zwischen verschiedenen GPUs wird erleichtert. LMCache maximiert die Leistung durch drei wesentliche Beiträge. Erstens wurde die Bewegung von KV-Cache-Daten durch Batch-Datentransfers sowie Pipelining von Berechnung und Ein-/Ausgabe (I/O) optimiert. Zweitens wurde ein modularer KV-Cache-Connector eingeführt, um flexibel auf die Weiterentwicklung verschiedener Inferenz-Engines reagieren zu können. Drittens stellt es eine erstklassige Control-API für die Cache-Koordination zwischen GPU-, CPU-, Storage- und Netzwerkebenen bereit und gibt Nutzern dadurch Flexibilität.

Die Leistung von LMCache zeigte in Kombination mit vLLM bei verschiedenen Aufgaben wie Multi-Round Question Answering und Dokumentenanalyse eine bis zu 15-fache Durchsatzsteigerung. Anhand realer Anwendungsfälle wurde bestätigt, dass das Abrufen von KV-Caches aus Remote-Storage wirksam ist, um die Prefill-Latenz zu verringern. Zudem liefert die Arbeit die wichtige Erkenntnis, dass die in der Industrie weit verbreitete Technik der Kontext-Trunkierung die Präfix-Cache-Trefferquote halbieren kann.

Zusammenfassend ist LMCache eine innovative Lösung, die die Effizienz von LLM-Inferenz erheblich verbessert und voraussichtlich durch großflächige Einführung in Unternehmensumgebungen zu verschiedenen Branchen beitragen wird. Es wandelt LLM-Engines in ein Ökosystem für verteiltes Rechnen und Storage um und deutet darauf hin, dass AI-native Daten künftig zur Grundlage von LLM-Inferenz werden könnten.

Abstract

Der KV-Cache wurde traditionell im GPU-Speicher gespeichert, um die Decoding-Phase der Inferenz großer Sprachmodelle (LLMs) zu beschleunigen. Um jedoch die Wiederverwendung des Cache über verschiedene Queries und Inferenz-Engines hinweg zu ermöglichen, wird es zunehmend notwendig, KV-Caches außerhalb von GPU-Geräten auszulagern. Unsere realen Nutzungsstatistiken bestätigen diesen Trend: Im Laufe der Zeit ist die von Nutzern gespeicherte gesamte KV-Cache-Menge schnell angestiegen und hat die Kapazität des GPU-Speichers bei Weitem überschritten. Trotz dieses Bedarfs fehlt bislang eine effiziente Lösung zum Offloading und Übertragen von KV-Caches. Wir präsentieren LMCACHE, die erste und bislang effizienteste Open-Source-Lösung für KV-Caching, die von modernen LLM-Engines (vLLM und SGLang) erzeugte KV-Caches aus dem GPU-Speicher extrahiert, speichert und über Engines und Queries hinweg gemeinsam nutzbar macht. LMCACHE unterstützt sowohl Cache-Offloading (Prefix-Reuse über Queries hinweg) als auch Prefill-Decode-(PD)-Disaggregation (Engine-/GPU-übergreifende Cache-Übertragung). Die hohe Leistung und breite Akzeptanz von LMCACHE beruhen auf folgenden Beiträgen: (1) hochoptimierte KV-Cache-Datenbewegung durch Batch-Datenbewegungsoperationen sowie Compute- und I/O-Pipelining; (2) eine modulare KV-Cache-Connector-Komponente, die LMCACHE von der schnellen Weiterentwicklung von Inferenz-Engines entkoppelt; (3) eine erstklassige Control-API für die flexible Cache-Orchestrierung über GPU-, CPU-, Storage- und Netzwerkebenen hinweg. Unsere Evaluierung zeigt, dass die Kombination von LMCACHE mit vLLM bei Workloads wie mehrstufiger Fragebeantwortung und Dokumentenanalyse eine bis zu 15-fache Steigerung des Durchsatzes erreicht. Die großflächige Einführung von LMCACHE in Unternehmensumgebungen liefert wertvolle Erkenntnisse: So bringt das Abrufen von KV-Caches aus Remote-Storage erwartungsgemäß Vorteile für die Prefill-Latenz, und Context Truncation, eine in der Industrie weit verbreitete Technik, kann die Prefix-Cache-Trefferquote deutlich um die Hälfte reduzieren. Den Quellcode von LMCACHE finden Sie unter: https://github.com/LMCache/LMCache.
> KV cache has traditionally been stored in GPU memory to accelerate the decoding phase of large language model (LLM) inference. However, it is increasingly necessary to move KV caches outside GPU devices, to enable cache reuse across different queries and inference engines. Our real-world usage statistics confirm this trend: over time, the total KV cache stored by users has grown rapidly, far exceeding the capacity of GPU memory. Despite this need, there lacks an efficient solution for offloading and transferring KV caches. We present LMCACHE, the first and so far the most efficient open-source KV caching solution, which extracts and stores KV caches generated by modern LLM engines (vLLM and SGLang) out of the GPU memory and shares them across engines and queries. LMCACHE supports both cache offloading (prefix reuse across queries) and prefill-decode (PD) disaggregation (cross-engine/GPU cache transfer). LMCACHE's high performance and wide adoption stem from the following contributions: (1) highly optimized KV cache data movement powered by batched data movement operations, compute and I/O pipelining; (2) a modular KV cache connector component, decoupling LMCACHE from the rapid evolution of inference engines; (3) a first-class control API for flexible cache orchestration across GPU, CPU, storage, and network layers. Our evaluation shows that combining LMCACHE with vLLM achieves up to 15x improvement in throughput across workloads such as multi-round question answering and document analysis. Large-scale adoption of LMCACHE in enterprise settings provides us valuable insights, for example, fetching KV cache from remote storage has unsurprisingly benefits to prefill delay, and that context truncation, which is a widely applied technique in industry, can greatly reduce prefix cache hit ratio by half. The source code of LMCACHE is at: https://github.com/LMCache/LMCache.

Paper-Link

https://arxiv.org/abs/2510.09665

Weiterführende Informationen

https://github.com/LMCache/LMCache

https://discuss.pytorch.kr/t/lmcache-llm/7179

ReFusion: Diffusions-basiertes großes Sprachmodell mit parallelem autoregressivem Decoding / ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

Paper-Vorstellung

ReFusion ist ein innovatives Mask-Diffusion-Modell mit parallelem autoregressivem Decoding, das entwickelt wurde, um die Grenzen bestehender autoregressiver Modelle (ARMs) und Mask-Diffusion-Modelle (MDMs) zu überwinden. Traditionelle ARMs leiden aufgrund ihres sequentiellen Decoding-Verfahrens unter langsamer Inferenz, während MDMs zwar bedingte Unabhängigkeit annehmen, ihre Effizienz jedoch durch architektonische Engpässe und inkonsistente Generierung beeinträchtigt wird. ReFusion verbessert das parallele Decoding auf Slot-Ebene, wobei Slots zusammenhängende Subsequenzen fester Länge sind.

Der Kern von ReFusion ist ein "Plan-and-Infill"-Decoding-Prozess. Im ersten Schritt werden Slots mit schwacher Abhängigkeit identifiziert, im zweiten Schritt werden diese Slots parallel decodiert. Dieses slotbasierte Design ermöglicht die Wiederverwendung des Key-Value-(KV)-Cache, sodass der KV-Zustand des gesamten Kontexts nicht jedes Mal neu berechnet werden muss. Dadurch wird die Trainingskomplexität vom Raum der Token-Kombinationen auf den Permutationsraum auf Slot-Ebene reduziert, was die Effizienz erheblich steigert.

Experimentelle Ergebnisse zeigen, dass ReFusion gegenüber früheren MDMs eine Leistungssteigerung von 34 % und eine durchschnittliche 18-fache Geschwindigkeitssteigerung erzielt hat. Gleichzeitig wurde der Leistungsabstand zu starken ARMs verringert und eine durchschnittliche 2,33-fache Geschwindigkeitssteigerung erreicht. Diese Ergebnisse zeigen, dass ReFusion die Grenzen bestehender Modelle überwindet und neue Möglichkeiten für Diffusionsmodelle aufzeigt.

Durch die Wiederverwendung des KV-Cache und die Verringerung der Trainingskomplexität leistet ReFusion einen innovativen Beitrag sowohl bei Leistung als auch Geschwindigkeit und liefert wichtige Erkenntnisse für zukünftige Forschungsrichtungen. Es wird erwartet, dass dieses Modell durch die Kombination der Vorteile von Diffusionsmodellen und autoregressiven Modellen zur Weiterentwicklung großer Sprachmodelle beitragen wird.

Abstract

Autoregressive Modelle (ARMs) sind durch langsame sequenzielle Inferenz eingeschränkt. Masked Diffusion Models (MDMs) bieten zwar eine parallele Alternative, haben jedoch entscheidende Nachteile: einen hohen Rechen-Overhead durch den Verzicht auf Key-Value-(KV-)Caching sowie inkohärente Generierung, die daraus entsteht, dass Abhängigkeiten über einen unhandhabbaren Raum von Token-Kombinationen gelernt werden. Um diese Einschränkungen zu beheben, stellen wir ReFusion vor, ein neues Masked Diffusion Model, das durch die Verlagerung des parallelen Decodings von der Token-Ebene auf eine höhere Slot-Ebene überlegene Leistung und Effizienz erreicht, wobei jeder Slot eine zusammenhängende Teilsequenz fester Länge ist. Dies wird durch einen iterativen „Plan-and-Infill“-Decoding-Prozess erreicht: Ein diffusionsbasierter Planungsschritt identifiziert zunächst eine Menge schwach abhängiger Slots, und ein autoregressiver Infill-Schritt decodiert diese ausgewählten Slots anschließend parallel. Das slotbasierte Design ermöglicht zugleich die vollständige Wiederverwendung des KV-Caches in einem einheitlichen kausalen Framework und reduziert die Lernkomplexität vom Raum der Token-Kombinationen auf einen handhabbaren Permutationsraum auf Slot-Ebene. Umfangreiche Experimente auf sieben verschiedenen Benchmarks zeigen, dass ReFusion frühere MDMs nicht nur mit 34 % Leistungsgewinn und im Durchschnitt mehr als 18$\times$ höherer Geschwindigkeit deutlich übertrifft, sondern auch die Leistungslücke zu starken ARMs schließt und dabei eine durchschnittliche Beschleunigung von 2.33$\times$ beibehält.
> Autoregressive models (ARMs) are hindered by slow sequential inference. While masked diffusion models (MDMs) offer a parallel alternative, they suffer from critical drawbacks: high computational overhead from precluding Key-Value (KV) caching, and incoherent generation arising from learning dependencies over an intractable space of token combinations. To address these limitations, we introduce ReFusion, a novel masked diffusion model that achieves superior performance and efficiency by elevating parallel decoding from the token level to a higher slot level, where each slot is a fixed-length, contiguous sub-sequence. This is achieved through an iterative ``plan-and-infill'' decoding process: a diffusion-based planning step first identifies a set of weakly dependent slots, and an autoregressive infilling step then decodes these selected slots in parallel. The slot-based design simultaneously unlocks full KV cache reuse with a unified causal framework and reduces the learning complexity from the token combination space to a manageable slot-level permutation space. Extensive experiments on seven diverse benchmarks show that ReFusion not only overwhelmingly surpasses prior MDMs with 34% performance gains and an over 18$\times$ speedup on average, but also bridges the performance gap to strong ARMs while maintaining a 2.33$\times$ average speedup.

Paper-Link

https://arxiv.org/abs/2512.13586

Weiterführende Informationen

https://github.com/ML-GSAI/ReFusion

https://huggingface.co/GSAI-ML/ReFusion

Skalierbarer Pre-Training-Ansatz zur Erzeugung visueller Tokenizer / Towards Scalable Pre-training of Visual Tokenizers for Generation

Paper-Vorstellung

Die Qualität des latenten Raums visueller Tokenizer hat einen entscheidenden Einfluss auf die Leistung moderner generativer Modelle. Bestehende rekonstruktionsbasierte Lernverfahren erzeugen jedoch latente Räume, die auf Informationen niedriger Ebene verzerrt sind, was zu dem Problem führt, dass eine bessere Pixelgenauigkeit nicht zwangsläufig eine höherwertige Generierung garantiert. Dieses Phänomen wird als „Pre-training-Scaling-Problem“ definiert und macht deutlich, dass der latente Raum für effektive generative Modelle hochrangige Semantik kompakt ausdrücken muss.

In dieser Arbeit wird mit VTP (Visual Tokenizer Pre-training) ein neues einheitliches Framework für das Pre-Training visueller Tokenizer vorgeschlagen. VTP verfolgt einen innovativen Ansatz, der Bild-Text-Kontrast, Self-Supervised Learning und Rekonstruktionsverlust gemeinsam optimiert, und trägt so zur Verbesserung der Generierungsleistung bei. Durch eine groß angelegte Studie wurden zwei zentrale Erkenntnisse gewonnen. Erstens wurde bestätigt, dass semantisches Verständnis der wichtigste Treiber für Generierung ist. Zweitens zeigt VTP hervorragende Skalierungseigenschaften, bei denen sich die Generierungsleistung entsprechend Rechenressourcen, Modellparametern und Datengröße effektiv verbessert.

VTP erreicht auf ImageNet eine Zero-Shot-Genauigkeit von 78.2 % und ein rFID von 0.36 und konvergiert dabei 4.1$\times$ schneller als bisherige fortschrittliche Distillation-Methoden. Darüber hinaus erzielte VTP in der nachgelagerten Generierung eine Verbesserung des FID um 65.8 %, indem mehr FLOPS in das Pre-Training investiert wurden, ohne die standardmäßige DiT-Trainingsspezifikation zu verändern. Diese Ergebnisse zeigen, dass VTP gegenüber traditionellen Autoencoder-Ansätzen überlegen ist und sich als skalierbares Modell etablieren kann.

Zusammenfassend trägt VTP dazu bei, das Pre-training-Scaling-Problem visueller Tokenizer zu lösen und eine starke Korrelation zwischen dem Verständnis des latenten Raums und der Generierungsfähigkeit zu etablieren. Diese Studie zeigt eine neue Richtung zur Verbesserung der Leistung generativer Modelle auf und kann als wichtige Grundlage für künftige Forschung dienen.

Paper-Abstract

In visuellen Tokenizern (z. B. VAEs) ist die Qualität des latenten Raums für moderne generative Modelle von entscheidender Bedeutung. Das standardmäßige rekonstruktionsbasierte Trainingsparadigma erzeugt jedoch einen latenten Raum, der auf Informationen niedriger Ebene verzerrt ist, was zu einem grundlegenden Mangel führt: Eine bessere Genauigkeit auf Pixelebene führt nicht zu qualitativ hochwertigerer Generierung. Das bedeutet, dass der Einsatz umfangreicher Rechenressourcen für das Pre-Training visueller Tokenizer nur in geringem Maße zu einer besseren Generierungsleistung beiträgt. Wir bezeichnen dies als „Pre-Training-Scaling-Problem“ und schlagen einen notwendigen Wandel vor: Um für die Generierung effektiv zu sein, muss ein latenter Raum hochrangige Semantik prägnant repräsentieren. Wir stellen VTP vor, ein einheitliches Pre-Training-Framework für visuelle Tokenizer, das als erstes die gemeinsame Optimierung von Bild-Text-Kontrastiv-, Self-Supervised- und Rekonstruktionsverlusten ermöglicht. Unsere groß angelegte Studie zeigt zwei zentrale Erkenntnisse: (1) Verstehen ist ein zentraler Treiber der Generierung, und (2) die Skalierungseigenschaften sind deutlich besser, wobei die Generierungsleistung effektiv mit den für das Pre-Training des visuellen Tokenizers eingesetzten Compute-Ressourcen, Parametern und Daten skaliert. Nach groß angelegtem Pre-Training liefert unser Tokenizer ein wettbewerbsfähiges Profil (78,2 Zero-Shot-Genauigkeit und 0,36 rFID auf ImageNet) und eine 4,1-mal schnellere Konvergenz bei der Generierung im Vergleich zu fortschrittlichen Distillation-Methoden. Noch wichtiger ist, dass er sich effektiv skalieren lässt: Ohne die standardmäßigen DiT-Trainingsspezifikationen zu verändern, führt allein die Investition zusätzlicher FLOPS in das Pre-Training von VTP zu einer Verbesserung des FID um 65,8 % in der Downstream-Generierung, während konventionelle Autoencoder bereits sehr früh bei 1/10 der FLOPS stagnieren. Unsere vortrainierten Modelle sind unter https://github.com/MiniMax-AI/VTP verfügbar.
> The quality of the latent space in visual tokenizers (e.g., VAEs) is crucial for modern generative models. However, the standard reconstruction-based training paradigm produces a latent space that is biased towards low-level information, leading to a foundation flaw: better pixel-level accuracy does not lead to higher-quality generation. This implies that pouring extensive compute into visual tokenizer pre-training translates poorly to improved performance in generation. We identify this as the pre-training scaling problem and suggest a necessary shift: to be effective for generation, a latent space must concisely represent high-level semantics. We present VTP, a unified visual tokenizer pre-training framework, pioneering the joint optimization of image-text contrastive, self-supervised, and reconstruction losses. Our large-scale study reveals two principal findings: (1) understanding is a key driver of generation, and (2) much better scaling properties, where generative performance scales effectively with compute, parameters, and data allocated to the pretraining of the visual tokenizer. After large-scale pre-training, our tokenizer delivers a competitive profile (78.2 zero-shot accuracy and 0.36 rFID on ImageNet) and 4.1 times faster convergence on generation compared to advanced distillation methods. More importantly, it scales effectively: without modifying standard DiT training specs, solely investing more FLOPS in pretraining VTP achieves 65.8% FID improvement in downstream generation, while conventional autoencoder stagnates very early at 1/10 FLOPS. Our pre-trained models are available at https://github.com/MiniMax-AI/VTP.

Paper-Link

https://arxiv.org/abs/2512.13687

Weiterlesen

https://github.com/MiniMax-AI/VTP

CLaRa: Überbrückung von Retrieval und Generation durch kontinuierliches latentes Reasoning / CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning

Paper-Einführung

CLaRa (Continuous Latent Reasoning) ist ein innovatives Framework, das entwickelt wurde, um die Grenzen von Retrieval-augmented generation (RAG)-Systemen zu überwinden. Bestehende RAG-Ansätze haben Schwierigkeiten bei der Verarbeitung langer Kontexte, und da die Optimierung von Retrieval und Generation getrennt erfolgt, sinkt die Effizienz. Um diese Probleme zu lösen, schlägt CLaRa eine neue Methodik vor, die Retrieval und Generation durch embeddingbasierte Komprimierung und gemeinsame Optimierung in einem geteilten kontinuierlichen Raum integriert.

Eine der Kernkomponenten von CLaRa, SCP (key-preserving data synthesis), nutzt Frage-Antwort-(QA)- und Paraphrase-Supervision, um semantisch reichhaltige und durchsuchbare komprimierte Vektoren zu erzeugen. Dieser Prozess trägt dazu bei, die Genauigkeit des Retrievals zu erhöhen und gleichzeitig die Vielfalt und Qualität der Daten zu erhalten. Anschließend trainiert CLaRa Re-Ranker und Generator End-to-End mit einem einzigen Sprachmodellierungsverlust, wodurch der Gradientenfluss zwischen den beiden Modulen optimiert wird. Dieser integrierte Optimierungsansatz spielt eine wichtige Rolle dabei, die Relevanz des Retrievals mit der Qualität der generierten Antworten in Einklang zu bringen.

Experimentelle Ergebnisse zeigen, dass CLaRa bei mehreren Frage-Antwort-(QA)-Benchmarks modernste Komprimierungs- und Re-Ranking-Leistungen erzielt, die bestehende textbasierte Methoden übertreffen. Insbesondere zeigt CLaRa vorteilhafte Ergebnisse bei der effektiven Verarbeitung langer Kontexte, was belegt, dass der integrierte Optimierungsansatz von CLaRa tatsächlich wirksam ist. Diese Ergebnisse deuten darauf hin, dass CLaRa das Potenzial hat, die Leistung von RAG-Systemen erheblich zu verbessern.

Der Ansatz von CLaRa unterscheidet sich von bestehender RAG-Forschung und zeigt als erste Methode, die Retrieval und Generation direkt optimiert, Potenzial für den Einsatz in einer Vielzahl künftiger Anwendungsfelder. Diese Forschung eröffnet neue Möglichkeiten für RAG-Systeme und dürfte als wichtige Grundlage für zukünftige Arbeiten dienen.

Paper-Abstract

Retrieval-augmented generation (RAG) erweitert große Sprachmodelle (LLMs) um externes Wissen, hat jedoch weiterhin mit langen Kontexten und der getrennten Optimierung von Retrieval und Generierung zu kämpfen. In dieser Arbeit wird CLaRa (Continuous Latent Reasoning) vorgeschlagen. CLaRa ist ein einheitliches Framework, das embedding-basierte Kompression und gemeinsame Optimierung in einem geteilten kontinuierlichen Raum durchführt. Um semantisch reichhaltige und abrufbare komprimierte Vektoren zu erhalten, wird SCP eingeführt, ein Framework zur datensynthetischen Erzeugung unter Beibehaltung der Schlüsselmerkmale, das QA- und Paraphrase-Supervision nutzt. Anschließend trainiert CLaRa den Reranker und den Generator End-to-End über einen einzelnen Language-Modeling-Loss, wobei die Gradienten mithilfe eines differenzierbaren Top-k-Schätzers durch beide Module fließen. Theoretisch bringt diese einheitliche Optimierung die Relevanz des Retrievals mit der Qualität der Antworten in Einklang. Experimente über mehrere QA-Benchmarks hinweg zeigen, dass CLaRa bei Kompression und Reranking Leistungen auf dem aktuellen Stand der Technik erzielt und textbasierte feinabgestimmte Baselines oft übertrifft.
> Retrieval-augmented generation (RAG) enhances large language models (LLMs) with external knowledge but still suffers from long contexts and disjoint retrieval-generation optimization. In this work, we propose CLaRa (Continuous Latent Reasoning), a unified framework that performs embedding-based compression and joint optimization in a shared continuous space. To obtain semantically rich and retrievable compressed vectors, we introduce SCP, a key-preserving data synthesis framework using QA and paraphrase supervision. CLaRa then trains the reranker and generator end-to-end via a single language modeling loss, with gradients flowing through both modules using a differentiable top-k estimator. Theoretically, this unified optimization aligns retrieval relevance with answer quality. Experiments across multiple QA benchmarks show that CLaRa achieves state-of-the-art compression and reranking performance, often surpassing text-based fine-tuned baselines.

Paper-Link

https://arxiv.org/abs/2511.18659

Weiterführende Informationen

https://github.com/apple/ml-clara

⚠️Werbung⚠️: Fanden Sie diesen von der 🔥PyTorch Korean User Group🇰🇷 zusammengestellten Beitrag nützlich? Wenn Sie Mitglied werden, senden wir Ihnen wichtige Beiträge per E-Mail 💌 zu! Standard ist Weekly, aber eine Umstellung auf Daily ist ebenfalls möglich.

[2025/12/15 ~ 21] Ausgewählte AI/ML-Papers der Woche