ML-Papers dieser Woche

(discuss.pytorch.kr)

1 Punkte von ninebow 2025-10-10 | Noch keine Kommentare. | Auf WhatsApp teilen

[2025/09/29 ~ 10/05] Auswahl sehenswerter AI/ML-Papers dieser Woche

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Verbesserung von Wahrheitsgehalt und Vertrauenswürdigkeit von Informationen: In mehreren Papers werden verschiedene Ansätze vorgeschlagen, um die Genauigkeit und Zuverlässigkeit von Informationen zu erhöhen. Zum Beispiel stellt „Incentive-Aligned Multi-Source LLM Summaries“ mit dem Framework Truthful Text Summarization (TTS) den Wahrheitsgehalt von Informationen sicher, und „AgentMaster“ unterstützt mithilfe eines Multi-Agenten-Systems die vertrauenswürdige Informationssuche und -analyse.

2️⃣ Fortschritte bei Multi-Agenten-Systemen: In zahlreichen Studien nimmt der Einsatz von Multi-Agenten-Systemen (MAS, Multi-Agent System) zu, was bei der Lösung komplexer Aufgaben sehr hilfreich ist. Die Papers „TUMIX“ und „AgentMaster“ zeigen Methoden auf, wie sich die Leistung durch Zusammenarbeit und Interaktion zwischen Agenten unter Nutzung verschiedener Tools verbessern lässt.

3️⃣ Wissensinjektion und kontinuierliches Lernen: Die Papers „How to inject knowledge efficiently?“ und „Continual Learning for VLMs“ untersuchen, wie sich Domänenwissen effizient einspeisen lässt und wie auf anomalen Daten kontinuierlich gelernt werden kann. Diese Arbeiten konzentrieren sich darauf, die Modellleistung zu verbessern und gleichzeitig zu verhindern, dass vorhandenes Wissen verloren geht.

ARE: Skalierung von Agentenumgebungen und Evaluierungen / ARE: Scaling Up Agent Environments and Evaluations

Paper-Vorstellung

Die vom Meta Superintelligence Lab veröffentlichte Plattform Meta Agents Research Environments (ARE) ist eine innovative Forschungsplattform, die die Skalierbarkeit von Agentenumgebungen erhöht, die Integration synthetischer oder realer Anwendungen unterstützt und die Ausführung agentischer Orchestrierungen ermöglicht. ARE bietet einfache Abstraktionen zum Aufbau komplexer und vielfältiger Umgebungen, sodass jede Umgebung eigene Regeln, Tools, Inhalte und Verifizierer besitzen kann, und hilft dadurch, die Lücke zwischen Modellentwicklung und realem Deployment zu überbrücken.

Eine der wichtigsten Innovationen von ARE ist die Einführung des Benchmarks Gaia2. Gaia2 wurde entwickelt, um allgemeine Agentenfähigkeiten zu messen, und umfasst über einfache Suche und Ausführung hinaus komplexe Anforderungen: Agenten müssen mit Mehrdeutigkeiten und Rauschen umgehen, sich an dynamische Umgebungen anpassen, mit anderen Agenten zusammenarbeiten und Aufgaben unter Zeitbeschränkungen ausführen. Besonders wichtig ist, dass Gaia2 asynchron ausgeführt wird, wodurch neue Fehlermodi sichtbar werden, die in statischen Umgebungen nicht auftreten, was eine deutlich differenziertere Bewertung der Agentenleistung ermöglicht.

Die experimentellen Ergebnisse zeigen, dass kein System über das gesamte Intelligenzspektrum hinweg dominiert und dass stärkere Reasoning-Fähigkeiten oft auf Kosten der Effizienz gehen. Dass Budget-Skalierungskurven stagnieren, unterstreicht den Bedarf an neuen Architekturen und adaptiven Compute-Strategien. Diese Erkenntnisse weisen auf die Richtung der AI-Forschung hin und heben die Bedeutung von ARE und Gaia2 hervor.

Die Abstraktionen von ARE ermöglichen es, Gaia2 kontinuierlich auf andere Umgebungen auszuweiten, sodass die Forschungsgemeinschaft schnell neue, auf ihre eigenen Domänen zugeschnittene Benchmarks erstellen kann. Der Fortschritt von AI wird zunehmend davon abhängen, sinnvolle Aufgaben und robuste Evaluierungen zu definieren, und genau dies wird durch die Fähigkeiten von ARE möglich. In diesem Kontext stellt ARE die erforderlichen Tools für die Entwicklung und Evaluierung von Agenten bereit und wird an der Front der AI-Forschung eine wichtige Rolle spielen.

Abstract

Wir stellen Meta Agents Research Environments (ARE) vor, eine Forschungsplattform für die skalierbare Erstellung von Umgebungen, die Integration synthetischer oder realer Anwendungen und die Ausführung agentischer Orchestrierungen. ARE bietet einfache Abstraktionen zum Aufbau komplexer und vielfältiger Umgebungen mit jeweils eigenen Regeln, Tools, Inhalten und Verifizierern und hilft so, die Lücke zwischen Modellentwicklung und realem Deployment zu überbrücken. Außerdem schlagen wir Gaia2 vor, einen in ARE aufgebauten Benchmark, der zur Messung allgemeiner Agentenfähigkeiten entwickelt wurde. Über Suche und Ausführung hinaus verlangt Gaia2 von Agenten, mit Mehrdeutigkeiten und Rauschen umzugehen, sich an dynamische Umgebungen anzupassen, mit anderen Agenten zusammenzuarbeiten und unter zeitlichen Einschränkungen zu operieren. Im Gegensatz zu früheren Benchmarks läuft Gaia2 asynchron und macht dadurch neue Fehlermodi sichtbar, die in statischen Umgebungen nicht erkennbar sind. Unsere Experimente zeigen, dass kein System über das gesamte Intelligenzspektrum hinweg dominiert: Stärkeres Reasoning geht oft auf Kosten der Effizienz, und Budget-Skalierungskurven flachen ab, was den Bedarf an neuen Architekturen und adaptiven Compute-Strategien unterstreicht. Vielleicht noch wichtiger ist, dass die Abstraktionen von ARE eine kontinuierliche Erweiterung von Gaia2 auf andere Umgebungen ermöglichen und damit die Community in die Lage versetzen, rasch neue, auf ihre Domänen zugeschnittene Benchmarks zu erstellen. In der zweiten Hälfte der AI wird Fortschritt zunehmend davon abhängen, sinnvolle Aufgaben und robuste Evaluierungen zu definieren, um Frontier-Fähigkeiten weiter voranzutreiben.

We introduce Meta Agents Research Environments (ARE), a research platform for scalable creation of environments, integration of synthetic or real applications, and execution of agentic orchestrations. ARE provides simple abstractions to build complex and diverse environments, each with their own rules, tools, content, and verifiers, helping to bridge the gap between model development and real-world deployment. We also propose Gaia2, a benchmark built in ARE and designed to measure general agent capabilities. Beyond search and execution, Gaia2 requires agents to handle ambiguities and noise, adapt to dynamic environments, collaborate with other agents, and operate under temporal constraints. Unlike prior benchmarks, Gaia2 runs asynchronously, surfacing new failure modes that are invisible in static settings. Our experiments show that no system dominates across the intelligence spectrum: stronger reasoning often comes at the cost of efficiency, and budget scaling curves plateau, highlighting the need for new architectures and adaptive compute strategies. Perhaps more importantly, ARE abstractions enable continuous extension of Gaia2 to other environments, empowering the community to rapidly create new benchmarks tailored to their domains. In AI's second half, progress increasingly depends on defining meaningful tasks and robust evaluations to drive frontier capabilities forward.

Paper-Link

https://arxiv.org/abs/2509.17158

Incentive-Aligned Multi-Source LLM Summaries / Incentive-Aligned Multi-Source LLM Summaries

Paper-Vorstellung

Large Language Models (LLMs) werden in modernen Informationssuch- und Antwortsystemen häufig eingesetzt, um Texte aus mehreren Quellen zu einer einzigen Antwort zu integrieren. Bestehende Systeme haben jedoch Grenzen, wenn es darum geht, die Genauigkeit der Quellen sicherzustellen, und sind anfällig für adversarialen Content. Um diese Probleme zu lösen, bietet das vorgeschlagene Framework Truthful Text Summarization (TTS) einen innovativen Ansatz, der die faktische Robustheit verbessert und zugleich ohne Ground-Truth-Labels auskommen kann. TTS zerlegt eine Entwurfszusammenfassung in atomare Behauptungen, bewertet die Behauptungen jeder Quelle und vergibt Quellenscores mithilfe eines angepassten Multi-Task-Peer-Prediction-Mechanismus, der die Übereinstimmung von Informationen belohnt. Nach dem Herausfiltern unzuverlässiger Quellen wird erneut zusammengefasst. Dieser Prozess richtet die Anreize der Quellen an der Ehrlichkeit der Informationen aus, sodass wahrheitsgemäße Berichterstattung zur Strategie der Nutzenmaximierung wird.

Die Methodik von TTS präsentiert einen neuen Ansatz zur Sicherung der Wahrhaftigkeit von Informationen und hebt die Unterschiede zu bestehender Forschung zu Informationszusammenfassung und LLMs hervor. Experimentelle Ergebnisse zeigen, dass TTS die faktische Genauigkeit und Robustheit verbessert und zugleich die Sprachflüssigkeit bewahrt. Das trägt dazu bei, Manipulationen durch Verifikation und Alignment von Informationen zu unterdrücken. Diese Forschung zeigt das Potenzial, die Zuverlässigkeit von Informationszusammenfassungssystemen deutlich zu steigern, und schafft eine wichtige Grundlage für die Untersuchung künftiger Einsatzmöglichkeiten in verschiedenen Bereichen. TTS zeigt das Potenzial, die Zuverlässigkeit von Informationszusammenfassungssystemen erheblich zu verbessern, indem es die Wahrhaftigkeit von Informationen erhöht und gleichzeitig die Anreize der Quellen ausrichtet.

Paper-Abstract

Large Language Models (LLMs) werden in modernen Such- und Antwortsystemen zunehmend eingesetzt, um mehrere, teils widersprüchliche Texte zu einer einzigen Antwort zu synthetisieren. Aktuelle Pipelines bieten Quellen jedoch nur schwache Anreize, korrekt zu sein, und sind anfällig für adversarialen Content. Wir stellen Truthful Text Summarization (TTS) vor. TTS ist ein anreizorientiertes Framework, das die faktische Robustheit verbessert und ohne Ground-Truth-Labels funktioniert. TTS (i) zerlegt eine Entwurfssynthese in atomare Behauptungen, (ii) ermittelt die Haltung jeder Quelle zu jeder Behauptung, (iii) bewertet Quellen mit einem angepassten adaptiven Multi-Task-Peer-Prediction-Mechanismus, der informative Übereinstimmung belohnt, und (iv) filtert unzuverlässige Quellen vor der erneuten Zusammenfassung heraus. Wir etablieren formale Garantien, die die Anreize einer Quelle an informativer Ehrlichkeit ausrichten, sodass wahrheitsgemäße Berichterstattung zur nutzenmaximierenden Strategie wird. Experimente zeigen, dass TTS die faktische Genauigkeit und Robustheit verbessert, während die Sprachflüssigkeit erhalten bleibt, die Sichtbarkeit mit informativer Bestätigung in Einklang bringt und Manipulationen unattraktiv macht.
> Large language models (LLMs) are increasingly used in modern search and answer systems to synthesize multiple, sometimes conflicting, texts into a single response, yet current pipelines offer weak incentives for sources to be accurate and are vulnerable to adversarial content. We introduce Truthful Text Summarization (TTS), an incentive-aligned framework that improves factual robustness without ground-truth labels. TTS (i) decomposes a draft synthesis into atomic claims, (ii) elicits each source's stance on every claim, (iii) scores sources with an adapted multi-task peer-prediction mechanism that rewards informative agreement, and (iv) filters unreliable sources before re-summarizing. We establish formal guarantees that align a source's incentives with informative honesty, making truthful reporting the utility-maximizing strategy. Experiments show that TTS improves factual accuracy and robustness while preserving fluency, aligning exposure with informative corroboration and disincentivizing manipulation.

Paper-Link

https://arxiv.org/abs/2509.25184

TUMIX: Multi-Agent-Test-Time-Scaling durch Tool-Use Mixture / TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture

Paper-Einführung

Tool-Use Mixture (TUMIX) ist ein Ensemble-Framework, das mehrere Agenten parallel ausführt und dabei jeweils unterschiedliche Strategien zur Tool-Nutzung und verschiedene Antwortpfade einsetzt. Diese Methodik konzentriert sich darauf, durch die Integration von textbasierter Schlussfolgerung, Coding und Suche wirksame Lösungen für unterschiedliche Fragen bereitzustellen. Die Agenten von TUMIX teilen und verfeinern ihre Antworten wiederholt auf Basis der Frage und vorheriger Antworten, wodurch eine tiefere Integration und die Erkundung vielfältiger Inferenzpfade möglich werden.

TUMIX erreichte gegenüber bestehenden Methoden für Tool-Augmentation und Test-Time-Scaling eine durchschnittliche Genauigkeitssteigerung von 3,55 % und zeigte auf wichtigen Reasoning-Benchmarks mit den Modellen Gemini-2.5-Pro und Gemini-2.5-Flash eine starke Performance. Diese Ergebnisse zeigen, dass Diversität und Qualität der Agenten entscheidende Faktoren sind, und schlagen eine Methode vor, um das Agenten-Design mithilfe von LLMs (Large Language Models) automatisch zu optimieren. Dadurch erzielte TUMIX eine zusätzliche durchschnittliche Genauigkeitssteigerung von 1,2 %.

TUMIX bietet einen innovativen Ansatz, bei dem die Verfeinerung beendet werden kann, sobald ein ausreichendes Konfidenzniveau erreicht ist, wodurch die Inferenzkosten auf 49 % gesenkt werden, ohne die Leistung zu beeinträchtigen. Durch zusätzliches Scaling lässt sich zwar eine noch höhere Leistung erzielen, doch die dabei steigenden Kosten sind ein wichtiger Aspekt für künftige Forschung.

Diese Studie zeigt einen Weg auf, die Tool-Nutzung und Inferenzfähigkeiten von LLMs maximal auszuschöpfen, und trägt dazu bei, wirksame Lösungen für unterschiedliche Fragestellungen bereitzustellen. TUMIX zeigt mit seinem von bestehenden Methodiken abweichenden Ansatz das Potenzial, sich besser auf reale Anwendungen verallgemeinern zu lassen.

Paper-Abstract

Die Integration verschiedener Tools wie Code Interpreter und Search hat das Reasoning von Large Language Models (LLMs) in Modellen wie ChatGPT Agent und Gemini-Pro zwar deutlich verbessert, doch es fehlt an praktischen Leitlinien für den optimalen Tool-Einsatz. Die zentrale Herausforderung besteht darin, textbasiertes Reasoning, Coding und Search für unterschiedliche Fragestellungen effektiv zu kombinieren. In dieser Arbeit wird Tool-Use Mixture (TUMIX) vorgeschlagen, ein Ensemble-Framework, das mehrere Agenten parallel ausführt, wobei jeder unterschiedliche Strategien zur Tool-Nutzung und verschiedene Antwortpfade verwendet. Die Agenten in TUMIX teilen und verfeinern ihre Antworten iterativ auf Basis der Frage und vorheriger Antworten. Experimente zeigen, dass TUMIX gegenüber modernsten tool-augmentierten und test-time-scaling-Methoden deutliche Zugewinne erzielt und auf Gemini-2.5-Pro sowie Gemini-2.5-Flash über zentrale Reasoning-Benchmarks hinweg eine durchschnittliche Genauigkeitssteigerung von bis zu 3,55 % gegenüber der besten Baseline bei nahezu gleichen Inferenzkosten liefert. Wir stellen fest, dass Diversität und Qualität der Agenten entscheidend sind und sich durch den Einsatz von LLMs zur automatischen Optimierung des Agentendesigns verbessern lassen. Darüber hinaus kann TUMIX die Verfeinerung stoppen, sobald eine ausreichende Konfidenz erreicht ist, und die Leistung bei nur 49 % der Inferenzkosten beibehalten. Eine weitere Skalierung kann zwar höhere Leistung erzielen, geht jedoch mit höheren Kosten einher.
> While integrating tools like Code Interpreter and Search has significantly enhanced Large Language Model (LLM) reasoning in models like ChatGPT Agent and Gemini-Pro, practical guidance on optimal tool use is lacking. The core challenge is effectively combining textual reasoning, coding, and search for diverse questions. In this paper, we propose Tool-Use Mixture (TUMIX), an ensemble framework that runs multiple agents in parallel, each employing distinct tool-use strategies and answer paths. Agents in TUMIX iteratively share and refine responses based on the question and previous answers. In experiments, TUMIX achieves significant gains over state-of-the-art tool-augmented and test-time scaling methods, delivering an average accuracy improvement of up to 3.55% over the best baseline on Gemini-2.5-Pro and Gemini-2.5-Flash across key reasoning benchmarks, with near-equal inference costs. We find that agent diversity and quality are crucial and can be enhanced by using LLMs to auto-optimize agent designs. Furthermore, TUMIX can halt refinement upon reaching sufficient confidence, preserving performance at only 49% of the inference cost. Further scaling can achieve higher performance, albeit at a greater cost.

Paper-Link

https://arxiv.org/abs/2510.01279

In ihrer eigenen Sprache: Auf kleine Modelle zugeschnittene Reasoning-Traces machen sie zu besseren Reasonern / In Their Own Words: Reasoning Traces Tailored for Small Models Make Them Better Reasoners

Paper-Einführung

Die Übertragung von Reasoning-Fähigkeiten von großen Sprachmodellen auf kleine Modelle führt häufig entgegen den Erwartungen zu Leistungseinbußen. Dieses Phänomen ist auf eine Distributional Misalignment zurückzuführen, die im Prozess des Supervised Fine-Tuning (SFT) entsteht, weil die Reasoning-Traces großer Modelle Low-Probability-Tokens enthalten, die nicht mit der Wahrscheinlichkeitsverteilung kleiner Modelle übereinstimmen. Dadurch können kleine Modelle die fortgeschrittenen Reasoning-Muster großer Modelle nicht effektiv lernen und stoßen stattdessen auf eine Lernbarriere.

Um dieses Problem zu lösen, arbeitet die vorgeschlagene Methode Reverse Speculative Decoding (RSD) so, dass das Teacher-Modell Kandidaten-Tokens vorschlägt und das Student-Modell auf Basis seiner eigenen Wahrscheinlichkeitsverteilung über deren Annahme entscheidet. In diesem Prozess werden Low-Probability-Tokens herausgefiltert, sodass nützliche Reasoning-Schritte innerhalb des für kleine Modelle verarbeitbaren Bereichs erhalten bleiben. RSD wurde auf das Modell Qwen3-0.6B angewendet. Während mit herkömmlicher direkter Distillation erzeugte Reasoning-Trace-Daten die durchschnittliche Leistung um 20,5 % verschlechterten, zeigte das Training mit durch RSD erzeugten Reasoning-Traces eine signifikante Leistungssteigerung von 4,9 %.

Die Wirkung von RSD zeigte sich konsistent über verschiedene Reasoning-Benchmarks hinweg und unterstreicht, dass Low-Probability-Tokens den zentralen Flaschenhals für eine effektive Übertragung von Reasoning darstellen. Zudem deutet RSD darauf hin, dass eine modellindividuelle Optimierung erforderlich ist und eine distributionelle Ausrichtung auf die jeweils einzigartigen internen Repräsentationen jedes Student-Modells erfolgen muss. Diese Ergebnisse gelten als wichtige Methodik zur Verbesserung der Leistung kleiner Modelle und zeigen Anwendungsmöglichkeiten für künftige Forschung auf.

Zusammenfassend ist RSD ein innovativer Ansatz, um die Reasoning-Fähigkeiten großer Modelle effektiv auf kleine Modelle zu übertragen, und trägt durch das Filtern von Low-Probability-Tokens zur Verbesserung der Reasoning-Leistung kleiner Modelle bei. Diese Forschung weist eine neue Richtung für die Leistungsverbesserung kleiner Modelle auf und bildet eine wichtige Grundlage für breitere Anwendungen in AI und Machine Learning in der Zukunft.

Paper-Abstract

Die Übertragung von Reasoning-Fähigkeiten von größeren Sprachmodellen auf kleinere Modelle scheitert bei überwachtem Fine-Tuning oft auf kontraintuitive Weise, wobei sich die Leistung trotz Zugriff auf hochwertige Teacher-Demonstrationen verschlechtert. Wir stellen fest, dass dieses Scheitern auf eine Verteilungsfehlanpassung zurückzuführen ist: Reasoning-Traces größerer Modelle enthalten Tokens, die unter der Verteilung des Schülers nur eine geringe Wahrscheinlichkeit haben, die interne Repräsentationskapazität kleinerer Architekturen übersteigen und Lernbarrieren schaffen, statt hilfreiche Anleitung zu geben. Wir schlagen Reverse Speculative Decoding (RSD) vor, einen Mechanismus zur Erzeugung schülerfreundlicher Reasoning-Traces, bei dem das Teacher-Modell Kandidaten-Tokens vorschlägt, das Schüler-Modell jedoch anhand seiner eigenen Wahrscheinlichkeitsverteilungen über die Annahme entscheidet und so Tokens mit geringer Wahrscheinlichkeit herausfiltert. Bei der Anwendung auf Qwen3-0.6B verschlechtert die direkte Destillation der s1K-1.1-Reasoning-Trace-Daten die durchschnittliche Leistung über wichtige Reasoning-Benchmarks hinweg um 20.5%, während dasselbe Modell, trainiert auf mit RSD erzeugten Reasoning-Traces, eine signifikante Verbesserung von 4.9% erzielt. Unsere Analyse zeigt, dass Tokens mit geringer Wahrscheinlichkeit den kritischen Engpass bei der Übertragung von Reasoning-Fähigkeiten darstellen. Cross-Model-Experimente belegen jedoch, dass RSD-Traces modellspezifisch und nicht universell anwendbar sind, was darauf hindeutet, dass die Verteilungsausrichtung auf die jeweilige interne Repräsentation jeder Schüler-Architektur zugeschnitten werden muss.
> Transferring reasoning capabilities from larger language models to smaller ones through supervised fine-tuning often fails counterintuitively, with performance degrading despite access to high-quality teacher demonstrations. We identify that this failure stems from distributional misalignment: reasoning traces from larger models contain tokens that are low probability under the student's distribution, exceeding the internal representation capacity of smaller architectures and creating learning barriers rather than helpful guidance. We propose Reverse Speculative Decoding (RSD), a mechanism for generating student-friendly reasoning traces in which the teacher model proposes candidate tokens but the student model determines acceptance based on its own probability distributions, filtering low probability tokens. When applied to Qwen3-0.6B, direct distillation of s1K-1.1 reasoning trace data degrades average performance across major reasoning benchmarks by 20.5%, while the same model trained on RSD-generated reasoning traces achieves meaningful improvements of 4.9%. Our analysis reveals that low probability tokens constitute the critical bottleneck in reasoning ability transfer. However, cross-model experiments demonstrate that RSD traces are model-specific rather than universally applicable, indicating that distributional alignment must be tailored for each student architecture's unique internal representation.

Paper-Link

https://arxiv.org/abs/2509.22230

AgentMaster: Ein Multi-Agenten-Konversations-Framework unter Verwendung der A2A- und MCP-Protokolle für multimodale Informationssuche und -analyse / AgentMaster: A Multi-Agent Conversational Framework Using A2A and MCP Protocols for Multimodal Information Retrieval and Analysis

Paper-Einführung

Im Bereich der Künstlichen Intelligenz (AI) spielt der Fortschritt von Multi-Agent Systems (MAS) eine wichtige Rolle dabei, dass mehrere intelligente Agenten zusammenarbeiten, um komplexe Probleme zu lösen. Aktuelle MAS stehen jedoch vor verschiedenen Herausforderungen bei der nahtlosen Kommunikation und Koordination zwischen Agenten sowie bei der Interaktion mit unterschiedlichen Tools und Ressourcen. Um diese Probleme zu lösen, schlägt diese Studie ein neues modulares MAS-Framework namens AgentMaster vor. Dieses Framework integriert das Agent-to-Agent (A2A)-Kommunikationsprotokoll und das Model Context Protocol (MCP), um dynamische Koordination und flexible Kommunikation zu ermöglichen.

AgentMaster bietet eine integrierte dialogorientierte Oberfläche, die so konzipiert ist, dass Nutzer ohne technisches Fachwissen in natürlicher Sprache mit dem System interagieren können. Dadurch werden Antworten auf verschiedene multimodale Anfragen unterstützt, darunter Informationssuche, Fragebeantwortung und Bildanalyse. Der zentrale Beitrag dieser Arbeit besteht darin, durch die Nutzung von A2A und MCP eine effektive Koordination zwischen Agenten sowie eine nahtlose Kommunikation zwischen spezialisierten Retrieval-Agenten zu ermöglichen. Darüber hinaus zerlegt AgentMaster Nutzeranfragen in spezialisierte Workflows und unterstützt damit automatisierte Query-Zerlegung, Aufgabenverteilung und dynamisches Routing.

Experimentelle Ergebnisse zeigen, dass AgentMaster hohe Werte von 96.3% bei BERTScore F1 und 87.1% bei LLM-as-a-Judge G-Eval erreicht. Diese Ergebnisse belegen eine starke automatisierte Koordination zwischen Agenten und domänenspezifisch relevante Antworten und tragen dazu bei, das Potenzial von MAS zu erweitern. Diese Studie zeigt die Innovationskraft eines MAS-Frameworks, das A2A und MCP integriert, und dürfte einen wichtigen Beitrag zur Weiterentwicklung kollaborativer und skalierbarer dialogorientierter AI leisten.

Paper-Abstract

Der Aufstieg von Multi-Agenten-Systemen (MAS) hat, insbesondere in Integration mit Large Language Models (LLMs), die Lösung komplexer Aufgaben erheblich erleichtert. Aktuelle Systeme stehen jedoch weiterhin vor Herausforderungen bei der Kommunikation und Koordination zwischen Agenten sowie bei der Interaktion mit heterogenen Tools und Ressourcen. Zuletzt wurden Anthropics Model Context Protocol (MCP) und Googles Agent-to-Agent-(A2A)-Kommunikationsprotokoll eingeführt; soweit wir wissen, gibt es jedoch nur sehr wenige Anwendungsfälle, in denen beide Protokolle innerhalb eines einzelnen MAS-Frameworks gleichzeitig eingesetzt werden. Wir präsentieren eine Pilotstudie zu AgentMaster, einem neuartigen modularen Multi-Protokoll-MAS-Framework mit selbst implementiertem A2A und MCP, das dynamische Koordination, flexible Kommunikation und schnelle Iteration ermöglicht. Über eine einheitliche dialogorientierte Oberfläche unterstützt das System natürliche Sprachinteraktion ohne vorherige technische Fachkenntnisse und beantwortet multimodale Anfragen für Aufgaben wie Informationsabruf, Fragebeantwortung und Bildanalyse. Die Experimente wurden sowohl durch menschliche Evaluation als auch durch quantitative Metriken validiert, darunter BERTScore F1 (96,3 %) und LLM-as-a-Judge G-Eval (87,1 %). Diese Ergebnisse zeigen eine robuste automatisierte Koordination zwischen Agenten, Query-Zerlegung, Aufgabenzuweisung, dynamisches Routing und domänenspezifisch relevante Antworten. Insgesamt trägt das von uns vorgeschlagene Framework zu den potenziellen Fähigkeiten domänenspezifischer, kooperativer und skalierbarer dialogorientierter AI bei, die von MAS angetrieben wird.
> The rise of Multi-Agent Systems (MAS) in Artificial Intelligence (AI), especially integrated with Large Language Models (LLMs), has greatly facilitated the resolution of complex tasks. However, current systems are still facing challenges of inter-agent communication, coordination, and interaction with heterogeneous tools and resources. Most recently, the Model Context Protocol (MCP) by Anthropic and Agent-to-Agent (A2A) communication protocol by Google have been introduced, and to the best of our knowledge, very few applications exist where both protocols are employed within a single MAS framework. We present a pilot study of AgentMaster, a novel modular multi-protocol MAS framework with self-implemented A2A and MCP, enabling dynamic coordination, flexible communication, and rapid development with faster iteration. Through a unified conversational interface, the system supports natural language interaction without prior technical expertise and responds to multimodal queries for tasks including information retrieval, question answering, and image analysis. The experiments are validated through both human evaluation and quantitative metrics, including BERTScore F1 (96.3%) and LLM-as-a-Judge G-Eval (87.1%). These results demonstrate robust automated inter-agent coordination, query decomposition, task allocation, dynamic routing, and domain-specific relevant responses. Overall, our proposed framework contributes to the potential capabilities of domain-specific, cooperative, and scalable conversational AI powered by MAS.

Paper-Link

https://arxiv.org/abs/2507.21105

Effiziente Methoden zur Wissensinjektion: Skalierungsgesetz der Wissensinjektion für das Pre-Training großer Sprachmodelle / How to inject knowledge efficiently? Knowledge Infusion Scaling Law for Pre-training Large Language Models

Paper-Einführung

Large Language Models (LLMs) liefern bei einer Vielzahl von Aufgaben hervorragende Leistung, können jedoch bei Fachwissens-Benchmarks schwach abschneiden und Halluzinationen erzeugen, wenn eine domänenspezifische Optimierung fehlt. Diese Studie schlägt eine Methodik vor, um Domänenwissen strategisch in den Pre-Training-Prozess zu injizieren, und richtet dabei den Fokus auf das dabei auftretende Phänomen des Memory Collapse. Memory Collapse entsteht durch übermäßige Wissensinjektion und führt zu einem abrupten Rückgang der Fähigkeit des Modells, Wissen zu behalten. Das Forschungsteam leitete zwei zentrale Beobachtungen ab. Erstens zeigt jedes Modell einen kritischen Punkt, an dem die Wissensbehaltensfähigkeit stark abfällt, und zweitens skaliert dieser Kollapspunkt konsistent mit der Modellgröße.

Auf Basis dieser Erkenntnisse schlägt die Studie ein Skalierungsgesetz der Wissensinjektion (knowledge infusion scaling law) vor. Dieses Gesetz hilft dabei, die optimale Menge an Domänenwissen vorherzusagen, die in große LLMs injiziert werden sollte, und seine Wirksamkeit und Generalisierbarkeit wurde durch Experimente mit verschiedenen Modellgrößen und dazugehörigen Token-Budgets validiert. Insbesondere zeigt die Arbeit, dass das Phänomen des Memory Collapse durch übermäßige Wissensinjektion verursacht wird, was darauf hindeutet, dass eine spärliche Wissensinjektion auf Token-Ebene selbst bei großen Datensätzen ausreichend sein kann.

Die Studie bewertete außerdem die Memory-Retention-Leistung in Abhängigkeit von unterschiedlichen Größen der Trainingsdatensätze und Injektionsfrequenzen und stellte fest, dass größere Modelle bereits mit einer geringeren Wissensmenge einen Sättigungspunkt erreichen können. Diese Ergebnisse liefern wichtige Einblicke in die Domänenspezialisierung und Optimierung von LLMs und dürften zur Gestaltung von Wissensinjektionsstrategien in künftigen Forschungen beitragen. Die Studie konzentriert sich darauf, die Wirkung der Wissensinjektion in Large Language Models zu bewerten, eine Methodik zur Beurteilung der Wissensbehaltensfähigkeit und zur Vorhersage von Kollapspunkten vorzuschlagen sowie die Auswirkungen verschiedener Templates zu analysieren.

Abstract des Papers

Große Sprachmodelle (LLMs) haben aufgrund ihrer beeindruckenden allgemeinen Fähigkeiten über diverse Downstream-Tasks hinweg erhebliche Aufmerksamkeit erlangt. Ohne domänenspezifische Optimierung liefern sie jedoch auf Benchmarks für Spezialwissen oft schlechtere Ergebnisse und erzeugen sogar Halluzinationen. Jüngste Studien zeigen, dass das strategische Einbringen von Domänenwissen während des Pretrainings die Leistung in Downstream-Tasks deutlich verbessern kann. Eine zentrale Herausforderung besteht darin, dieses Gleichgewicht auszutarieren: Wird zu wenig domänenspezifische Information eingebracht, bleibt die Spezialisierung unzureichend; bei zu starker Einbringung kommt es dagegen zum katastrophalen Vergessen zuvor erworbenen Wissens. Diese Arbeit konzentriert sich auf das Phänomen des durch Überinjektion verursachten Gedächtniskollapses. Durch systematische Experimente wurden zwei wesentliche Beobachtungen gemacht. Erstens ein kritischer Kollapspunkt: Jedes Modell weist einen Schwellenwert auf, jenseits dessen seine Fähigkeit zur Wissensbeibehaltung stark abnimmt. Zweitens eine Korrelation mit der Skalierung: Diese Kollapspunkte skalieren konsistent mit der Größe des Modells. Auf Basis dieser Erkenntnisse schlagen wir ein Skalierungsgesetz für die Wissensinjektion vor, das die optimale Menge an Domänenwissen vorhersagt, die in große LLMs eingebracht werden sollte, indem kleinere Gegenstücke analysiert werden. Umfangreiche Experimente über verschiedene Modellgrößen und zugehörige Token-Budgets hinweg validieren sowohl die Wirksamkeit als auch die Generalisierbarkeit unseres Skalierungsgesetzes.
> Large language models (LLMs) have attracted significant attention due to their impressive general capabilities across diverse downstream tasks. However, without domain-specific optimization, they often underperform on specialized knowledge benchmarks and even produce hallucination. Recent studies show that strategically infusing domain knowledge during pretraining can substantially improve downstream performance. A critical challenge lies in balancing this infusion trade-off: injecting too little domain-specific data yields insufficient specialization, whereas excessive infusion triggers catastrophic forgetting of previously acquired knowledge. In this work, we focus on the phenomenon of memory collapse induced by over-infusion. Through systematic experiments, we make two key observations, i.e. 1) Critical collapse point: each model exhibits a threshold beyond which its knowledge retention capabilities sharply degrade. 2) Scale correlation: these collapse points scale consistently with the model's size. Building on these insights, we propose a knowledge infusion scaling law that predicts the optimal amount of domain knowledge to inject into large LLMs by analyzing their smaller counterparts. Extensive experiments across different model sizes and pertaining token budgets validate both the effectiveness and generalizability of our scaling law.

Paper-Link

https://arxiv.org/abs/2509.19371

Bifrost-1: Verbindung von multimodalen LLMs und Diffusionsmodellen mit CLIP-Latents auf Patch-Ebene / Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents

Paper-Vorstellung

Bifrost-1 schlägt ein innovatives Framework vor, das vortrainierte multimodale große Sprachmodelle (MLLMs) und Diffusionsmodelle über CLIP-(Contrastive Language-Image Pretraining)-Bild-Embeddings auf Patch-Ebene verbindet. Bisherige Ansätze hatten mit hohen Trainingskosten und Effizienzproblemen zu kämpfen, da LLMs solche Bildrepräsentationen während des Pretrainings nicht kennengelernt haben. Um dieses Problem zu lösen, nutzt Bifrost-1 Bild-Embeddings auf Patch-Ebene, die natürlich mit dem CLIP-Visual-Encoder des MLLM ausgerichtet sind, und integriert sie in das Diffusionsmodell. Dabei wird durch eine leichtgewichtige Adaption von ControlNet ein Zweig für visuelle Generierung ergänzt, der Bild-Embeddings auf Patch-Ebene vorhersagt, während die ursprünglichen multimodalen Schlussfolgerungsfähigkeiten des MLLM erhalten bleiben.

Die zentrale Innovation von Bifrost-1 besteht darin, mit CLIP-Latents auf Patch-Ebene eine effiziente Verbindung zwischen MLLMs und Diffusionsmodellen zu ermöglichen. Dadurch wird steuerbare Bildgenerierung mit hoher Wiedergabetreue realisiert und zugleich die Trainingseffizienz deutlich verbessert. Experimentelle Ergebnisse zeigen, dass Bifrost-1 im Vergleich zu früheren Methoden bei visueller Treue und multimodalem Verständnis gleichwertige oder bessere Leistung erzielt und gleichzeitig die Rechenkosten während des Trainings erheblich senkt.

Darüber hinaus belegen umfassende Ablationsstudien die Wirksamkeit der Designentscheidungen von Bifrost-1. Diese Untersuchungen unterstreichen die Bedeutung multimodaler Informationsverarbeitung und werden dazu beitragen, fortschrittlichere KI-Systeme durch die Integration von LLMs und Diffusionsmodellen zu entwickeln. Bifrost-1 setzt einen neuen Maßstab für multimodale Generierung und Verständnis und dürfte ein wichtiger Meilenstein für künftige Forschung werden.

Abstract

Es gibt ein wachsendes Interesse daran, hochpräzise visuelle Synthesefunktionen in Large Language Models (LLMs) zu integrieren, ohne deren starke Reasoning-Fähigkeiten zu beeinträchtigen. Bestehende Methoden trainieren LLMs entweder direkt oder versuchen, LLMs mit Diffusionsmodellen (diffusion models) zu verbinden, leiden jedoch unter kostspieligem Training, da das Backbone-LLM während des Pretrainings keine Bildrepräsentationen gesehen hat. Wir stellen Bifrost-1 vor, ein einheitliches Framework, das vortrainierte multimodale LLMs (MLLMs) und Diffusionsmodelle mithilfe von patchbasierten CLIP-Bild-Embeddings als latente Variablen verbindet. Diese patchbasierten Bild-Embeddings sind von Natur aus mit dem CLIP-Visual-Encoder des MLLM ausgerichtet. Über eine leichtgewichtige Anpassung von ControlNet werden diese patchbasierten Bild-Embeddings in das Diffusionsmodell integriert. Um die ursprünglichen multimodalen Reasoning-Fähigkeiten des MLLM zu erhalten, statten wir das MLLM beim Vorhersagen der patchbasierten Bild-Embeddings mit einem Zweig für visuelle Generierung aus, der aus den ursprünglichen MLLM-Parametern initialisiert wird. Durch die nahtlose Integration vortrainierter MLLMs und Diffusionsmodelle unter Verwendung patchbasierter CLIP-Latents ermöglicht unser Framework hochpräzise kontrollierbare Bildgenerierung und verbessert die Trainingseffizienz erheblich. Experimente zeigen, dass Bifrost-1 im Vergleich zu früheren Methoden bei visueller Präzision und multimodalem Verständnis eine vergleichbare oder bessere Leistung erzielt und dabei die Rechenkosten während des Trainings deutlich reduziert. Außerdem liefern wir umfassende Ablationsstudien (ablation studies), die die Wirksamkeit unserer Designentscheidungen belegen.
> There is growing interest in integrating high-fidelity visual synthesis capabilities into large language models (LLMs) without compromising their strong reasoning capabilities. Existing methods that directly train LLMs or bridge LLMs and diffusion models usually suffer from costly training since the backbone LLMs have not seen image representations during pretraining. We present Bifrost-1, a unified framework that bridges pretrained multimodal LLMs (MLLMs) and diffusion models using patch-level CLIP image embeddings as latent variables, which are natively aligned with the MLLM's CLIP visual encoder. These patch-level image embeddings are integrated into the diffusion model with a lightweight adaptation of its ControlNet. To retain the original multimodal reasoning capabilities of MLLMs, we equip the MLLM with a visual generation branch initialized from the original MLLM parameters when predicting the patch-level image embeddings. By seamlessly integrating pretrained MLLMs and diffusion models with patch-level CLIP latents, our framework enables high-fidelity controllable image generation with significant training efficiency. Our experiments demonstrate that Bifrost-1 achieves comparable or better performance than previous methods in terms of visual fidelity and multimodal understanding, with substantially lower compute during training. We also provide comprehensive ablation studies showing the effectiveness of our design choices.

Paper-Link

https://arxiv.org/abs/2508.05954

Weiterlesen

https://bifrost-1.github.io

Kontinuierliches Lernen für VLMs: Ein Survey und eine Taxonomie jenseits des Vergessens / Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting

Paper-Vorstellung

Vision-Language-Modelle (Vision-Language Models, VLMs) zeigen durch groß angelegtes Pretraining eine hervorragende Leistung bei verschiedenen multimodalen Aufgaben, stehen jedoch vor mehreren Herausforderungen, wenn sie kontinuierlich aus nicht stationären Daten lernen sollen. Diese Probleme treten besonders deutlich hervor, weil Cross-Modal-Alignment und Generalisierungsfähigkeit anfällig für katastrophales Vergessen sind. Kontinuierliches Lernen für VLMs (VLM-CL) bringt eigene Probleme mit sich, die sich von traditionellem kontinuierlichem Lernen im unimodalen Bereich unterscheiden. In dieser Arbeit werden drei zentrale Fehlermodi von VLM-CL identifiziert und eine herausforderungsbasierte Taxonomie zu deren Bewältigung vorgeschlagen.

Die vorgeschlagene Taxonomie besteht aus (1) multimodalen Replay-Strategien, (2) Cross-Modal-Regularisierung und (3) parameter-effizienter Anpassung. Multimodale Replay-Strategien tragen dazu bei, Cross-Modal-Feature-Drift zu mindern, indem Informationen aus vergangenen Aufgaben erneut abgespielt werden, während sich Cross-Modal-Regularisierung darauf konzentriert, die Modalitätsausrichtung während der Updates aufrechtzuerhalten. Parameter-effiziente Anpassung ist eine Methodik, bei der das zentrale vortrainierte Modell eingefroren und nur eine kleine Zahl neuer Parameter aktualisiert wird, um Interferenzen zwischen gemeinsam genutzten Modulen zu lösen.

Die Arbeit bietet einen umfassenden Review zu VLM-CL und analysiert aktuelle Evaluierungsprotokolle, Datensätze und Metriken. Dabei wird die Notwendigkeit besserer Benchmarks betont, die VLM-spezifisches Vergessen und kompositionelle Generalisierung erfassen können. Darüber hinaus werden künftige Forschungsrichtungen vorgestellt, darunter kontinuierliches Pretraining und kompositionelles Zero-Shot-Lernen, sodass die Arbeit Forschenden als nützliche Referenz für die Entwicklung lebenslanger Vision-Language-Systeme dienen kann. Dieser systematische und diagnostische Ansatz dürfte Innovationen im Bereich des kontinuierlichen Lernens für VLMs fördern und die Grundlage für den Aufbau echter lebenslang lernender multimodaler KI-Systeme schaffen.

Paper-Abstract

Vision-Language-Modelle (VLMs) haben durch die Nutzung großskaligen Pre-Trainings beeindruckende Leistungen in einer Vielzahl multimodaler Aufgaben erzielt. Sie jedoch in die Lage zu versetzen, kontinuierlich aus nichtstationären Daten zu lernen, bleibt eine große Herausforderung, da ihre cross-modale Ausrichtung und Generalisierungsfähigkeit besonders anfällig für katastrophales Vergessen sind. Im Gegensatz zum traditionellen unimodalen Continual Learning (CL) stehen VLMs vor spezifischen Herausforderungen wie cross-modalem Feature-Drift, Parameterinterferenzen aufgrund gemeinsamer Architekturen und der Erosion von Zero-Shot-Fähigkeiten. Diese Survey-Arbeit bietet den ersten fokussierten und systematischen Überblick über Continual Learning für VLMs (VLM-CL). Zunächst identifizieren wir drei zentrale Fehlermodi, die die Leistung in VLM-CL verschlechtern können. Darauf aufbauend schlagen wir eine herausforderungsbasierte Taxonomie zur Einordnung von Lösungsansätzen vor: (1) \textit{Multi-Modal Replay Strategies} adressieren cross-modalen Drift durch explizite oder implizite Speichermechanismen; (2) \textit{Cross-Modal Regularization} erhält die Modalitätsausrichtung während der Updates aufrecht; (3) \textit{Parameter-Efficient Adaptation} mindert Parameterinterferenzen durch modulare oder Low-Rank-Updates. Darüber hinaus analysieren wir aktuelle Evaluierungsprotokolle, Datensätze und Metriken und betonen die Notwendigkeit besserer Benchmarks, die VLM-spezifisches Vergessen und kompositionelle Generalisierung erfassen. Abschließend skizzieren wir offene Probleme und zukünftige Richtungen, darunter kontinuierliches Pre-Training und kompositionelles Zero-Shot-Lernen. Diese Survey-Arbeit soll Forschenden, die lebenslange Vision-Language-Systeme entwickeln, als umfassende und diagnostische Referenz dienen. Alle Ressourcen sind unter folgendem Link verfügbar: https://github.com/YuyangSunshine/….
> Vision-language models (VLMs) have achieved impressive performance across diverse multimodal tasks by leveraging large-scale pre-training. However, enabling them to learn continually from non-stationary data remains a major challenge, as their cross-modal alignment and generalization capabilities are particularly vulnerable to catastrophic forgetting. Unlike traditional unimodal continual learning (CL), VLMs face unique challenges such as cross-modal feature drift, parameter interference due to shared architectures, and zero-shot capability erosion. This survey offers the first focused and systematic review of continual learning for VLMs (VLM-CL). We begin by identifying the three core failure modes that degrade performance in VLM-CL. Based on these, we propose a challenge-driven taxonomy that maps solutions to their target problems: (1) \textit{Multi-Modal Replay Strategies} address cross-modal drift through explicit or implicit memory mechanisms; (2) \textit{Cross-Modal Regularization} preserves modality alignment during updates; and (3) \textit{Parameter-Efficient Adaptation} mitigates parameter interference with modular or low-rank updates. We further analyze current evaluation protocols, datasets, and metrics, highlighting the need for better benchmarks that capture VLM-specific forgetting and compositional generalization. Finally, we outline open problems and future directions, including continual pre-training and compositional zero-shot learning. This survey aims to serve as a comprehensive and diagnostic reference for researchers developing lifelong vision-language systems. All resources are available at: https://github.com/YuyangSunshine/….

Paper-Link

https://arxiv.org/abs/2508.04227

Weiterlesen

https://github.com/YuyangSunshine/…

Agentenföderation: Eine semantics-bewusste Kommunikationsstruktur für großskalige agentische KI / Federation of Agents: A Semantics-Aware Communication Fabric for Large-Scale Agentic AI

Paper-Einführung

Federation of Agents (FoA) ist ein innovatives verteiltes Orchestrierungs-Framework, das statische Multi-Agenten-Koordination in dynamische, fähigkeitszentrierte Zusammenarbeit verwandelt. Das System führt versionierte Fähigkeitsvektoren (Versioned Capability Vectors, VCVs) ein, die die Fähigkeiten von Agenten in maschinenlesbare Profile umwandeln, sodass Agenten ihre Fähigkeiten, Kosten und Grenzen effektiv bekannt machen können. Die Architektur von FoA umfasst drei zentrale Innovationen. Erstens gleicht sie über semantisches Routing Aufgaben mit Agenten ab, nutzt dafür geshardete HNSW-Indizes und führt kostenorientierte Optimierung unter Einhaltung betrieblicher Einschränkungen durch. Zweitens ermöglicht die Technik der dynamischen Aufgabendekomposition (dynamic task decomposition) kompatiblen Agenten, komplexe Aufgaben in Unteraufgaben in Form eines DAG (Directed Acyclic Graph) zu zerlegen und diese durch konsensbasiertes Zusammenführen kooperativ zu bearbeiten. Drittens gruppiert die Technik des smart clustering Agenten, die ähnliche Unteraufgaben ausführen, in Kollaborationskanäle und verfeinert die Aufgaben über k-Runden-Refinement weiter.

FoA unterstützt skalierbare Nachrichtenübermittlung auf Basis der Publish-Subscribe-Semantik von MQTT und erreicht durch hierarchisches Fähigkeits-Matching und effiziente Pflege der Indizes sublineare Komplexität. Die Evaluation auf HealthBench zeigt, dass FoA im Vergleich zu Single-Model-Baselines eine 13-fache Leistungssteigerung erzielt, wobei sich insbesondere clustering-verstärkte Zusammenarbeit bei komplexen Reasoning-Aufgaben als effektiv erweist, die mehrere Perspektiven erfordern. Das System ist horizontal skalierbar und hält dabei eine konsistente Leistung aufrecht. Damit zeigt es, dass semantische Orchestrierung durch strukturierte Zusammenarbeit die kollektive Intelligenz heterogener KI-Agentenföderationen effektiv nutzen kann. Es wird erwartet, dass diese Forschung zur Weiterentwicklung des KI-Bereichs beiträgt, indem sie eine Methodik zur Maximierung der Effizienz von Multi-Agenten-Systemen aufzeigt und Wege präsentiert, komplexe Aufgaben effektiver zu verarbeiten.

Abstract des Papers

Im Folgenden finden Sie das Abstract eines Papers aus dem Bereich AI/ML. Wir stellen Federation of Agents (FoA) vor. FoA ist ein verteiltes Orchestrierungs-Framework, das statische Multi-Agenten-Koordination in dynamische, fähigkeitsbasierte Zusammenarbeit verwandelt. FoA führt Versioned Capability Vectors (VCVs) ein. Dabei handelt es sich um maschinenlesbare Profile, die die Fähigkeiten von Agenten über semantische Embeddings durchsuchbar machen und es Agenten ermöglichen, ihre Fähigkeiten, Kosten und Grenzen bekannt zu machen. Unsere Architektur kombiniert drei zentrale Innovationen: (1) semantisches Routing, das Aufgaben über geshardete HNSW-Indizes Agenten zuordnet und dabei betriebliche Einschränkungen durch kostenorientierte Optimierung durchsetzt, (2) dynamische Aufgabenzerlegung, bei der kompatible Agenten komplexe Aufgaben durch konsensbasiertes Zusammenführen gemeinsam in DAGs aus Teilaufgaben zerlegen, und (3) smartes Clustering, das Agenten, die an ähnlichen Teilaufgaben arbeiten, in kollaborative Kanäle gruppiert, um vor der Synthese eine Verfeinerung über k Runden durchzuführen. Auf Basis der Publish-Subscribe-Semantik von MQTT erreicht FoA durch hierarchisches Fähigkeits-Matching und effizientes Index-Management sublineare Komplexität. Die Auswertung auf HealthBench zeigt eine 13-fache Verbesserung gegenüber Single-Model-Baselines und belegt, dass durch Clustering verstärkte Zusammenarbeit besonders effektiv für komplexe Reasoning-Aufgaben ist, die mehrere Perspektiven erfordern. Das System skaliert horizontal und hält dabei die Leistung konsistent aufrecht. Damit zeigt es, dass semantische Orchestrierung mit strukturierter Zusammenarbeit die kollektive Intelligenz heterogener Föderationen von AI-Agenten erschließen kann.
> We present Federation of Agents (FoA), a distributed orchestration framework that transforms static multi-agent coordination into dynamic, capability-driven collaboration. FoA introduces Versioned Capability Vectors (VCVs): machine-readable profiles that make agent capabilities searchable through semantic embeddings, enabling agents to advertise their capabilities, cost, and limitations. Our aarchitecturecombines three key innovations: (1) semantic routing that matches tasks to agents over sharded HNSW indices while enforcing operational constraints through cost-biased optimization, (2) dynamic task decomposition where compatible agents collaboratively break down complex tasks into DAGs of subtasks through consensus-based merging, and (3) smart clustering that groups agents working on similar subtasks into collaborative channels for k-round refinement before synthesis. Built on top of MQTT,s publish-subscribe semantics for scalable message passing, FoA achieves sub-linear complexity through hierarchical capability matching and efficient index maintenance. Evaluation on HealthBench shows 13x improvements over single-model baselines, with clustering-enhanced laboration particularly effective for complex reasoning tasks requiring multiple perspectives. The system scales horizontally while maintaining consistent performance, demonstrating that semantic orchestration with structured collaboration can unlock the collective intelligence of heterogeneous federations of AI agents.

Paper-Link

https://arxiv.org/abs/2509.20175

Survey zu effizienten Attention-Mechanismen für große Sprachmodelle / Efficient Attention Mechanisms for Large Language Models: A Survey

Paper-Einführung

Transformer-basierte Architekturen sind der Kern großer Sprachmodelle, doch die quadratische Zeit- und Speicherkomplexität von Self-Attention stellt bei der Verarbeitung langer Kontexte eine erhebliche Einschränkung dar. Um dieses Problem zu lösen, wurden in der jüngeren Forschung zwei zentrale effiziente Attention-Ansätze vorgeschlagen: lineare Attention, die Kernel-Approximation, rekurrente Strukturen und Fast-Weight-Dynamiken nutzt, sowie sparse Attention, die auf festen Mustern, blockweisem Routing und Clustering basiert. Dieses Survey-Paper ordnet diese Methoden systematisch ein, indem es sowohl algorithmische Innovationen als auch Hardware-Perspektiven integriert, und analysiert verschiedene Designansätze großskaliger vortrainierter Sprachmodelle, die effiziente Attention einsetzen. Damit liefert es eine grundlegende Ressource, die Theorie und praktische Strategien für das Design skalierbarer und effizienter Sprachmodelle miteinander verbindet.

Abstract

Transformer-basierte Architekturen sind zum vorherrschenden Backbone großer Sprachmodelle geworden. Die quadratische Zeit- und Speicherkomplexität von Self-Attention bleibt jedoch ein grundlegendes Hindernis für effizientes Modeling langer Kontexte. Um diese Einschränkung zu überwinden, hat die jüngere Forschung zwei Hauptkategorien effizienter Attention-Mechanismen vorgeschlagen. Methoden der linearen Attention erreichen lineare Komplexität durch Kernel-Approximationen, rekurrente Formulierungen oder Fastweight-Dynamiken und ermöglichen damit skalierbare Inferenz bei geringerem Rechenaufwand. Sparse-Attention-Techniken hingegen beschränken die Attention-Berechnung auf ausgewählte Teilmengen von Tokens, basierend auf festen Mustern, blockweiser Weiterleitung oder Clustering-Strategien, und steigern so die Effizienz bei gleichzeitigem Erhalt der Kontextabdeckung. Dieses Survey-Paper bietet einen systematischen und umfassenden Überblick über diese Entwicklungen und integriert dabei sowohl algorithmische Innovationen als auch Überlegungen auf Hardware-Ebene. Darüber hinaus analysiert es die Integration effizienter Attention in großskalige vortrainierte Sprachmodelle, darunter sowohl Architekturen, die vollständig auf effizienter Attention basieren, als auch hybride Designs, die lokale und globale Komponenten kombinieren. Durch die Verbindung theoretischer Grundlagen mit praktischen Deployment-Strategien soll diese Arbeit als grundlegende Referenz für die Weiterentwicklung des Designs skalierbarer und effizienter Sprachmodelle dienen.
> Transformer-based architectures have become the prevailing backbone of large language models. However, the quadratic time and memory complexity of self-attention remains a fundamental obstacle to efficient long-context modeling. To address this limitation, recent research has introduced two principal categories of efficient attention mechanisms. Linear attention methods achieve linear complexity through kernel approximations, recurrent formulations, or fastweight dynamics, thereby enabling scalable inference with reduced computational overhead. Sparse attention techniques, in contrast, limit attention computation to selected subsets of tokens based on fixed patterns, block-wise routing, or clustering strategies, enhancing efficiency while preserving contextual coverage. This survey provides a systematic and comprehensive overview of these developments, integrating both algorithmic innovations and hardware-level considerations. In addition, we analyze the incorporation of efficient attention into largescale pre-trained language models, including both architectures built entirely on efficient attention and hybrid designs that combine local and global components. By aligning theoretical foundations with practical deployment strategies, this work aims to serve as a foundational reference for advancing the design of scalable and efficient language models.

Paper-Link

https://arxiv.org/abs/2507.19595

⚠️Anzeige⚠️: Fanden Sie diesen von der 🔥PyTorch Korea User Group🇰🇷 zusammengestellten Beitrag nützlich? Wenn Sie sich als Mitglied registrieren, senden wir Ihnen wichtige Beiträge per E-Mail💌 zu! Standard ist Weekly, aber Sie können es auch auf Daily umstellen.

[2025/09/29 ~ 10/05] Auswahl sehenswerter AI/ML-Papers dieser Woche