[2026/06/01 ~ 07] Ausgewählte AI/ML-Papers dieser Woche

PyTorchKR🔥🇰🇷 🤔💭

Ein Blick auf die zehn in dieser Woche ausgewählten Papers zeigt, dass sich die Forschung schnell auf zustandsbezogenes Management bei agentenbasierten Systemen auf Basis großer Sprachmodelle (LLMs), effizientere Inferenz sowie Sicherheit und Verifizierbarkeit in realen Umgebungen konzentriert. Besonders interessant waren dabei Forschungsströme, die von strukturellen Änderungen zur Maximierung der Agenten-Effizienz über eine grundlegende Neugestaltung der Transformer-Architektur bis hin zur Sicherung von Robustheit zur Anpassung an dynamische Umgebungen in der realen Welt reichen.

:one: Innovation bei Agenten-Workflows: Externalisierung von Zuständen und Internalisierung von Inferenzlogik In den Papers dieser Woche stachen zwei gegensätzliche, aber sich ergänzende Ansätze hervor, um Kosten- und Kontext-Engpässe zu lösen, die auftreten, wenn Agenten komplexe und langwierige Aufgaben ausführen. Harness-1 und AdaCoM erhöhen die Stabilität bei langfristigen Aufgaben, indem sie die Last des Zustands- und Kontextmanagements, die der Agent sich merken müsste, an die externe Umgebung oder ein separates Verwaltungsmodell auslagern. Demgegenüber schlagen Latent Agents und die Forschung zur Internalisierung agentischer Workflows (Subterranean Agents) ein Post-Training vor, das komplexe Kommunikationsprozesse zwischen einem externen Orchestrator oder mehreren Agenten direkt in die Gewichte eines einzelnen Modells kompiliert. Dadurch kann das Modell ohne Abhängigkeit von Prompts oder externer Koordination selbst diskutieren oder prozedurales Schlussfolgern durchführen und weist einen Weg auf, Inferenzkosten und Token-Verbrauch drastisch zu senken, während Leistung auf Frontier-Modell-Niveau erhalten bleibt.

:two: Neudesign der Grundarchitektur: Fusion von Attention-Mechanismen und Parameteroptimierung Auch Grundlagenforschung, die die grundlegende Rechenineffizienz von Transformern überwinden und den Speicherverbrauch senken will, ist ein starker Trend. Das Paper SISA (Forget Attention) erreicht durch eine „Fusion auf Score-Ebene“, bei der sequenzielle Wichtigkeitssignale aus State Space Models (SSMs) direkt in die Berechnung der Attention-Scores eingespeist werden, gleichzeitig globale Abruffähigkeit und die Bewertung sequentieller Prioritäten. Außerdem stellt die Forschung zu QKV-Varianten (Do Transformers Need Three Projections?) den bislang als selbstverständlich geltenden Standard infrage, Query, Key und Value vollständig zu trennen, und zeigt empirisch, dass ein gemeinsames Projektionsschema für Key und Value (Q-K=V) den KV-Cache stark reduzieren kann, bei nur minimalem Leistungsverlust. Solche strukturellen Verbesserungen auf Architekturebene gehen über reine Leistungssteigerungen hinaus und eröffnen deutlich bessere praktische Deployments auf Edge-Geräten mit begrenztem Speicher oder in On-Device-AI-Umgebungen.

:three: Echtzeit-Anpassung in dynamischen Umgebungen und Robustheit auf Systemebene Auffällig sind auch Arbeiten, die über die bloße Generierung richtiger Antworten hinausgehen und sich damit befassen, aktiv auf veränderte Situationen und Bedrohungen zu reagieren sowie Systeme selbst weiterzuentwickeln. MOSS erweitert bisherige Selbst-Evolution, die sich auf Prompt-Anpassungen beschränkte, auf Umschreibungen auf Source-Code-Ebene, sodass Agentensysteme strukturelle Fehler selbst heilen können. FuzzingBrain V2 nutzte Multi-Agenten, um reale Software-Schwachstellen auf vollständig reproduzierbare Weise zu erkennen und zu beheben. Darüber hinaus formuliert AdvGame das Safety Alignment von Sprachmodellen als nicht-kooperatives Echtzeitspiel zwischen Angreifer und Verteidiger, um die dynamische Abwehrfähigkeit zu erhöhen, während die Forschung Plan, Watch, Recover ein proaktives Assistenzmodell vorstellt, das in Echtzeit eingreift und coacht, wenn Nutzende von einem vorgegebenen Verfahren abweichen. Das zeigt, dass sich AI über das kontrollierte Labor hinaus zu einem vertrauenswürdigen, proaktiven System entwickelt, das auch inmitten unvorhersehbarer Fehler und Sicherheitsbedrohungen der realen Welt bestehen kann.

Zentrale Kurzfassungen der einzelnen Papers

Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses: Ein auf Reinforcement Learning basierender Suchagent, bei dem nicht die Policy, sondern das Harness die Gedächtnislast des Suchagenten übernimmt. Über acht Benchmarks hinweg erzielte er einen durchschnittlichen curated recall von 0,730 und zeigte insbesondere starke Transferleistung.
Forget Attention: Importance-Aware Attention Is All You Need: Stellt SISA vor, das Wichtigkeitssignale aus State Space Models (SSMs) direkt in Attention-Scores einspeist. Es lässt sich mit einem einzigen SDPA-Aufruf implementieren und verbessert sowohl die Abrufleistung als auch die Rekonstruktion langer Abhängigkeiten deutlich.
Do Transformers Need Three Projections? Systematic Study of QKV Variants: Eine Studie, die systematisch untersucht, in welchem Maß sich QKV-Projektionen gemeinsam nutzen lassen. Q-K=V erhält die Leistung nahezu vollständig und reduziert zugleich den KV-Cache erheblich; in Kombination mit GQA/MQA fällt die Speicherersparnis noch größer aus.
Compiling Agentic Workflows into LLM Weights: Behandelt einen Ansatz, bei dem statt externer Orchestrierung der Arbeitsablauf selbst in die Modellgewichte kompiliert wird. So werden wiederholte Aufrufe und der Verbrauch langen Kontexts reduziert, während zugleich Qualität auf Near-Frontier-Niveau erreicht wird.
Learning Agent-Compatible Context Management for Long-Horizon Tasks: Stellt AdaCoM vor, bei dem ein externes LLM den Kontext für einen festen Agenten dynamisch bearbeitet. Bei langfristiger Websuche und Research-Aufgaben werden unnötige frühere Informationen reduziert, während Aufgabenrestriktionen erhalten bleiben.
Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate: Ein Post-Training-Verfahren, das Multi-Agenten-Debatten in ein einzelnes LLM destilliert. Mit bis zu 93 % weniger Tokens zeigte es gleichwertige oder bessere Leistung als explizite Debatten.
MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems: Ein Agentensystem, das Selbst-Evolution nicht auf Prompt-, sondern auf Source-Code-Ebene durchführt. Auf Basis realer Fehlerbelege schreibt es Code-Strukturen um und deployt sie nach Verifikation in einer Form, die Rollbacks erlaubt.
Safety Alignment of LMs via Non-cooperative Games: Definiert Safety Alignment neu als nicht-kooperatives Spiel, in dem sich ein Angreifer-LM und ein Verteidiger-LM wechselseitig anpassen. Durch präferenzbasiertes Reinforcement Learning wird die Pareto frontier von Sicherheit und Nützlichkeit zugleich nach vorn verschoben.
Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance: Ein proaktives multimodales Assistenzsystem, das lernt, wann es eingreifen und wie es Nutzende zurückführen soll, wenn sie von einem Verfahren abweichen. Mit EgoProactive und Pro²Bench wird die tatsächliche Coaching-Leistung bei der Rückführung bewertet.
FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction: Ein Sicherheitssystem, das mit einem Multi-Agent-LLM die Entdeckung und Reproduktion von Schwachstellen automatisiert. Durch die Kombination aus OSS-Fuzz-basierter Verifikation, präziser Lokalisierung von Schwachstellen und hierarchischem Fuzzing erzielte es hohe Erkennungsraten und entdeckte reale Schwachstellen.

Harness-1: Reinforcement Learning für Suchagenten mit zustandsexternalisierenden Harnesses / Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

Einführung in das Paper

Suchagenten werden häufig als Policy über einem wachsenden Transkript trainiert. Das Modell muss dabei nicht nur entscheiden, wie gesucht werden soll, sondern sich auch merken, was es bereits gesehen hat, welche Belege nützlich sind, welche Einschränkungen noch offen sind und welche Behauptungen tatsächlich verifiziert wurden. Die Autoren sehen in diesem Setup eine zu große Last des Zustandsmanagements innerhalb der Policy und argumentieren, dass Reinforcement Learning dadurch zugleich sinnvolle Suchentscheidungen und wiederherstellbare Protokollverwaltung optimieren muss, obwohl Letztere von der Umgebung stabiler verarbeitet werden kann.

Um dieses Problem zu lösen, schlagen sie Harness-1 vor, einen 20B-Suchagenten, der per Reinforcement Learning innerhalb eines state-externalizing harness trainiert wird. Dieses Harness verwaltet umgebungsseitiges Arbeitsgedächtnis wie einen Kandidatenpool, eine bereinigte Menge mit Wichtigkeitstags, komprimierte Evidenz-Links, Verifikationsprotokolle, komprimierte und deduplizierte Beobachtungen sowie budgetbewusstes Kontext-Rendering.

Dagegen übernimmt die Policy semantische Entscheidungen, darunter was gesucht werden soll, welche Dokumente behalten oder verworfen werden, was verifiziert werden soll und wann beendet wird. Auf acht Retrieval-Benchmarks aus den Bereichen Web, Finanzen, Patente und Multi-Hop Question Answering erreichte Harness-1 einen durchschnittlichen curated recall von 0,730 und lag damit 11,4 Punkte vor dem nächststärkeren Open-Source-Retrieval-Subagenten. Besonders auffällig waren die Leistungsgewinne auf Transfer-Benchmarks außerhalb der Trainingsdomänen, was darauf hindeutet, dass Reinforcement Learning über expliziten Suchzustand besser generalisierende Retrieval-Verhalten erzeugen kann.

Abstract

Search Agents werden oft als Policies über wachsende Transkripte trainiert: Das Modell muss entscheiden, wie es sucht, und sich gleichzeitig merken, was es gesehen hat, welche Evidenz nützlich ist, welche Einschränkungen noch offen sind und welche Behauptungen tatsächlich überprüft wurden.

Wir argumentieren, dass diese Formulierung zu viel routinemäßiges Zustandsmanagement in die Policy legt. Das heißt, Reinforcement Learning (RL) wird gezwungen, neben semantischen Suchentscheidungen auch wiederherstellbare Buchführung zu optimieren, die die Umgebung zuverlässiger verwalten kann.

Wir stellen Harness-1 vor, einen 20B Search Agent (Retrieval-Subagent), der mit Reinforcement Learning innerhalb eines zustandsbehafteten Search Harness trainiert wurde. Dieses Harness verwaltet ein umgebungsseitiges Arbeitsgedächtnis, darunter einen Kandidatenpool, eine kuratierte Menge mit Wichtigkeits-Tags, kompakte Evidenz-Links, Verifizierungsprotokolle, komprimierte und deduplizierte Beobachtungen sowie budgetbewusstes Context Rendering. Die Policy behält die semantischen Entscheidungen bei: was gesucht werden soll, welche Dokumente behalten oder verworfen werden, was verifiziert werden soll und wann gestoppt wird.

Über acht Retrieval-Benchmarks aus den Bereichen Web, Finanzen, Patente und Multi-Hop-QA hinweg erzielt Harness-1 einen durchschnittlichen curated recall von 0,730, übertrifft den zweitbesten offenen Search-Subagenten um +11,4 Punkte und bleibt gegenüber deutlich größeren Searchern auf Basis von Frontier-Modellen konkurrenzfähig. Besonders stark sind die Zugewinne auf ungesehenen Transfer-Benchmarks, was darauf hindeutet, dass Reinforcement Learning über expliziten Suchzustand Retrieval-Verhalten hervorbringen kann, das über die Trainingsdomänen hinaus generalisiert. Code: https://github.com/pat-jj/harness-1

Search agents are often trained as policies over growing transcripts: the model must decide how to search while also remembering what it has seen, which evidence is useful, which constraints remain open, and which claims have actually been checked. We argue that this formulation puts too much routine state management inside the policy: reinforcement learning is forced to optimize both semantic search decisions and recoverable bookkeeping that the environment can maintain more reliably. We introduce Harness-1, a 20B search agent (retrieval subagent) trained with reinforcement learning inside a stateful search harness. The harness maintains environment-side working memory, including a candidate pool, an importance-tagged curated set, compact evidence links, verification records, compressed and deduplicated observations, and budget-aware context rendering. The policy retains the semantic decisions: what to search, which documents to keep or discard, what to verify, and when to stop. Across eight retrieval benchmarks spanning web, finance, patents, and multi-hop QA, Harness-1 achieves 0.730 average curated recall, outperforming the next strongest open search subagent by +11.4 points and remaining competitive with much larger frontier-model searchers. Its gains are especially strong on held-out transfer benchmarks, suggesting that reinforcement learning over explicit search state can produce retrieval behaviors that generalize beyond the training domains. Our code is available at https://github.com/pat-jj/harness-1.

Paper-Link

https://arxiv.org/abs/2606.02373

Weiterführende Links

https://github.com/pat-jj/harness-1

https://huggingface.co/pat-jj/harness-1

Vergiss Attention: Importance-Aware Attention ist alles, was du brauchst / Forget Attention: Importance-Aware Attention Is All You Need

Paper-Einführung

Beim hybriden Sprachmodellieren, das Transformer und State Space Models (SSM) kombiniert, ist die zentrale Frage, wie sich die Fähigkeit zur globalen Informationssuche mit der Fähigkeit verbinden lässt, zu erkennen, was in einer Sequenz wichtig ist. Herkömmliche Transformer können zwar überall hinsehen, sind aber bei der Priorisierung begrenzt; SSMs können wichtige Signale akkumulieren, haben jedoch Schwierigkeiten, auf bereits Vergangenes erneut präzise zuzugreifen. Insofern ergänzen sich beide Ansätze. Bisherige Hybridverfahren beschränkten sich jedoch meist darauf, die beiden Mechanismen parallel auf Block- oder Head-Ebene anzuordnen, sodass das Wichtigkeitssignal des SSM genau in dem Moment, in dem Attention-Scores berechnet werden, nicht direkt einfließen konnte. Vor diesem Hintergrund schlagen die Autorinnen und Autoren SSM-Informed Softmax Attention (SISA) vor und entwerfen eine neue Form der Kopplung, bei der das vom SSM gelieferte sequentielle Wichtigkeitssignal nicht in den Attention-Output, sondern in die Scores selbst injiziert wird. Die Kernidee besteht darin, zusätzlich zum standardmäßigen Skalarprodukt-Term für Inhaltsähnlichkeit auch einen Skalarprodukt-Term aus einem vom SSM abgeleiteten Wichtigkeitsvektor hinzuzufügen, sodass Beziehungen zwischen Tokens nicht nur einfache Content-Übereinstimmung widerspiegeln, sondern auch berücksichtigen, „was jetzt wichtig ist“.

Besonders wichtig an dieser Methode ist, dass sie sich ohne zusätzlichen rekursiven Zustand oder angepasste Kernel (custom kernel) umsetzen lässt und dafür lediglich erweiterte Querys und Keys sowie einen einzigen Aufruf von Scaled Dot-Product Attention (SDPA) benötigt. Anders gesagt: SISA nutzt mathematisch zwar die sequentiellen Informationen des SSM, ist aber aus Implementierungssicht so gestaltet, dass es sich gut in den Standard-Rechenablauf von Transformern einfügt und die Kompatibilität mit Optimierungen der FlashAttention-Familie erhalten bleibt. Zusätzlich berechnet der SSM-Kanal aus dem Input Decay- und Rotationskomponenten, um das Wichtigkeitssignal zu konstruieren, und sorgt dafür, dass dieses auf Score-Ebene der Attention wirkt, wodurch die Retrieval-Leistung direkt verbessert wird. Auch in den Experimenten zeigt sich die Wirkung dieses Designs klar: Unter den Bedingungen von 152M Parametern und 5B Tokens erreichte SISA auf LAMBADA-greedy 17,3 % und übertraf damit den Standard-Transformer und Mamba-3; auf NIAH (Needle-in-a-Haystack) erreichte es bereits ab Trainingsschritt 1K 100 % und zeigte damit eine sehr schnelle Retrieval-Konvergenz.

Darüber hinaus zeigt SISA auch im Maßstab von 369M nicht ausschließlich durchgehend überlegene Kennzahlen, hat aber einen hohen praktischen Wert, weil es zumindest bei wichtigen Retrieval-Aufgaben stabil starke Leistung hält, ohne die Ausführbarkeit mit stock SDPA zu verlieren. Die Autoren präsentieren dies als eine dritte Designachse jenseits der Block- und Head-Ebene, nämlich score-level fusion, als valide Alternative für hybride Sprachmodelle. Letztlich besteht der Beitrag dieser Arbeit nicht einfach darin, zwei Modellfamilien zu mischen, sondern darin, das vom SSM gelieferte Wichtigkeitssignal in den Mittelpunkt der Bildung der Attention-Scores zu rücken und globale Suche sowie sequentielle Priorisierungsentscheidung in einer einzigen Operation zu integrieren. Dieser Ansatz kann als wichtiges Beispiel dafür gelten, wie sich hybride Strukturen bei Sprachmodellierungsaufgaben, in denen die Wiederherstellung langfristiger Abhängigkeiten und das Verfolgen zentraler Informationen wichtig sind, noch präziser weiterentwickeln können.

Abstract

Die Kombination der globalen Retrieval-Fähigkeit von Attention mit dem sequentiellen Wichtigkeitssignal von State Space Models (SSMs) ist die ungelöste Herausforderung des hybriden Sprachmodellings. Transformer sehen alles, können aber keine Prioritäten setzen; SSMs wissen, was wichtig ist, können aber nicht noch einmal darauf zurückkommen. Bestehende Hybride wie Jamba (Block-Ebene) und Hymba (Head-Ebene) platzieren die beiden Mechanismen in getrennten Bereichen, sodass keiner den anderen während der eigentlichen Attention-Berechnung informiert. Wir schlagen SISA (SSM-Informed Softmax Attention) vor. Dabei wird ein aus dem SSM abgeleiteter Wichtigkeitsterm direkt innerhalb des Attention-Scores hinzugefügt, und die gesamte Operation wird als einzelner SDPA-Aufruf über erweiterte Query-/Key-Vektoren umgesetzt. Weder rekurrenter Zustand noch angepasster Kernel sind erforderlich. Bei 152M / 5B Tokens erreicht SISA 17,3 % auf LAMBADA-greedy (gegenüber 13,9 beim Transformer und 15,5 bei Mamba-3) und erzielt ab Schritt 1K NIAH 100 %, also eine 7x schnellere Retrieval-Konvergenz als der Transformer. Bei 369M liegt Mamba-3 bei LAMBADA vorn, doch SISA bewahrt perfektes NIAH und die Ausführung mit standardmäßigem SDPA. SISA präsentiert damit jenseits der in diesem Bereich dominierenden Paradigmen auf Block- und Head-Ebene eine dritte Designachse für SSM-Attention-Hybride: score-level fusion.

Combining attention's global retrieval with the sequential importance signal of state space models (SSMs) is the open challenge of hybrid language modeling. Transformers see everywhere but cannot prioritize; SSMs know what matters but cannot revisit. Existing hybrids -- Jamba (block level) and Hymba (head level) -- place the two in separate compartments, so neither informs the other during the attention computation itself. We propose SISA (SSM-Informed Softmax Attention), which adds an SSM-derived importance term directly inside the attention score and realizes the full operation as a single SDPA call on augmented query/key vectors -- no recurrent state, no custom kernel. At 152M / 5B tokens, SISA reaches LAMBADA-greedy 17.3% (vs. Transformer 13.9 and Mamba-3 15.5) and attains NIAH 100% from step 1K, 7x faster than Transformer's retrieval convergence; at 369M, Mamba-3 leads LAMBADA while SISA preserves perfect NIAH and stock-SDPA execution. SISA thus defines a third design axis for SSM-attention hybrids -- score-level fusion -- beyond the block-level and head-level paradigms that have dominated the field.

Paper-Link

https://arxiv.org/abs/2606.02332

Brauchen Transformer drei Projektionen? Eine systematische Studie von QKV-Varianten / Do Transformers Need Three Projections? Systematic Study of QKV Variants

Paper-Einführung

Die zentrale Komponente, die die Leistungsfähigkeit von Transformern trägt, ist die QKV- (query-key-value-) Attention aus Query, Key und Value. Wie unabhängig jede dieser Projektionen tatsächlich erforderlich ist, wurde jedoch bislang nicht ausreichend systematisch untersucht. Genau diese Lücke adressiert diese Studie, indem sie präzise analysiert, wie sich Weight Tying innerhalb der Attention auf Ausdrucksstärke und Inferenz-Effizienz auswirkt, insbesondere anhand von drei Einschränkungen beim Teilen von Projektionen: Q-K=V, Q=K-V und Q=K=V. Besonderes Augenmerk gilt dabei der Tatsache, dass die letzten beiden Varianten dazu neigen, die Attention-Map symmetrisch zu machen. Deshalb wird gemeinsam auch ein Design untersucht, das mit zweidimensionaler Positionskodierung (two-dimensional positional encoding) die Richtungseigenschaft ergänzt. Damit wird die Diskussion über eine bloße Parameterreduktion hinaus auf die Struktur des Repräsentationsraums selbst ausgeweitet. Dieser Ansatz ist bedeutsam, weil er nicht bei der Frage stehen bleibt, ob das Teilen von Projektionen zu Leistungsabfall führt, sondern getrennt erklärt, unter welchen Bedingungen die Qualität erhalten bleibt und unter welchen die Richtungseigenschaft und Selektivität der Attention beschädigt werden.

Die Experimente sind so aufgebaut, dass sie unterschiedliche Bereiche wie synthetische Aufgaben, Vision und Sprachmodellierung abdecken. Dadurch wird überprüft, dass die Effekte des Teilens von Projektionen kein auf eine bestimmte Datendomäne beschränktes Phänomen sind. Bei den synthetischen Aufgaben wird anhand von Manipulationsproblemen wie Reihenfolgeumkehr, Sortierung, Ersetzung, Tausch und Kopieren untersucht, wie gut das Modell strukturelle Beziehungen lernt. In den Vision-Experimenten werden mit MNIST, CIFAR, TinyImageNet und Anomalieerkennung Umgebungen bewertet, in denen räumliche Positionsinformationen wichtig sind. In der Sprachmodellierung werden Modelle mit 300M und 1,2B Parametern auf 10B Tokens trainiert, um zu prüfen, ob derselbe Trend auch in großskaligen Settings bestehen bleibt. Das Ergebnis: Der Q-K=V-Ansatz zeigte im Allgemeinen eine dem Standard-QKV-Transformer vergleichbare oder teils sogar bessere Leistung, während in der Sprachmodellierung der key-value-(KV-)Cache um 50 % reduziert wurde und sich die Verschlechterung der Perplexity auf nur 3,1 % beschränkte.

Noch wichtiger ist, dass sich dieser Spareffekt komplementär mit Grouped Query Attention (GQA) oder Multi-Query Attention (MQA) kombinieren lässt. Wird Q-K=V zusammen mit GQA-4 verwendet, lässt sich der KV-Cache um bis zu 87,5 % reduzieren; in Kombination mit MQA sind es sogar bis zu 96,9 %, was praktische Vorteile für On-Device-Inferenz bietet. Die Autoren zeigen mit diesen Ergebnissen, dass Key und Value tatsächlich einen ähnlichen Repräsentationsraum teilen können und dass eine vollständige Trennung von QKV nicht zwingend notwendig ist, weil Attention in einer Low-Rank-Struktur arbeitet. Umgekehrt erweist sich Q=K-V als nachteiliger hinsichtlich Leistung und Stabilität, weil es Query und Key zu stark zusammenbindet und dadurch die Richtungseigenschaft der Attention schwächt.

Insgesamt führt diese Studie dazu, die QKV-Struktur des Transformers nicht als selbstverständlichen Standard, sondern als erneut überprüfbaren Designraum zu betrachten, und sie liefert empirische Kriterien dafür, welche Projektionen geteilt und welche Rollen getrennt werden sollten. Gerade weil sich die Speichernutzung bei nahezu erhaltener Leistung stark senken lässt, sind diese Ergebnisse als wichtige Designrichtlinie für effiziente Bereitstellung in eingeschränkten Umgebungen wie Edge Devices zu lesen.

Abstract

Transformers sind zur Standardlösung für verschiedenste AI-Aufgaben geworden, wobei die Query-, Key- und Value-(QKV-)Attention-Formulierung eine zentrale Rolle spielt. Allerdings sind der individuelle Beitrag dieser drei Projektionen und die Auswirkungen ihres teilweisen Weglassens noch nicht ausreichend verstanden. Wir haben drei Nebenbedingungen für geteilte Projektionen systematisch untersucht: a) Q-K=V (gemeinsamer Key-Value), b) Q=K-V (gemeinsamer Query-Key) und c) Q=K=V (eine einzelne Projektion). Die letzten beiden Varianten erzeugen symmetrische Attention-Maps; um dies zu beheben, haben wir zusätzlich asymmetrische Attention mittels 2D-Positionskodierungen untersucht. In Experimenten mit synthetischen Aufgaben, Vision (MNIST, CIFAR, TinyImageNet, Anomalieerkennung) sowie Language Modeling (Modelle mit 300 Mio. bzw. 1,2 Mrd. Parametern auf 10 Mrd. Tokens) stellten wir fest, dass unsere Transformers eine mit QKV-Transformern vergleichbare oder teils bessere Leistung zeigen. Beim Language Modeling reduzierte geteilte Q-K=V-Projektion den KV-Cache um 50 % bei nur 3,1 % schlechterer Perplexity. Entscheidend ist, dass geteilte Projektionen komplementär zu geteilten Heads (GQA/MQA) sind. Die Kombination von Q-K=V mit GQA-4 kann den Cache um 87,5 % reduzieren, und die Kombination von Q-K=V mit MQA um bis zu 96,9 %, was praktische On-Device-Inferenz ermöglicht. Wir zeigen, dass Q-K=V die Qualität erhält, weil Keys und Values ähnliche Repräsentationsräume einnehmen können und Attention in einem Low-Rank-Bereich arbeitet, während Q=K-V die Gerichtetheit der Attention zerstört. Unsere Ergebnisse charakterisieren geteilte Projektionen systematisch als einen bislang unzureichend untersuchten Fall von Weight Tying in Attention und zeigen direkte, quantifizierbare Vorteile beim Inferenzspeicher, die besonders für Edge-Deployment wertvoll sind. Der Code ist unter https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections öffentlich verfügbar.

Transformers have become the standard solution for various AI tasks, with the query, key, and value (QKV) attention formulation playing a central role. However, the individual contribution of these three projections and the impact of omitting some remain poorly understood. We systematically evaluate three projection sharing constraints: a) Q-K=V (shared key-value), b) Q=K-V (shared query-key), and c) Q=K=V (single projection). The last two variants produce symmetric attention maps; to address this, we also explore asymmetric attention via 2D positional encodings. Through experiments spanning synthetic tasks, vision (MNIST, CIFAR, TinyImageNet, anomaly), and language modeling (300M and 1.2B parameter models on 10B tokens), we discovered that our transformers perform on par or occasionally better than the QKV transformer. In language modeling, Q-K=V projection sharing achieves 50% KV cache reduction with only 3.1% perplexity degradation. Crucially, projection sharing is complementary to head sharing (GQA/MQA): combining Q-K=V with GQA-4 yields 87.5% cache reduction, while Q-K=V + MQA achieves 96.9%, enabling practical on-device inference. We show that Q-K=V preserves quality because keys and values can occupy similar representational spaces and attention operates in a low-rank regime, whereas Q=K-V breaks attention directionality. Our results systematically characterize projection sharing as an underexplored instance of weight tying in attention, with direct, quantifiable inference memory benefits, particularly valuable for edge deployment. The code is publicly available at https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections

Paper-Link

https://arxiv.org/abs/2606.04032

Weiterlesen

https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections

Agentische Workflows in LLM-Gewichte kompilieren: Nahezu Frontier-Niveau bei zwei Größenordnungen geringeren Kosten / Compiling Agentic Workflows into LLM Weights: Near-Frontier Quality at Two Orders of Magnitude Less Cost

Einführung ins Paper

Die jüngste Verbreitung von Agent-Orchestration-Frameworks zeigt, dass sich die Steuerung komplexer Aufgaben durch externe Koordinatoren auf Basis von Large Language Models (LLMs) faktisch als Standard etabliert hat. Dieses Paper stellt jedoch infrage, ob eine solche Architektur für prozedurale Aufgaben wirklich die beste Wahl ist. Das Einspeisen von Anweisungen und Routing-Entscheidungen durch einen externen Orchestrator in jeder Runde hat zwar den Vorteil, dass Kontrolle und Debugging einfacher sind, verbraucht aber kontinuierlich das Kontextfenster (context window), erfordert bei jeder Konversation Aufrufe eines Frontier-Modells und bringt die Einschränkung mit sich, dass der Ablauf selbst gegenüber Drittanbietern offengelegt werden kann. Daher schlagen die Autoren vor, Arbeitsabläufe nicht im Prompt zu belassen, sondern direkt in die Gewichte eines kleinen Fine-Tuning-Modells zu kompilieren, sodass zur Laufzeit ohne separate Orchestrierung ein Agent entsteht, der die Prozedur internalisiert hat. Dieser Ansatz muss die Prozedur nicht fortlaufend von außen einspeisen, senkt dadurch die Kosten erheblich, belegt keinen langen Kontext und legt sensible Workflows nicht gegenüber externen Diensten offen, was strukturelle Vorteile bietet. Die Autoren bezeichnen einen solchen Agenten, bei dem die Prozedur im Modellinneren verborgen arbeitet, als subterranean agent und grenzen ihn klar von bestehenden orchestration-zentrierten Designs ab.

Die zentrale Methodik besteht nicht nur in der Vorstellung eines einfachen Konzepts, sondern darin, drei wahrgenommene Hürden zu prüfen, die Entwickler in realen Arbeitsumgebungen von diesem Ansatz abhalten. Erstens geht es um Leistungsbedenken, ob ein kleines Modell Qualität auf Frontier-Niveau erreichen kann; zweitens um die Frage der Wissensinternalisierung, also ob sich häufig wechselnde Informationen wie produktspezifisches Wissen in den Gewichten abbilden lassen; und drittens darum, ob der Ansatz auf große Workflows mit komplexen Verzweigungen und vielen Hubs skalieren kann. Dafür wählten die Forschenden drei unterschiedlich gelagerte Bereiche aus — Reisebuchung, Zoom-Support und Versicherungsansprüche — und verglichen den Nutzen des Kompilierungsansatzes unter Bedingungen mit unterschiedlicher prozeduraler Tiefe und verschiedenen Anforderungen an Domänenwissen. Die Reisebuchung testet anhand eines standardisierten Prozessflusses mit 14 Knoten die Stabilität von Zustandsübergängen und schrittweiser Entscheidungsfindung. Der Zoom-Support betont, dass selbst bei Workflows derselben Größenordnung zusätzlich produktbezogenes Richtlinien- und Funktionswissen erforderlich ist. Der Bereich Versicherungsansprüche dient mit einer komplexeren Struktur aus 55 Knoten und 6 Entscheidungshubs als praxisnaher Stresstest, in dem bedingte Verzweigungen und Policy-Berechnungen gleichzeitig erforderlich sind.

Die Implikationen der experimentellen Ergebnisse sind klar. Es bestätigt sich, dass ein kleines Modell, das die Prozedur in seinen Gewichten verankert, near-frontier quality – also eine Qualität nahe an Frontier-Modellen – beibehalten und zugleich die Kosten um Faktoren im zweistelligen Bereich senken kann; das zwingt dazu, das traditionelle Verhältnis zwischen Leistung und Effizienz neu zu überdenken. Besonders am Beispiel von Versicherungsansprüchen zeigt sich, dass das Modell nicht nur Antworten erzeugt, sondern prozedurales Schlussfolgern konsistent ausführen kann, einschließlich Prüfung, Verzweigung, Berechnung von Erstattungen und Hinweisen zur Auszahlung. Diese Ergebnisse deuten darauf hin, dass für wiederholbare Aufgaben mit relativ stabiler Struktur ein kompilierender Ansatz, bei dem die Prozedur selbst gelernt wird, geeigneter sein kann als Orchestrierung mit externer Abstimmung bei jeder Ausführung. Gleichzeitig bleibt bestehen, dass bei Änderungen an der Prozedur ein erneutes Training nötig sein kann und dass dieser Ansatz gegenüber promptbasierten Verfahren bei sofortigen Anpassungen und Interpretierbarkeit im Nachteil sein könnte; der Beitrag der Studie liegt jedoch darin, die Gestaltungsoptionen für Agenten zu erweitern. Letztlich stellt diese Arbeit die gängige Annahme infrage, dass Agenten-Workflows immer extern zusammengesetzt werden müssen, und zeigt empirisch, dass die Verlagerung der Prozedur ins Modellinnere auch auf Praxisebene eine hinreichend tragfähige Alternative sein kann.

Abstract

Agenten-Orchestrierungs-Frameworks haben sich rasant verbreitet und kommen zusammengenommen bei LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands und LlamaIndex auf über 290.000 GitHub-Stars. Sie alle folgen demselben Muster: ein externer Orchestrator über dem LLM, der in jedem Turn Anweisungen und Routing-Entscheidungen einspeist. Jüngste Arbeiten haben gezeigt, dass diese Architektur bei prozeduralen Aufgaben unterlegen ist gegenüber dem einfachen Ansatz, die Prozedur direkt im System Prompt eines Frontier-Modells bereitzustellen [Dennis et al., 2026a]. Der Preis dafür ist jedoch der Verbrauch des Kontextfensters, die Notwendigkeit eines Frontier-Modells für jede Konversation und die Offenlegung proprietärer Verfahren gegenüber Drittanbietern. Die Kompilierung der Prozedur in die Gewichte eines kleinen feinabgestimmten Modells – also die Erzeugung eines subterranean agent – sollte all diese Probleme lösen können, und frühere Arbeiten (SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos) haben gezeigt, dass diese Technik funktioniert. Dennoch hat sich die Entwickler-Community bislang überwiegend für Orchestrierung entschieden. Wir identifizieren drei wahrgenommene Hürden und adressieren jede davon empirisch in drei Bereichen: Reisebuchung (14 Knoten), Zoom-Support (14 Knoten, produktspezifisches Wissen) und Versicherungsansprüche (55 Knoten, 6 Entscheidungshubs).

Agent orchestration frameworks have proliferated, collectively exceeding 290,000 GitHub stars across LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands, and LlamaIndex. All follow the same pattern: an external orchestrator above the LLM, injecting instructions and routing decisions every turn. Recent work has shown this architecture is dominated for procedural tasks by simply providing the procedure in a frontier model's system prompt [Dennis et al., 2026a], at the cost of consuming the context window, requiring a frontier model for every conversation, and exposing proprietary procedures to third-party providers. Compiling the procedure into the weights of a small fine-tuned model -- creating a subterranean agent -- should resolve all of these concerns, and prior work (SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos) has shown the technique works. Yet developer adoption has overwhelmingly favored orchestration. We identify three perceived barriers and address each empirically across travel booking (14 nodes), Zoom support (14 nodes, product-specific knowledge), and insurance claims (55 nodes, 6 decision hubs).

Paper-Link

https://arxiv.org/abs/2605.22502

Weiterführende Lektüre

https://discuss.pytorch.kr/t/llm-subterranean-agent/10501

Agentenkompatibles Kontextmanagement für Long-Horizon-Tasks lernen / Learning Agent-Compatible Context Management for Long-Horizon Tasks

Einführung in die Arbeit

Wenn auf großen Sprachmodellen (LLMs) basierende Agenten Long-Horizon-Tasks wie Websuche oder Deep Research ausführen, bei denen die Abläufe lang sind und sich Zwischenentscheidungen aufaddieren, besteht eines der größten Hindernisse darin, dass mit zunehmender Gesprächslänge relevante Hinweise und unnötige frühere Informationen miteinander vermischt werden und das Schlussfolgern ins Wanken gerät. Bestehende Methoden des Kontextmanagements lernen oft die interne Policy des Agenten mit oder stützen sich auf feste Strategien wie Zusammenfassungen. Solche Ansätze lassen sich jedoch nur schwer auf geschlossene (closed-source) Agenten anwenden und berücksichtigen nicht ausreichend die Realität, dass unterschiedliche Agenten unterschiedliche Formen des Managements benötigen können. Um dieses Problem zu lösen, verfolgt das vorgeschlagene Adaptive Context Management (AdaCoM) einen Ansatz, bei dem ein eingefrorener Agent (frozen agent) unverändert bleibt, während ein externes zweites LLM darauf trainiert wird, den Kontext dynamisch zu bearbeiten. Der Kern besteht hier nicht einfach darin, lange Gespräche zu komprimieren, sondern flexible Bearbeitungsaktionen zu lernen, die auf Nachrichtenebene löschen, umschreiben und zusammenführen, dabei die für die aktuelle Aufgabe nötigen Randbedingungen und den Fortschritt bewahren und veraltetes Rauschen entfernen. Diese Konstruktion ist insofern bedeutsam, als sie Kontextmanagement nicht als statische Vorverarbeitung, sondern als Problem des Policy-Lernens neu definiert, das die Erfolgsquote des Agenten direkt verbessert.

AdaCoM beginnt zunächst mit supervised fine-tuning (SFT), um den Kontextmanager an ein strukturiertes Ausgabeformat zu gewöhnen, und verfeinert die Policy anschließend mit Group Relative Policy Optimization (GRPO), wobei die tatsächliche Aufgabenleistung als Belohnung dient. In diesem Prozess erhält der Manager den aktuellen Kontext in Prompt-Form als Eingabe und wählt aus Sicht eines Markov decision process (MDP) in jedem Schritt aus, welche Nachrichten beibehalten oder verändert werden sollen. Darüber hinaus wird nicht nur die endgültige richtige Antwort betrachtet, sondern auch eine process reward gestaltet, die Überschreitungen der Kontextlänge, wiederholte Tool-Aufrufe, Formatfehler und Aufgabensignale aus Zwischenschritten berücksichtigt, damit auch die für Long-Horizon-Tasks wichtige Qualität lokaler Bearbeitungen gelernt wird. Dadurch arbeitet AdaCoM nicht als einfacher Zusammenfasser, sondern als adaptive Bearbeitungs-Policy, die dem Agenten hilft, sein Denken stabil fortzusetzen.

Experimentell wurden Leistungsverbesserungen bestätigt, wenn das Verfahren auf verschiedene Agenten in Benchmarks für Websuche und Deep Research angewendet wurde. Besonders zeigte sich, dass Agenten mit ursprünglich hoher Grundleistung im ReAct(Reasoning and Acting)-Stil stärker von einer kontexttreuen Bewahrung mit hoher Fidelity profitieren, während relativ schwächere Agenten eher von aggressiverer Kompression profitieren, um in stabilen Schlussfolgerungsbereichen zu bleiben. Die Autoren interpretieren dies als fidelity-reliability trade-off und zeigen damit, dass sich Kontextmanagement nach dem Fähigkeitsniveau des Agenten richten sollte. Darüber hinaus wurde in Transferexperimenten beobachtet, dass sich die Strategien von AdaCoM besser zwischen Agenten mit ähnlichen Fähigkeitsmerkmalen übertragen lassen, was darauf hindeutet, dass ein wiederverwendbarer externer Kontextmanager praktischer sein könnte als eine einzelne universelle Zusammenfassungsregel. Insgesamt liefert diese Studie einen wichtigen methodischen Fortschritt, weil sie Ursachen des Scheiterns bei Long-Horizon-Tasks nicht allein in den Schlussfolgerungsfähigkeiten des Agenten sieht, sondern das Kontextmanagement, das dieses Schlussfolgern trägt, selbst als lernbare Kernkomponente behandelt.

Abstract

LLM-Agenten stehen in realen Anwendungen zunehmend vor langfristigen Aufgaben wie Websuche und Deep Research, bei denen akkumulierte Kontexte zu einer Verschlechterung der Leistung bei langen Kontexten und zu Fehlschlüssen führen können. Frühere Arbeiten haben dies durch Kontextmanagement mit agentenseitiger Kontextkontrolle oder festen Strategien wie Zusammenfassung abgemildert. Solche Methoden erfordern jedoch, den Agenten selbst für die Anpassung zu trainieren, was sie für Closed-Source-Agenten unpraktisch macht, und sie übersehen zudem, dass unterschiedliche Agenten unterschiedliche Strategien benötigen können.

Wir schlagen Adaptive Context Management (AdaCoM) vor. Dabei wird ein externes LLM darauf trainiert, den Kontext eines eingefrorenen Agenten mithilfe flexibler Modifikationsaktionen und End-to-End-Reinforcement-Learning zu verwalten. Über verschiedene Agenten hinweg auf Benchmarks für Websuche und Deep Research verbessert AdaCoM die Leistung deutlich, indem veraltete Inhalte entfernt werden, während Aufgabenbeschränkungen und Fortschritt erhalten bleiben. Die gelernten Strategien zeigen einen Fidelity-Reliability-Trade-off: Agenten mit höherer allgemeiner ReAct-Leistung profitieren von einer Kontextbewahrung mit höherer Fidelity, während leistungsschwächere Agenten eine aggressivere Komprimierung benötigen, um innerhalb eines verlässlichen Reasoning-Bereichs zu bleiben. Transferexperimente zeigen, dass AdaCoM am effektivsten über Agenten mit ähnlichen Fähigkeiten generalisiert, gemessen an der allgemeinen ReAct-Leistung. Das deutet auf einen praktischen Weg zu wiederverwendbaren Kontextmanagern für Agentensysteme hin.

LLM agents increasingly face long-horizon tasks such as web search and deep research in real-world applications, where accumulated context can cause long-context degradation and reasoning failures. Prior work mitigates this through context management with agent-side context control or fixed strategies such as summarization, which require training the agent itself for adaptation - making it impractical for closed-source agents and ignoring that different agents may require different strategies. We introduce Adaptive Context Management (AdaCoM), which trains an external LLM to manage the context of a frozen agent through flexible modification actions and end-to-end reinforcement learning. Across diverse agents on web search and deep research benchmarks, AdaCoM substantially improves performance by preserving task constraints and progress while pruning stale content. The learned strategies reveal a Fidelity-Reliability Trade-off: agents with higher vanilla ReAct performance benefit from higher-fidelity context preservation, whereas lower-performing agents require more aggressive compression to stay within a reliable reasoning regime. Transfer experiments show that AdaCoM generalizes most effectively across agents with similar capability (measured by vanilla ReAct performance), suggesting a practical path toward reusable context managers for agent systems.

Paper-Link

https://arxiv.org/abs/2605.30785

Latent Agents: Ein Post-Training-Verfahren für internalisierte Multi-Agent-Debatten / Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate

Paper-Einführung

Multi-Agent Debate zur Verbesserung der Reasoning-Leistung von Large Language Models (LLMs) ist eine leistungsstarke Methode, hat jedoch den Nachteil sehr hoher Rechenkosten, da mehrere Agenten lange Debattenverläufe austauschen müssen. Um diese Ineffizienz zu beheben, schlagen Latent Agents ein Post-Training-Verfahren vor, das die bisher extern ausgeführte Multi-Agent-Debatte in ein einzelnes Sprachmodell destilliert. Die Kernidee geht über das bloße Komprimieren des Debattenergebnisses hinaus: Zunächst lernt das Modell die Struktur der Debatte selbst, anschließend wird es über Reinforcement Learning (RL) dazu gebracht, diese Struktur zu internalisieren. Dazu erstellen die Autoren zunächst Debattendaten mit 3 Agenten und 2 Runden und versehen Debattenprotokolle zu Arithmetikaufgaben, in denen ein abschließender Konsens gebildet wurde, mit Strukturtags, um ein konsistentes Format zu schaffen. Anschließend wurde in der Phase des Supervised Fine-Tuning (SFT) der vollständige Debatten-Trace unverändert gelernt, sodass das Modell den Ablauf der Debatte und die Muster der Konsensbildung nachahmen konnte.

Die anschließende Reinforcement-Learning-Phase geht über bloße Formatnachahmung hinaus und entspricht dem eigentlichen Prozess der Internalisierung der Debatte. Hierbei wird Group Relative Policy Optimization (GRPO) verwendet, um mehrere Kandidatenausgaben zu vergleichen, kombiniert mit einem Length-Clipping-Reward, der darauf drängt, dass die richtige Antwort früher erscheint. Außerdem werden Format-Rewards, die helfen, Strukturtags wie <|Agent 1|>, <|Round 1|>, <|endofdebate|> beizubehalten, schrittweise abgeschwächt, sodass das Modell zu einem Schluss gelangen kann, ohne sich länger auf lange externe Debatten verlassen zu müssen, sondern nur noch auf interne Repräsentationen. Dieses dynamische Reward-Scheduling und die Verkürzung der Länge spielen eine wichtige Rolle dabei, die rechnerische äußere Form der Debatte zu reduzieren und zugleich die aus der Interaktion zwischen Agenten entstehenden Reasoning-Vorteile zu bewahren. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene Modell auf GSM8K, MMLU-Pro und Big-Bench Hard (BBH) die gleiche oder eine bessere Leistung als explizite Multi-Agent-Debatten erzielt, wobei die verwendeten Tokens um bis zu 93 % reduziert wurden, was die Inferenz-Effizienz deutlich verbessert. Besonders bemerkenswert ist, dass in einigen Einstellungen bereits SFT allein bessere Ergebnisse als bestehende Debattenmethoden lieferte; mit zusätzlichem RL wurden sowohl die Genauigkeit als auch die Token-Einsparungen weiter verbessert, was die Wirksamkeit des Internalisierungsverfahrens klar belegt.

Ein weiterer wichtiger Beitrag dieser Arbeit ist die mechanistische Analyse, wie internalisierte Debatten den Repräsentationsraum des Modells verändern. Durch Activation-Steering-Experimente zeigen die Autoren, dass sich im internalisierten Modell agentenspezifische Teilräume bilden und interpretierbare Richtungen existieren, die unterschiedlichen Agentenperspektiven entsprechen. Das legt nahe, dass die Vorteile von Multi-Agent-Debatten nicht einfach aus einer Mittelung der Ausgabetexte entstehen, sondern mit einem Prozess zusammenhängen, bei dem unterschiedliche Reasoning-Perspektiven im latenten Raum strukturell getrennt und anschließend kombiniert werden. Darüber hinaus zeigt ein Experiment, bei dem ein bösartiger Agent internalisiert und anschließend durch negatives Steering unterdrückt wird, dass schädliches Verhalten im destillierten Modell stärker lokalisiert und leichter kontrollierbar sein kann. Insgesamt ist Latent Agents bedeutsam, weil es nicht nur eine kosteneffiziente Methode zur Komprimierung von Multi-Agent-Reasoning vorschlägt, sondern zugleich die Struktur und Steuerbarkeit internalisierten Reasonings offenlegt.

Abstract

Es ist seit Langem ein wichtiges Ziel, autonome Agentensysteme zu entwickeln, die auch nach der Bereitstellung selbstständig lernen und wiederholte Fehler verringern können. In der Praxis blieben die meisten Systeme jedoch auf per Text veränderbare Konfigurationen und Prompt-Ebene beschränkt und konnten strukturelle Defekte nicht grundlegend adressieren. Um diese Grenzen zu überwinden, wurde MOSS vorgeschlagen: ein System, das Source-Level-Adaption als Medium der Selbstevolution nutzt und so ausgelegt ist, die zentrale Ausführungsstruktur des Agenten selbst umzuschreiben. Die Autoren weisen darauf hin, dass Elemente wie Routing, Hook-Reihenfolge, Zustandsinvarianten und Dispatch, die das tatsächliche Verhalten bestimmen, im Code liegen. Deshalb bleiben Ausfälle unvermeidlich, die durch Änderungen an Skill-Dateien oder der Prompt-Zusammensetzung allein nicht erreichbar sind. Source Code besitzt dagegen Turing-Vollständigkeit, stellt eine Obermenge textbasierter Artefakte dar und arbeitet deterministisch, ohne davon abzuhängen, ob das Modell Anweisungen befolgt. Dadurch wird er als deutlich allgemeineres und robusteres Mittel zur Adaption dargestellt.

Die Methodik von MOSS basiert wesentlich darauf, automatisch gesammelte Production-Failure-Evidence als Ausgangspunkt zu nehmen und daran entlang eine mehrstufige Evolutions-Pipeline in fester Form auszuführen. Die eigentlichen Code-Änderungen werden an eine externe Coding-Agent-CLI (Command-Line Interface) delegiert, doch MOSS kontrolliert die Reihenfolge der Schritte und die finale Entscheidung selbst, wodurch die Verantwortung für Generierung und Verifikation getrennt wird. Die so erzeugten Kandidatenversionen werden in einmaligen Trial-Workern (ephemeral trial workers) validiert, indem Fehler-Batches erneut abgespielt werden. Bedeutend ist dabei, dass nicht nur eine einfache statische Analyse erfolgt, sondern eine reproduktionsbasierte Bewertung realer Fehlersituationen. Nur Kandidaten, die die Validierung bestehen, werden über einen In-Place-Container-Swap mit vorausgesetzter Nutzerzustimmung hochgestuft. Anschließend ist das System so ausgelegt, dass automatisch ein Rollback erfolgt, falls die Bedingungen der Health Probes nicht erfüllt werden, wodurch auch die Betriebssicherheit gewährleistet wird.

Dieser Ansatz unterscheidet sich von bisherigen Selbstevolutions-Agenten, die Verbesserungen meist nur in textuell darstellbaren Bereichen wie Prompts, Memory-Schemata oder Workflow-Graphen versucht haben, dadurch, dass er das gesamte System einschließlich des tatsächlichen Execution-Harness zum Gegenstand der Evolution macht. Entsprechend lässt sich MOSS nicht einfach als Modell verstehen, das bessere Antworten erzeugt, sondern als Adaptionsplattform, die strukturelle Defekte laufender Agentensysteme direkt korrigiert. Insbesondere zeigt die Kombination aus deterministischer Pipeline und Verifikations-, Promotion- und Rollback-Verfahren einen robusteren Weg zur Selbstverbesserung als textzentrierte Ansätze, die anfällig für Long-Context-Drift sind. Dieses Design macht klar, dass autonome Agenten für eine sichere Evolution in realen Service-Umgebungen nicht nur Lernfähigkeit benötigen, sondern auch systemtechnische Mechanismen für Deployment, Verifikation und Rollback.

Experimentell steigerte MOSS in OpenClaw den durchschnittlichen Grader-Score für vier Aufgaben bereits mit nur einem Evolutionszyklus von 0,25 auf 0,61 und erreichte diese Verbesserung ohne menschliches Eingreifen. Dieses Ergebnis zeigt, dass der Ansatz des Source-Level-Rewritings nicht nur theoretisch allgemeiner ist, sondern auch in realen Produktions-Agentensystemen zu bedeutenden Leistungsverbesserungen führen kann. Letztlich erweitert diese Arbeit den Bereich selbst-evolvierender Agenten von textueller Anpassung hin zur Rekonstruktion auf Code-Ebene und eröffnet damit eine neue Möglichkeit, wie autonome Systeme wiederholte Fehler eigenständig korrigieren können.

Abstract

Nach der Bereitstellung sind autonome agentische Systeme meist statisch: Sie lernen nicht aus Nutzerinteraktionen, und wiederkehrende Fehler bleiben bestehen, bis das nächste menschengetriebene Update einen Fix ausliefert. Als Reaktion darauf sind selbst-evolvierende Agenten aufgekommen, doch auch sie beschränken die Evolution auf textuell veränderbare Artefakte – also Skill-Dateien, Prompt-Konfigurationen, Memory-Schemata und Workflow-Graphen – und lassen das Agent-Harness unverändert. Da Routing, Hook-Reihenfolge, Zustandsinvarianten und Dispatch im Code und nicht in Textartefakten liegen, bleibt eine ganze Kategorie struktureller Fehler von der Textebene aus physisch unerreichbar. Wir argumentieren, dass Anpassung auf Quellcodeebene ein grundsätzlich allgemeineres Medium ist. Es ist Turing-vollständig, eine echte Obermenge aller textuell veränderbaren Bereiche, wirkt deterministisch statt auf die Befolgung durch das Basismodell angewiesen zu sein und wird auch durch Drift in langen Kontexten nicht geschwächt. Wir stellen MOSS vor, ein System, das Self-Rewriting auf Quellcodeebene auf produktiven agentischen Substraten ausführt. Jede Evolution basiert auf einem automatisch kuratierten Batch von Evidenz aus Produktionsfehlern und durchläuft eine deterministische mehrstufige Pipeline. Codeänderungen werden an eine steckbare externe Coding-Agent-CLI delegiert, während MOSS die Stufenreihenfolge und die Beurteilungen beibehält. Kandidaten werden verifiziert, indem der Batch in flüchtigen Trial-Workern gegen das Kandidaten-Image erneut abgespielt wird; anschließend werden sie über einen nutzerzustimmungsgebundenen In-Place-Container-Swap mit health-probe-gesteuertem Rollback hochgestuft. Auf OpenClaw hebt MOSS den mittleren Grader-Score über vier Aufgaben in nur einem Zyklus ohne menschliches Eingreifen von 0,25 auf 0,61 an.

Autonomous agentic systems are largely static after deployment: they do not learn from user interactions, and recurring failures persist until the next human-driven update ships a fix. Self-evolving agents have emerged in response, but all confine evolution to text-mutable artifacts -- skill files, prompt configurations, memory schemas, workflow graphs -- and leave the agent harness untouched. Since routing, hook ordering, state invariants, and dispatch live in code rather than in any text artifact, an entire class of structural failure is physically unreachable from the text layer. We argue that source-level adaptation is a fundamentally more general medium: it is Turing-complete, a strict superset of every text-mutable scope, takes effect deterministically rather than through base-model compliance, and does not erode under long-context drift. We present MOSS, a system that performs self-rewriting at the source level on production agentic substrates. Each evolution is anchored to an automatically curated batch of production-failure evidence and proceeds through a deterministic multi-stage pipeline; code modification is delegated to a pluggable external coding-agent CLI while MOSS retains stage ordering and verdicts. Candidates are verified by replaying the batch against the candidate image in ephemeral trial workers, then promoted via user-consent-gated, in-place container swap with health-probe-gated rollback. On OpenClaw, MOSS lifts a four-task mean grader score from 0.25 to 0.61 in a single cycle without human intervention.

Paper-Link

https://arxiv.org/abs/2605.22794

Weiterführende Lektüre

https://github.com/dav-joy-thon/MOSS

Sicherheitsausrichtung von Sprachmodellen durch nicht-kooperative Spiele / Safety Alignment of LMs via Non-cooperative Games

Paper-Einführung

Die Sicherheitsausrichtung von Sprachmodellen (language models, LM) hat sich in der jüngeren AI-Alignment-Forschung als zentrale Aufgabe etabliert, da sie zugleich Widerstandsfähigkeit gegenüber bösartigen Eingaben und den Erhalt der Nützlichkeit sicherstellen muss. Während frühere Ansätze meist darauf beschränkt waren, zunächst angreifende Prompts zu erzeugen und das Modell anschließend sequenziell zu ihrer Abwehr feinzujustieren, definiert diese Arbeit Sicherheitsausrichtung als ein Nicht-Nullsummenspiel (non-zero-sum game) neu, in dem ein Attacker LM und ein Defender LM ihre Strategien in Echtzeit aneinander anpassen. Beide Modelle werden gemeinsam mittels Online Reinforcement Learning (online reinforcement learning, RL) trainiert; der Angreifer erkundet ausgefeiltere Red-Teaming-Strategien, während sich der Verteidiger so weiterentwickelt, dass er diesen Angriffen robuster begegnet. Diese Struktur wechselseitiger Anpassung unterscheidet sich deutlich von bestehenden Methoden, weil sie keine einmalige Lernphase auf einem statischen Datensatz ist, sondern die Leistungsgrenzen selbst durch wiederholte Konkurrenz zwischen den Modellen fortlaufend erweitert. Besonders wichtig ist, dass die Autoren das Belohnungssignal nicht als punktbasierten Score, sondern als präferenzbasiertes Signal aus paarweisen Vergleichen gestalten, um eine stabilere Überwachung zu bieten und die Anfälligkeit für Reward Hacking zu verringern.

Im Zentrum dieser Methodik steht ein Trainingsverfahren namens AdvGame, das darauf abzielt, die Pareto frontier zwischen Sicherheit und Nützlichkeit weiter nach außen zu verschieben. Konkret werden Angreifer und Verteidiger abwechselnd aktualisiert, wobei beide jeweils die neuesten Policies des Gegenübers berücksichtigen. Dadurch wird der Verteidiger tatsächlich gegen stärkere Angriffe trainiert, während der Angreifer eine allgemeine Fähigkeit zur Erkennung von Schwachstellen erlernt, die nicht nur auf die Schwächen eines bestimmten Modells beschränkt ist. Die Formelherleitungen im Anhang zeigen den entscheidenden Prozess, mit dem dieses spieltheoretische Optimierungsproblem in eine tatsächlich trainierbare Form überführt wird: Die optimale Verteilung der Angreifer-Policy wird relativ zu einer Referenz-Policy als exponentiell regewichtete Form dargestellt und anschließend durch den Vergleich zweier Kandidaten so umgeformt, dass die Normierungskonstante entfällt. In diesem Prozess wird das Lernen des Angreifers nicht zu einem Problem absoluter Score-Regression, sondern zum Abgleichen relativer Präferenzordnungen, was auf natürliche Weise zu Zielfunktionen aus der Familie der Direct Preference Optimization (DPO) führt. Anders gesagt werden ganze Trajektorien, die gemeinsam durch vom Angreifer erzeugte Prompts und die Antworten des Verteidigers gebildet werden, zum Vergleichsgegenstand, wodurch reichhaltigere Lernsignale auf Basis realer Interaktionen gewonnen werden.

Darüber hinaus verknüpft die Arbeit die Präferenzwahrscheinlichkeit mit dem Bradley-Terry-Modell und führt das Konzept der marginalized preference ein, das die Interaktionen zwischen Angreifer und Verteidiger im Logit-Raum zusammenfasst. Dadurch lassen sich Rauscheffekte einzelner Antworten mitteln, während zugleich eine Präferenzstruktur gelernt wird, die nicht nur den Prompt selbst, sondern die kombinierte Wirkung von Prompt und Antwort abbildet. Infolgedessen erfolgt das Update des Angreifers auf einer dynamischen Verteilung, die fortlaufend durch die aktuelle Verteidiger-Policy aktualisiert wird, sodass es nicht zu Angriffen konvergiert, die auf ein fixes Ziel spezialisiert sind, sondern zu Red-Teaming-Fähigkeiten, die auf verschiedene Modelle generalisieren. Wie das Abstract betont, liefert diese gemeinsame Optimierung sowohl einen nützlicheren und zugleich angriffsfesteren Defender LM als auch einen starken universellen Attacker LM, der in realen Deployment-Umgebungen eingesetzt werden kann. Letztlich erweitert diese Studie die Sicherheitsausrichtung von einer bloßen Verteidigungstechnik zu einem Lernproblem, das Konkurrenz und Anpassung zwischen Modellen systematisch nutzt, und weist damit auf eine neue methodische Richtung hin, mit der sich Sicherheit und Nutzen von Sprachmodellen gleichzeitig steigern lassen.

Abstract

Die Sicherheit von Sprachmodellen (LMs) zu gewährleisten und zugleich ihre Nützlichkeit zu erhalten, bleibt eine zentrale Herausforderung beim AI Alignment. Aktuelle Ansätze setzen auf sequenzielles adversariales Training: Dabei werden adversariale Prompts erzeugt und anschließend Sprachmodelle darauf feinabgestimmt, sich dagegen zu verteidigen. Wir schlagen ein anderes Paradigma vor: Safety Alignment wird als Nicht-Nullsummenspiel zwischen einem Angreifer-LM und einem Verteidiger-LM formuliert, die gemeinsam per Online-Reinforcement-Learning trainiert werden. Jedes LM passt sich kontinuierlich an die sich verändernden Strategien des anderen an, wodurch eine iterative Verbesserung entsteht. Unsere Methode verwendet statt punktweiser Scores ein präferenzbasiertes Belohnungssignal, das aus paarweisen Vergleichen abgeleitet wird, bietet dadurch robustere Supervision und kann Reward Hacking potenziell verringern. Unser RL-Rezept AdvGame verschiebt die Pareto-Front von Sicherheit und Nützlichkeit und erzeugt ein Verteidiger-LM, das zugleich hilfreicher und widerstandsfähiger gegen adversariale Angriffe ist. Darüber hinaus konvergiert das resultierende Angreifer-LM zu einem starken, universell einsetzbaren Red-Teaming-Agenten, der direkt zur Untersuchung beliebiger Zielmodelle eingesetzt werden kann. Der Code ist unter github.com/facebookresearch/advgame verfügbar.

Ensuring the safety of language models (LMs) while maintaining their usefulness remains a critical challenge in AI alignment. Current approaches rely on sequential adversarial training: generating adversarial prompts and fine-tuning LMs to defend against them. We introduce a different paradigm: framing safety alignment as a non-zero-sum game between an Attacker LM and a Defender LM trained jointly via online reinforcement learning. Each LM continuously adapts to the other's evolving strategies, driving iterative improvement. Our method uses a preference-based reward signal derived from pairwise comparisons instead of point-wise scores, providing more robust supervision and potentially reducing reward hacking. Our RL recipe, AdvGame, shifts the Pareto frontier of safety and utility, yielding a Defender LM that is simultaneously more helpful and more resilient to adversarial attacks. In addition, the resulting Attacker LM converges into a strong, general-purpose red-teaming agent that can be directly deployed to probe arbitrary target models. Code at github.com/facebookresearch/advgame.

Paper-Link

https://arxiv.org/abs/2512.20806

Weiterlesen

https://github.com/facebookresearch/advgame

Planen, Beobachten, Wiederherstellen: Ein Benchmark und Architekturen für proaktive prozedurale Unterstützung / Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance

Paper-Einführung

In realen prozeduralen Aufgaben halten sich Nutzer nicht immer strikt an eine vorgegebene Reihenfolge. Daher muss ein Assistenzsystem über die bloße Vorhersage des nächsten Schritts hinaus auch entscheiden können, wann es eingreifen sollte und wie es Anleitung geben muss. Vor diesem Hintergrund konzentriert sich der vorgeschlagene Ansatz auf proaktive prozedurale Unterstützung, die auf Basis egoperspektivischer visueller Informationen, des Dialogverlaufs und des Anfragekontexts die aktuelle Situation interpretiert und in Echtzeit sogar erkennt, ob ein Out-of-Plan-(OOP)-Zustand eingetreten ist. Zentral ist dabei insbesondere, dass die Frage, ob interveniert werden soll, und der Inhalt der Intervention getrennt behandelt werden, weil das Timing der Entscheidung und die Erzeugung des Coachings unterschiedliche Optimierungsziele haben. Wenn Nutzer vom normalen Ablauf abweichen, sollte das System nicht einfach still abwarten, sondern im richtigen Moment kurze und präzise Anweisungen zur Rückkehr geben. Dafür muss es zugleich den prozeduralen Zustand und visuelle Hinweise verfolgen.

Um diese Ziele zu unterstützen, haben die Autoren zunächst mit EgoProactive einen groß angelegten Datensatz aus tragbaren Egoperspektivdaten aufgebaut, der explizite Annotationen zu Planabweichungen sowie Recovery Steps enthält. Dieser Datensatz ist besonders bedeutsam, weil er Umwege und Fehler aus realen Umgebungen lernbar macht und damit die Grenzen bisheriger Ressourcen ergänzt, die nur lineare Schrittfolgen voraussetzen. Darüber hinaus wurde mit Pro²Bench eine Evaluierungsumgebung geschaffen, in der fünf bestehende Benchmarks — Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist und HowTo100M — in ein einheitliches Schema proaktiver Anleitung überführt wurden. Dadurch lassen sich Eingriffszeitpunkt und die Fähigkeit zum Recovery-Coaching über verschiedene Domänen hinweg konsistent vergleichen. Das ist wichtig, weil prozedurales Verständnis damit von einem bloßen Problem der Vorhersage des nächsten Schritts zu einer Frage der Messung tatsächlicher Interaktionsqualität erweitert wird.

Auf Modellseite wird eine entkoppelte Planner-Interaction-Architektur vorgeschlagen, die die für die Planung zuständige und die für die Interaktion zuständige Komponente trennt, sodass Verfolgung des prozeduralen Zustands und Antwortgenerierung nicht nur lose gekoppelt, sondern jeweils für ihre spezifischen Rollen optimiert werden. Zusätzlich kommt eine planverankerte Clip-Auswahl zum Einsatz, die nicht das gesamte Video unterschiedslos verarbeitet, sondern visuelle Abschnitte priorisiert, die direkt für den aktuellen Schritt und die Entscheidung über eine Rückführung relevant sind. Dieser Ansatz reduziert unnötiges Rauschen in langen Egoperspektivvideos und erfasst zugleich klarer die Anzeichen einer Planabweichung und die Hinweise, die für eine Rückkehr erforderlich sind. Anders gesagt richtet diese Architektur sowohl „was gesagt werden soll“ als auch „was betrachtet werden soll“ am Plan aus.

Bemerkenswert ist außerdem, dass über ein Post-Training-Rezept gezeigt wird, dass es sich bei diesem Verfahren nicht um eine spezielle Behandlung für ein einzelnes Modell handelt, sondern um ein allgemeines Verfahren, das auf verschiedene Backbones übertragbar ist. Tatsächlich wurde die Reproduzierbarkeit über Backbone-Grenzen hinweg mit Llama 4 und Qwen-3.6-VL geprüft, was die Portierbarkeit der Methode bestätigt und darauf hindeutet, dass sie sich künftig leicht auf leistungsfähigere multimodale Modelle ausweiten lässt. In den Experimenten zeigte das trainierte Llama-4-System über alle sechs Datensätze hinweg eine höhere objektive Interventionsqualität als starke Baselines wie Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2 und Qwen3 VL 235B. Besonders unter Oracle-Plan-Bedingungen verbesserte sich die Leistung der Recovery-Anleitung deutlich, wenn die Planqualität kontrolliert wurde, was die Validität einer Struktur klar untermauert, die Planverfolgung und Interventionsgenerierung trennt. Insgesamt ist diese Arbeit bedeutsam, weil sie multimodale Assistenten für Nutzer, die prozedurale Aufgaben ausführen, nicht mehr als Systeme zur Schrittvorhersage, sondern als Coaching-Systeme für Echtzeitinterventionen definiert und dabei Daten, Architekturen und Lernstrategien vorlegt, die näher an realen Situationen liegen.

Abstract

Wir stellen uns ein proaktives multimodales Assistenzsystem vor, das Nutzern bei einer prozeduralen Aufgabe in Echtzeit schrittweise Anleitung gibt und autonom entscheidet, wann es unterbrechen und wie es coachen soll. Allerdings wird der Fortschritt durch das Fehlen großskaliger, domänenübergreifender Benchmarks eingeschränkt, die realistische Bedingungen abbilden, insbesondere den häufigen Fall, dass Nutzer von der erwarteten Schrittfolge abweichen. Wir schließen diese Lücke mit vier Beiträgen: (1) Wir veröffentlichen EgoProactive, einen großskaligen Wearable-Egozentrik-Datensatz für proaktive prozedurale Assistenz mit expliziten Out-of-Plan-(OOP)-Annotationen und Wiederherstellungsschritten; (2) wir erweitern fünf etablierte Benchmarks (Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M) unter einem einheitlichen Schema für proaktive Anleitung zu Pro\textsuperscript{2}Bench; (3) wir schlagen eine entkoppelte Planer--Interaktions-Architektur vor, die auf prozeduralen Zustand, visuelle Hinweise und die Einfügung von Recovery-Schritten spezialisiert ist; (4) wir führen ein Post-Training-Rezept ein, das sich über Modellfamilien hinweg übertragen lässt, validiert durch Cross-Backbone-Replikation auf Llama~4 und Qwen-3.6-VL. In umfangreichen Experimenten verbessert unser trainiertes Llama-4-System die objektive Qualität von Eingriffen deutlich gegenüber starken proprietären Baselines (Claude Opus~4.6, Gemini~3.1~Pro, GPT~5.2) und Open-Weight-Baselines (Qwen3~VL~235B) über alle sechs Datensätze hinweg. Oracle-Plan-Experimente zeigen zudem, dass das trainierte Duplex-Modell bei kontrollierter Planqualität hochwertige Anleitung erzeugt und große Verbesserungen bei der Out-of-Plan-(OOP)-Wiederherstellung erzielt.

Paper-Link

https://arxiv.org/abs/2606.04970

Weiterführende Links

https://huggingface.co/datasets/facebook/wearable-ai

FuzzingBrain V2: Ein Multi-Agenten-LLM-System für automatisierte Schwachstellenentdeckung und -reproduktion / FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction

Paper-Einführung

Angesichts der immer gravierenderen Sicherheitsbedrohungen durch Software-Schwachstellen wurden allein im Jahr 2025 rund 50.000 CVEs (Common Vulnerabilities and Exposures) gemeldet. Große Sprachmodelle (LLMs) eröffnen neue Möglichkeiten für die automatisierte Schwachstellenerkennung, doch bestehende LLM-basierte Ansätze haben nach wie vor grundlegende Probleme zu lösen. Konkret weisen von LLMs erzeugte Schwachstellenberichte hohe False-Positive-Raten auf und es fehlt zugleich an reproduzierbaren Verifikationsmechanismen; zudem verwenden sie für die präzise Lokalisierung von Schwachstellen suboptimale Granularitätsstufen wie Funktions- oder Zeilenebene und tun sich schwer mit Schwachstellen, die komplexe funktionsübergreifende Abhängigkeiten und mehrschichtige Auslösebedingungen enthalten. Die in dieser Arbeit vorgestellte FuzzingBrain V2 ist ein Multi-Agenten-LLM-System, das entwickelt wurde, um diese Herausforderungen systematisch zu bewältigen. Es nutzt Googles OSS-Fuzz-Framework als Verifikations-Backend und gewährleistet damit 100%ige Reproduzierbarkeit für alle gemeldeten Schwachstellen. Darüber hinaus führt das System mit dem Suspicious Point eine neue Abstraktion ein, die Kontrollflussinformationen einschließt und eine präzise Lokalisierung von Schwachstellen an einem optimalen Punkt zwischen Funktions- und Zeilenebene ermöglicht. In Kombination mit einer logisch basierten hierarchischen Funktionsanalyse verbessert eine zweistufige Fuzzing-Strategie die Funktionsabdeckung unter Ressourcenbeschränkungen. Zusätzlich stärkt es die Schlussfolgerung bei komplexen Schwachstellen durch statische und dynamische Analysetools auf Basis des Model Context Protocol sowie durch ausgefeiltes Context Engineering. Im C/C++-Datensatz des AIxCC-2025-Finalwettbewerbs erreichte FuzzingBrain V2 eine Erkennungsrate von 90% (36 von 40 Schwachstellen). In realen Produktionsumgebungen entdeckte es insgesamt 41 zuvor unbekannte Schwachstellen in 12 Open-Source-Projekten, von denen 26 bestätigt und 23 behoben wurden; außerdem wurden 2 CVE-Kennungen vergeben. Diese Ergebnisse belegen klar, dass ein Multi-Agenten-Ansatz, der semantische Analysefähigkeiten mit ausführungsgestützter Erkennung kombiniert, nicht nur akademisch überzeugt, sondern die Sicherheit realer Produktionssoftware direkt verbessern kann.

Abstract

Software-Schwachstellen stellen erhebliche Sicherheitsbedrohungen dar; 2025 wurden fast 50.000 CVEs gemeldet. Große Sprachmodelle (LLMs) zeigen zwar Potenzial für die automatisierte Erkennung von Schwachstellen, doch drei zentrale Herausforderungen bleiben bestehen. Erstens leiden von LLMs erzeugte Schwachstellenberichte unter hohen False-Positive-Raten und mangelnder reproduzierbarer Verifikation. Zweitens verwenden bestehende LLM-basierte Ansätze eine nicht optimale Granularität für die Lokalisierung von Schwachstellen. Analysen auf Funktionsebene übersehen Bugs, wenn der Kontext zu umfangreich wird, während Analysen auf Zeilenebene nicht genügend Kontext liefern. Drittens tun sich bestehende Ansätze schwer mit der Schlussfolgerung über Schwachstellen mit komplexen funktionsübergreifenden Abhängigkeiten und Trigger-Bedingungen. Wir stellen FuzzingBrain V2 vor, ein Multi-Agenten-System, das diese Lücken mit vier zentralen Beiträgen schließt: (1) eine vollständig automatisierte Schwachstellenanalyse auf Basis von Googles OSS-Fuzz, die sicherstellt, dass alle gemeldeten Schwachstellen per Fuzzer reproduzierbar sind; (2) Suspicious Point, eine neuartige kontrollflussbasierte Abstraktion für eine präzise Schwachstellenlokalisierung mit optimaler Granularität; (3) eine logikgetriebene hierarchische Funktionsanalyse mit Dual-Layer-Fuzzing, die die Funktionsabdeckung unter Ressourcenbeschränkungen verbessert; (4) MCP-basierte Werkzeuge für statische und dynamische Analyse mit Context Engineering, die das Schlussfolgern über komplexe Schwachstellen verbessern. Auf dem C/C++-Datensatz des AIxCC 2025 Final Competition erreichte FuzzingBrain V2 eine Erkennungsrate von 90 % (36 von 40 Schwachstellen). Im praktischen Einsatz entdeckte FuzzingBrain V2 29 Zero-Day-Schwachstellen in 12 Open-Source-Projekten; alle wurden von den Maintainern bestätigt und behoben, und 2 erhielten eine CVE-ID.

Software-Schwachstellen stellen erhebliche Sicherheitsbedrohungen dar; 2025 wurden fast 50.000 CVEs gemeldet. Große Sprachmodelle (LLMs) zeigen zwar Potenzial für die automatisierte Erkennung von Schwachstellen, doch drei zentrale Herausforderungen bleiben bestehen. Erstens leiden von LLMs erzeugte Schwachstellenberichte unter hohen False-Positive-Raten und mangelnder reproduzierbarer Verifikation. Zweitens verwenden bestehende LLM-basierte Ansätze eine nicht optimale Granularität für die Lokalisierung von Schwachstellen: Analysen auf Funktionsebene übersehen Bugs, wenn der Kontext zu umfangreich wird, während Analysen auf Zeilenebene nicht genügend Kontext liefern. Drittens tun sich bestehende Ansätze schwer mit der Schlussfolgerung über Schwachstellen mit komplexen funktionsübergreifenden Abhängigkeiten und Trigger-Bedingungen. Wir stellen FuzzingBrain V2 vor, ein Multi-Agenten-System, das diese Lücken mit vier zentralen Beiträgen schließt: (1) eine vollständig automatisierte Schwachstellenanalyse auf Basis von Googles OSS-Fuzz, die sicherstellt, dass alle gemeldeten Schwachstellen per Fuzzer reproduzierbar sind; (2) Suspicious Point, eine neuartige kontrollflussbasierte Abstraktion für eine präzise Schwachstellenlokalisierung mit optimaler Granularität; (3) eine logikgetriebene hierarchische Funktionsanalyse mit Dual-Layer-Fuzzing, die die Funktionsabdeckung unter Ressourcenbeschränkungen verbessert; (4) MCP-basierte Werkzeuge für statische und dynamische Analyse mit Context Engineering, die das Schlussfolgern über komplexe Schwachstellen verbessern. Auf dem C/C++-Datensatz des AIxCC 2025 Final Competition erreichte FuzzingBrain V2 eine Erkennungsrate von 90 % (36 von 40 Schwachstellen). Im praktischen Einsatz entdeckte FuzzingBrain V2 29 Zero-Day-Schwachstellen in 12 Open-Source-Projekten; alle wurden von den Maintainern bestätigt und behoben, und 2 erhielten eine CVE-ID.

Paper-Link

https://arxiv.org/abs/2605.21779

⚠️Werbung⚠️: 🔥War dieser von der koreanischen PyTorch User Group 🇰🇷 zusammengestellte Beitrag nützlich für Sie? Wenn Sie Mitglied werden, schicken wir Ihnen wichtige Beiträge per E-Mail 💌! Neue Beitragsbenachrichtigungen können Sie auch über Telegram oder Slack/Discord/Teams/Dooray/GoogleChat usw. erhalten. :D

[2026/06/01 ~ 07] Ausgewählte AI/ML-Papers dieser Woche

PyTorchKR🔥🇰🇷 🤔💭

Zentrale Kurzfassungen der einzelnen Papers

Harness-1: Reinforcement Learning für Suchagenten mit zustandsexternalisierenden Harnesses / Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

Einführung in das Paper

Abstract

Paper-Link

Weiterführende Links

Vergiss Attention: Importance-Aware Attention ist alles, was du brauchst / Forget Attention: Importance-Aware Attention Is All You Need

Paper-Einführung

Abstract

Paper-Link

Brauchen Transformer drei Projektionen? Eine systematische Studie von QKV-Varianten / Do Transformers Need Three Projections? Systematic Study of QKV Variants

Paper-Einführung

Abstract

Paper-Link

Weiterlesen

Agentische Workflows in LLM-Gewichte kompilieren: Nahezu Frontier-Niveau bei zwei Größenordnungen geringeren Kosten / Compiling Agentic Workflows into LLM Weights: Near-Frontier Quality at Two Orders of Magnitude Less Cost

Einführung ins Paper

Abstract

Paper-Link

Weiterführende Lektüre

Agentenkompatibles Kontextmanagement für Long-Horizon-Tasks lernen / Learning Agent-Compatible Context Management for Long-Horizon Tasks

Einführung in die Arbeit

Abstract

Paper-Link

Latent Agents: Ein Post-Training-Verfahren für internalisierte Multi-Agent-Debatten / Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate

Paper-Einführung

Abstract

Abstract

Paper-Link

Weiterführende Lektüre

Sicherheitsausrichtung von Sprachmodellen durch nicht-kooperative Spiele / Safety Alignment of LMs via Non-cooperative Games

Paper-Einführung

Abstract

Paper-Link

Weiterlesen

Planen, Beobachten, Wiederherstellen: Ein Benchmark und Architekturen für proaktive prozedurale Unterstützung / Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance

Paper-Einführung

Abstract

Paper-Link

Weiterführende Links

FuzzingBrain V2: Ein Multi-Agenten-LLM-System für automatisierte Schwachstellenentdeckung und -reproduktion / FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction

Paper-Einführung

Abstract

Paper-Link

Verwandte Beiträge

2 Kommentare