ML-Papers dieser Woche

(discuss.pytorch.kr)

10 Punkte von ninebow 2025-09-28 | Noch keine Kommentare. | Auf WhatsApp teilen

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Integration und Optimierung multimodaler Modelle: Neuere Papers schlagen verschiedene Ansätze vor, um die Leistung Unified Multimodal Models (UMM) zu verbessern. So stellt „Reconstruction Alignment“ eine Methode vor, die durch die Verbindung von Bild und Text das Verständnis und die Generierungsfähigkeit des Modells neu ausrichtet, während „AToken“ einen einheitlichen Tokenizer für Bilder, Videos und 3D-Assets entwickelt, um unterschiedliche visuelle Eingaben zu verarbeiten. Diese Arbeiten legen die Grundlage für die Weiterentwicklung multimodaler AI-Systeme.

2️⃣ Entwurf agentenzentrierter Datensysteme: Die Papers „Supporting Our AI Overlords“ und „Scaling Agents via Continual Pre-training“ argumentieren, dass Large Language Model (LLM)-Agenten in Datensystemen eine wichtige Rolle spielen werden. Sie betonen, dass Agenten durch Interaktionen in unterschiedlichen Umgebungen lernen müssen, um die Fähigkeiten zu entwickeln, die sie für Datenmanipulation und -analyse benötigen. Das eröffnet neue Forschungsmöglichkeiten für den Entwurf agentenzentrierter Datensystem-Architekturen.

3️⃣ Autonomes Lernen und sich weiterentwickelnde Modelle: Das Paper „R-Zero“ hebt die Notwendigkeit von Modellen hervor, die selbstständig Daten erzeugen und lernen. Während bestehende Methoden auf von Menschen kuratierte Aufgaben und Labels angewiesen sind, erzeugt R-Zero über zwei Modelle, die selbst Aufgaben vorschlagen und lösen, ein sich selbst weiterentwickelndes Lerncurriculum. Dieser Ansatz dürfte eine wichtige Rolle dabei spielen, dass sich AI-Systeme zu Fähigkeiten entwickeln, die menschliche Intelligenz übertreffen.

Reconstruction Alignment verbessert Unified Multimodal Models / Reconstruction Alignment Improves Unified Multimodal Models

Paper-Einführung

Unified Multimodal Models (UMMs) sind ein innovativer Ansatz, der durch die Integration von visuellem Verständnis und Generierung in der Lage ist, vielfältige Aufgaben auszuführen. Bestehende Trainingsmethoden stützen sich jedoch auf Bild-Text-Paare, wodurch Captions häufig detaillierte visuelle Informationen übersehen und die Leistung sinkt. Um diese Einschränkung zu überwinden, wurde Reconstruction Alignment (RecA) vorgeschlagen. RecA ist eine ressourceneffiziente Post-Training-Methode, die Embeddings eines Visual-Understanding-Encoders als dichte „Text-Prompts“ nutzt und so auch ohne Captions reichhaltige Supervisionssignale bereitstellt.

Der Kern von RecA liegt in der Optimierung des UMMs, das Eingabebild unter Konditionierung auf seine eigenen Visual-Understanding-Embeddings zu rekonstruieren. In diesem Prozess werden Verständnis und Generierungsfähigkeit des Modells mithilfe eines selbstüberwachten Rekonstruktionsverlusts aufeinander ausgerichtet, sodass visuelle Informationen effektiver genutzt werden können. RecA ist auf verschiedene Architekturen anwendbar, darunter autoregressive, maskiert-autoregressive und diffusionsbasierte UMMs, und zeigt konsistent Verbesserungen bei Generierungs- und Editing-Fidelity.

Die experimentellen Ergebnisse zeigen, dass sich nach Anwendung von RecA die Bildgenerierungsleistung auf GenEval von 0.73 auf 0.90 und auf DPGBench von 80.93 auf 88.15 verbessert hat. Auch in den Bildbearbeitungs-Benchmarks wurden Verbesserungen erreicht: auf ImgEdit von 3.38 auf 3.75 und auf GEdit von 6.94 auf 7.25. Diese Ergebnisse zeigen, dass RecA bestehende große Open-Source-Modelle übertrifft und breit auf unterschiedliche UMM-Architekturen angewendet werden kann.

RecA zeigt das Potenzial, sich als ressourceneffiziente Post-Training-Strategie zu etablieren, die Verständnis und Generierungsfähigkeit von UMMs wirksam aufeinander abstimmt. In künftiger Forschung wird es wichtig sein, den Anwendungsbereich von RecA zu erweitern und die Leistung bei anderen multimodalen Aufgaben zu bewerten. Solche Arbeiten dürften zur Weiterentwicklung multimodaler Modelle beitragen.

Paper-Abstract

Unified Multimodal Models (UMM) integrieren visuelles Verständnis und Generierung in einer einzelnen Architektur. Herkömmliche Trainingsverfahren stützen sich jedoch in der Regel auf Bild-Text-Paare (oder Sequenzen), deren Captions meist spärlich sind und feingranulare visuelle Details übersehen – selbst dann, wenn sie Hunderte von Wörtern verwenden, um ein einfaches Bild zu beschreiben. Wir stellen Reconstruction Alignment (RecA) vor, eine ressourceneffiziente Post-Training-Methode, die Embeddings eines Visual-Understanding-Encoders als dichte „Text-Prompts“ nutzt und dadurch ohne Captions reichhaltige Supervision bietet. Konkret konditioniert RecA ein UMM auf seine eigenen Visual-Understanding-Embeddings und optimiert es mithilfe eines selbstüberwachten Rekonstruktionsverlusts darauf, das Eingabebild zu rekonstruieren, wodurch Verständnis und Generierung neu ausgerichtet werden. Trotz seiner Einfachheit ist RecA breit anwendbar und verbessert über autoregressive, maskiert-autoregressive und diffusionsbasierte UMMs hinweg konsistent die Fidelity von Generierung und Bearbeitung. Mit nur 27 GPU-Stunden verbessert Post-Training mit RecA die Bildgenerierungsleistung deutlich auf GenEval (0.73$\rightarrow$0.90) und DPGBench (80.93$\rightarrow$88.15) und steigert zugleich die Ergebnisse in Editing-Benchmarks (ImgEdit 3.38$\rightarrow$3.75, GEdit 6.94$\rightarrow$7.25). Besonders bemerkenswert ist, dass RecA deutlich größere Open-Source-Modelle übertrifft und breit über diverse UMM-Architekturen hinweg einsetzbar ist, wodurch es sich als effiziente und allgemeine Post-Training-Alignment-Strategie für UMMs etabliert.

> Unified multimodal models (UMMs) unify visual understanding and generation within a single architecture. However, conventional training relies on image-text pairs (or sequences) whose captions are typically sparse and miss fine-grained visual details--even when they use hundreds of words to describe a simple image. We introduce Reconstruction Alignment (RecA), a resource-efficient post-training method that leverages visual understanding encoder embeddings as dense "text prompts," providing rich supervision without captions. Concretely, RecA conditions a UMM on its own visual understanding embeddings and optimizes it to reconstruct the input image with a self-supervised reconstruction loss, thereby realigning understanding and generation. Despite its simplicity, RecA is broadly applicable: across autoregressive, masked-autoregressive, and diffusion-based UMMs, it consistently improves generation and editing fidelity. With only 27 GPU-hours, post-training with RecA substantially improves image generation performance on GenEval (0.73$\rightarrow$0.90) and DPGBench (80.93$\rightarrow$88.15), while also boosting editing benchmarks (ImgEdit 3.38$\rightarrow$3.75, GEdit 6.94$\rightarrow$7.25). Notably, RecA surpasses much larger open-source models and applies broadly across diverse UMM architectures, establishing it as an efficient and general post-training alignment strategy for UMMs

Paper-Link

https://arxiv.org/abs/2509.07295

Unterstützung unserer AI-Oberherren: Datensysteme agent-first neu gestalten / Supporting Our AI Overlords: Redesigning Data Systems to be Agent-First

Paper-Einführung

Es wird erwartet, dass die Art und Weise, wie Large Language Model (LLM)-Agenten Daten manipulieren und analysieren, tiefgreifende Veränderungen für die Zukunft von Datensystemen mit sich bringen wird. Diese Agenten erledigen Aufgaben durch einen Prozess der agentic speculation, bei dem sie auf Anfrage der Nutzer mit hoher Geschwindigkeit Möglichkeiten erkunden und Lösungen vorschlagen. Das große Aufkommen und die Ineffizienz von agentic speculation können jedoch für heutige Datensysteme zur Herausforderung werden. Daher müssen sich Datensysteme weiterentwickeln, um solche agentischen Workloads nativ zu unterstützen.

Diese Studie zeigt neue Forschungschancen für eine neuartige agent-first-Architektur von Datensystemen auf, indem sie die Eigenschaften von agentic speculation nutzt: Skalierung, Heterogenität, Redundanz und Steuerbarkeit. So werden innovative Ansätze wie neue Query-Schnittstellen, Query-Processing-Techniken und agentic memory stores untersucht. Insbesondere könnte dies neue Produktivitätspotenziale für Datensysteme eröffnen, wenn Agenten sich als zentraler Mechanismus für die Interaktion mit Daten etablieren.

Anhand von Fallstudien wurden die Eigenschaften agentischer Workloads analysiert und daraus Optimierungsmöglichkeiten identifiziert. In der ersten Studie wurde mithilfe des BIRD-Datensatzes untersucht, wie LLMs ihre Genauigkeit durch eine höhere Anzahl von Anfragen verbessern können, und in der zweiten Studie wurde eine komplexe Aufgabe bearbeitet, bei der Informationen aus zwei Datenbanken zusammengeführt wurden. Diese Ergebnisse zeigen, dass agentic speculation das Potenzial hat, die Effizienz von Datensystemen zu steigern.

Abschließend wurden ein agentic memory store und ein neues Transaktions-Framework vorgeschlagen, um Wege zur Bewältigung von Redundanz und Heterogenität zu finden, die in der Explorationsphase von agentic speculation entstehen. Dieser Ansatz unterstreicht die Notwendigkeit, Datensysteme agentenzentriert neu zu entwerfen, und präsentiert eine neue Vision für künftige Forschung.

Paper-Abstract

Large Language Model (LLM)-Agenten, die im Auftrag ihrer Nutzer Daten manipulieren und analysieren, dürften in Zukunft zum dominierenden Workload für Datensysteme werden. Bei der Arbeit mit Daten nutzen Agenten einen hochdurchsatzfähigen Prozess zur Exploration und Ausarbeitung von Lösungsansätzen für eine gegebene Aufgabe, den wir als agentic speculation bezeichnen. Das enorme Volumen und die Ineffizienzen von agentic speculation können heutige Datensysteme vor Herausforderungen stellen. Wir argumentieren, dass sich Datensysteme anpassen müssen, um agentische Workloads nativer zu unterstützen. Wir nutzen die von uns identifizierten Eigenschaften von agentic speculation – Skalierung, Heterogenität, Redundanz und Steuerbarkeit –, um eine Reihe neuer Forschungschancen für eine neue agent-first-Architektur von Datensystemen aufzuzeigen, von neuen Query-Schnittstellen über neue Query-Processing-Techniken bis hin zu neuen agentic memory stores.

> Large Language Model (LLM) agents, acting on their users' behalf to manipulate and analyze data, are likely to become the dominant workload for data systems in the future. When working with data, agents employ a high-throughput process of exploration and solution formulation for the given task, one we call agentic speculation. The sheer volume and inefficiencies of agentic speculation can pose challenges for present-day data systems. We argue that data systems need to adapt to more natively support agentic workloads. We take advantage of the characteristics of agentic speculation that we identify, i.e., scale, heterogeneity, redundancy, and steerability - to outline a number of new research opportunities for a new agent-first data systems architecture, ranging from new query interfaces, to new query processing techniques, to new agentic memory stores.

Paper-Link

https://arxiv.org/abs/2509.00997

AToken: Ein einheitlicher Tokenizer für Vision / AToken: A Unified Tokenizer for Vision

Paper-Einführung

AToken ist der erste einheitliche visuelle Tokenizer, der gleichzeitig hochpräzise Rekonstruktion und semantisches Verständnis für Bilder, Videos und 3D-Assets erreicht. Während bestehende Tokenizer bei einer einzelnen Modalität entweder auf Rekonstruktion oder auf Verständnis spezialisiert sind, kodiert AToken verschiedene visuelle Eingaben in einen gemeinsamen 4D-Latenzraum und vereint damit beide Aufgaben und Modalitäten in einem Framework. Das System führt eine reine Transformer-Architektur mit 4D Rotary Positional Embeddings ein, um visuelle Eingaben beliebiger Auflösung und zeitlicher Länge zu verarbeiten. Um stabiles Training sicherzustellen, schlägt AToken ein adversarial-freies Trainingsziel vor, das Perceptual Loss und Gram-Matrix-Loss kombiniert, und erreicht damit eine Rekonstruktionsqualität auf dem neuesten Stand der Technik. Durch ein schrittweises Lern-Curriculum erweitert sich AToken nach und nach von Einzelbildern auf Videos und 3D und unterstützt sowohl kontinuierliche als auch diskrete latente Tokens. AToken erreicht 0,21 rFID und 82,2 % ImageNet-Genauigkeit für Bilder, 3,01 rFVD und 32,6 % MSRVTT-Retrieval-Leistung für Videos sowie 28,19 PSNR und 90,9 % Klassifikationsgenauigkeit für 3D. In Downstream-Anwendungen ermöglicht AToken visuelle Generierungsaufgaben wie Bildgenerierung, Text-zu-Video-Generierung und Bild-zu-3D-Synthese ebenso wie Verständnisaufgaben mit multimodalen Large Language Models (LLMs) und zeigt auf allen Benchmarks wettbewerbsfähige Leistung. Diese Ergebnisse deuten auf das Potenzial von multimodalen KI-Systemen der nächsten Generation hin, die auf einheitlicher visueller Tokenisierung basieren.

Paper-Abstract

Wir stellen AToken vor, den ersten einheitlichen visuellen Tokenizer, der sowohl hochpräzise Rekonstruktion als auch semantisches Verständnis für Bilder, Videos und 3D-Assets erreicht. Im Gegensatz zu bestehenden Tokenizern, die bei einer einzelnen Modalität auf Rekonstruktion oder Verständnis spezialisiert sind, kodiert AToken diese verschiedenen visuellen Eingaben in einen gemeinsamen 4D-Latenzraum und vereint damit beide Aufgaben und Modalitäten in einem einzigen Framework. Konkret führen wir eine reine Transformer-Architektur mit 4D Rotary Positional Embeddings ein, um visuelle Eingaben mit beliebiger Auflösung und zeitlicher Dauer zu verarbeiten. Um stabiles Training zu gewährleisten, führen wir ein adversarial-freies Trainingsziel ein, das Perceptual Loss und Gram-Matrix-Loss kombiniert und damit Rekonstruktionsqualität auf dem neuesten Stand der Technik erreicht. Mithilfe eines schrittweisen Lern-Curriculums skaliert AToken schrittweise von Einzelbildern auf Videos und 3D und unterstützt sowohl kontinuierliche als auch diskrete latente Tokens. AToken erreicht 0,21 rFID und 82,2 % ImageNet-Genauigkeit für Bilder, 3,01 rFVD und 32,6 % MSRVTT-Retrieval-Rate für Videos sowie 28,19 PSNR und 90,9 % Klassifikationsgenauigkeit für 3D. In Downstream-Anwendungen ermöglicht AToken sowohl visuelle Generierungsaufgaben (z. B. Bildgenerierung, Text-zu-Video-Generierung, Bild-zu-3D-Synthese mit kontinuierlichen und diskreten Tokens) als auch Verständnisaufgaben (z. B. multimodale Large Language Models) und erreicht auf allen Benchmarks wettbewerbsfähige Leistung. Diese Ergebnisse liefern Einblicke in multimodale KI-Systeme der nächsten Generation, die auf einheitlicher visueller Tokenisierung aufbauen.

We present AToken, den ersten einheitlichen visuellen Tokenizer, der sowohl hochgradig originalgetreue Rekonstruktion als auch semantisches Verständnis für Bilder, Videos und 3D-Assets erreicht. Im Gegensatz zu bestehenden Tokenizern, die sich bei einzelnen Modalitäten entweder auf Rekonstruktion oder auf Verständnis spezialisieren, kodiert AToken diese unterschiedlichen visuellen Eingaben in einen gemeinsamen 4D-Latenzraum und vereint damit beide Aufgaben und Modalitäten in einem einzigen Framework. Konkret führen wir eine reine Transformer-Architektur mit 4D-Rotary-Position-Embeddings ein, um visuelle Eingaben mit beliebigen Auflösungen und zeitlichen Längen zu verarbeiten. Um ein stabiles Training sicherzustellen, führen wir ein adversarial-freies Trainingsziel ein, das Perceptual- und Gram-Matrix-Losses kombiniert und so eine Rekonstruktionsqualität auf State-of-the-Art-Niveau erreicht. Mithilfe eines progressiven Trainingscurriculums erweitert sich AToken schrittweise von einzelnen Bildern auf Videos und 3D und unterstützt sowohl kontinuierliche als auch diskrete latente Tokens. AToken erreicht 0,21 rFID bei 82,2 % ImageNet-Accuracy für Bilder, 3,01 rFVD bei 32,6 % MSRVTT-Retrieval für Videos sowie 28,19 PSNR bei 90,9 % Klassifikationsgenauigkeit für 3D. In Downstream-Anwendungen ermöglicht AToken sowohl visuelle Generierungsaufgaben (z. B. Bildgenerierung mit kontinuierlichen und diskreten Tokens, Text-zu-Video-Generierung, Bild-zu-3D-Synthese) als auch Verständnisaufgaben (z. B. multimodale LLMs) und erzielt dabei auf allen Benchmarks konkurrenzfähige Leistung. Diese Ergebnisse geben Hinweise auf multimodale KI-Systeme der nächsten Generation, die auf einheitlicher visueller Tokenisierung aufbauen.

Paper-Link

https://arxiv.org/abs/2509.14476

Verbesserung allgemeiner Agentenintelligenz durch Environment Scaling / Towards General Agentic Intelligence via Environment Scaling

Paper-Einführung

Fortgeschrittene Agentenintelligenz ist zu einem wesentlichen Baustein geworden, um Large Language Models (LLMs) effektiv in realen Anwendungen einzusetzen. Verschiedene reale APIs erfordern eine präzise und robuste Function-Calling-Intelligenz, was bedeutet, dass Agenten diese Fähigkeiten durch Interaktionen in vielfältigen Umgebungen entwickeln müssen. Diese Studie schlägt vor, Umgebungen als Schritt zur Verbesserung allgemeiner Agentenintelligenz zu skalieren, um damit zwei zentrale Herausforderungen anzugehen. Erstens: wie sich Umgebungen prinzipientreu skalieren lassen. Zweitens: wie sich Agentenfähigkeiten durch Interaktionen mit solchen Umgebungen effektiv erlernen lassen.

Um diese Probleme zu lösen, entwarf das Forschungsteam ein skalierbares Framework, das heterogene Umgebungen automatisch aufbaut. Dieses Framework konzentriert sich darauf, vollständig simulierte Umgebungen systematisch zu skalieren, um den Raum möglicher Function-Calling-Szenarien zu erweitern. Zusätzlich wurde eine zweistufige Agenten-Finetuning-Strategie eingeführt, bei der Agenten in der ersten Phase grundlegende agentische Fähigkeiten erhalten und in der zweiten Phase auf domänenspezifische Kontexte spezialisiert werden.

Die in dieser Studie vorgeschlagene Methodik zum Aufbau und zur Skalierung von Umgebungen umfasst eine systematische Pipeline, die mehr als 30.000 APIs sammelt und über die Modellierung von Tool-Abhängigkeitsgraphen Domänenpartitionen und Verteilungen ableitet. Dadurch können Agenten Umgebungszustände initialisieren und gültige Sequenzen erzeugen, indem sie logisch konsistente Tool-Sequenzen aus domänenspezifischen Tool-Graphen sampeln. Dieser Prozess gewährleistet Zustandskonsistenz auf Datenbankebene und eine exakte Übereinstimmung der Tool-Sequenzen, was die Function-Calling-Fähigkeiten der Agenten deutlich verbessert.

Insgesamt verbessert das in dieser Studie entwickelte Modell AgentScaler die Function-Calling-Fähigkeiten von Agenten erheblich und dürfte damit einen wichtigen Beitrag zur weiteren Entwicklung agentischer Intelligenz leisten. Dieser Ansatz unterstützt Agenten dabei, in unterschiedlichen Umgebungen effektiv zu arbeiten, und erweitert zugleich die praktischen Einsatzmöglichkeiten agentischer Intelligenz.

Paper-Abstract

Fortgeschrittene Agentenintelligenz ist eine Voraussetzung für den Einsatz großer Sprachmodelle in realen Anwendungen. Verschiedene reale APIs erfordern präzise und robuste Function-Calling-Intelligenz, was bedeutet, dass Agenten diese Fähigkeiten durch Interaktionen in vielfältigen Umgebungen entwickeln müssen. Die Bandbreite der Function-Calling-Fähigkeiten ist eng mit der Vielfalt der Umgebungen verknüpft, in denen ein Agent trainiert wird. In dieser Arbeit skalieren wir Umgebungen als Schritt zur Verbesserung allgemeiner Agentenintelligenz. Daraus ergeben sich zwei zentrale Herausforderungen: (i) wie Umgebungen prinzipientreu skaliert werden können und (ii) wie Agentenfähigkeiten aus Erfahrungen, die durch Interaktionen mit diesen Umgebungen gewonnen werden, effektiv trainiert werden können. Um dies zu lösen, entwerfen wir ein skalierbares Framework, das heterogene Umgebungen automatisch konstruiert und den Raum möglicher Function-Calling-Szenarien systematisch erweitert. Darüber hinaus wenden wir eine zweistufige Agenten-Finetuning-Strategie an, die Agenten zunächst grundlegende agentische Fähigkeiten vermittelt und sie anschließend auf domänenspezifische Kontexte spezialisiert. Umfangreiche Experimente auf den Agenten-Benchmarks tau-bench, tau2-Bench und ACEBench zeigen, dass unser trainiertes Modell AgentScaler die Function-Calling-Fähigkeiten von Modellen deutlich verbessert.

Advanced agentic intelligence ist eine Voraussetzung dafür, Large Language Models in praktischen Anwendungen der realen Welt einzusetzen. Unterschiedliche reale APIs erfordern präzise und robuste Function-Calling-Intelligenz, wofür Agenten diese Fähigkeiten durch Interaktion in vielfältigen Umgebungen entwickeln müssen. Die Breite der Function-Calling-Kompetenz ist eng mit der Vielfalt der Umgebungen verknüpft, in denen Agenten trainiert werden. In dieser Arbeit skalieren wir Umgebungen als einen Schritt hin zu fortgeschrittener allgemeiner agentischer Intelligenz. Daraus ergeben sich zwei zentrale Herausforderungen: (i) wie sich Umgebungen auf prinzipiengeleitete Weise skalieren lassen und (ii) wie sich agentische Fähigkeiten aus Erfahrungen, die durch Interaktionen mit diesen Umgebungen gewonnen werden, effektiv trainieren lassen. Um diese anzugehen, entwerfen wir ein skalierbares Framework, das automatisch heterogene Umgebungen konstruiert, die vollständig simuliert sind, und den Raum der Function-Calling-Szenarien systematisch erweitert. Darüber hinaus passen wir eine zweiphasige Fine-Tuning-Strategie für Agenten an: Zuerst statten wir Agenten mit grundlegenden agentischen Fähigkeiten aus, anschließend spezialisieren wir sie für domänenspezifische Kontexte. Umfangreiche Experimente auf agentischen Benchmarks, tau-bench, tau2-Bench und ACEBench zeigen, dass unser trainiertes Modell AgentScaler die Function-Calling-Fähigkeit von Modellen deutlich verbessert.

Paper-Link

https://arxiv.org/abs/2509.13311

Weiterführende Lektüre

https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

Ist In-Context Learning Lernen? / Is In-Context Learning Learning?

Paper-Vorstellung

In-Context Learning (ICL) zeigt, dass autoregressive Modelle auch ohne zusätzliches Training in der Lage sind, durch die Vorhersage des nächsten Tokens verschiedene Aufgaben zu lösen. Dieser Ansatz hat zu der Behauptung geführt, dass Modelle mit nur wenigen Beispielen auch zuvor ungesehene Aufgaben lösen können. Allerdings ist umstritten, ob ICL tatsächlich Lernen darstellt. Diese Studie argumentiert, dass ICL mathematisch gesehen Lernen ist, betont jedoch zugleich, dass empirische Analysen notwendig sind, um seine Eigenschaften vollständig zu verstehen.

Mithilfe einer groß angelegten Analyse wird die Leistung von ICL bewertet, wobei Memorierung, Vortraining, Verteilungsverschiebungen sowie die Sensitivität gegenüber Prompt-Stil und Formulierung berücksichtigt werden. Die Ergebnisse zeigen, dass ICL als effektives Lernparadigma funktioniert, bei der Generalisierung auf ungesehene Aufgaben jedoch Grenzen aufweist. Insbesondere wird die Genauigkeit mit zunehmender Anzahl von Beispielen unempfindlicher gegenüber der Verteilung der Beispiele, dem Modell und dem Prompt-Stil; stattdessen zeigt sich eine Tendenz, Muster aus der Regelmäßigkeit des Prompts abzuleiten. Dies führte insbesondere bei bestimmten Prompt-Stilen wie Chain-of-Thought zu Verteilungssensitivität.

Die Genauigkeitsunterschiede bei formal ähnlichen Aufgaben legen nahe, dass die ad-hoc-Kodierung autoregressiver Modelle kein starker Lernmechanismus ist und nur begrenzte allgemeine Generalisierbarkeit besitzt. Diese Studie zeigt, dass ICL zwar als Lernmechanismus funktioniert, zugleich aber seine Grenzen und sein Verhalten klar offenlegt und dass die Leistung von LLMs (Large Language Models) je nach Datenverteilung variieren kann. Diese Ergebnisse leisten einen wichtigen Beitrag zur Erforschung des Potenzials von ICL und dürften künftige Arbeiten dabei unterstützen, seine Eigenschaften und Grenzen besser zu verstehen.

Abstract

In-Context Learning (ICL) ermöglicht es einigen autoregressiven Modellen, Aufgaben über die Vorhersage des nächsten Tokens zu lösen, ohne weiteres Training zu benötigen. Dies hat zu Behauptungen über die Fähigkeit dieser Modelle geführt, ungesehene Aufgaben mit nur wenigen Shots (Beispielen) im Prompt zu lösen (zu lernen). Allerdings bedeutet Schlussfolgern nicht immer Lernen, da ICL eine gegebene Beobachtung nicht explizit kodiert. Stattdessen stützen sich die Modelle auf ihr Vorwissen und auf die gegebenen Beispiele, falls vorhanden. Wir argumentieren, dass ICL mathematisch betrachtet Lernen darstellt, seine vollständige Charakterisierung jedoch empirische Arbeit erfordert. Anschließend führen wir eine groß angelegte Analyse von ICL durch, bei der wir Memorierung, Vortraining, Verteilungsverschiebungen sowie Prompt-Stil und Formulierung herausrechnen oder berücksichtigen. Wir stellen fest, dass ICL ein effektives Lernparadigma ist, jedoch in seiner Fähigkeit, ungesehene Aufgaben zu lernen und darauf zu generalisieren, begrenzt ist. Wir beobachten, dass die Genauigkeit in dem Grenzfall, in dem Beispiele zahlreicher werden, unempfindlich gegenüber der Verteilung der Beispiele, dem Modell, dem Prompt-Stil und den sprachlichen Merkmalen der Eingabe wird. Stattdessen leitet es Muster aus Regelmäßigkeiten im Prompt ab, was zu Verteilungssensitivität führt, insbesondere bei Prompt-Stilen wie Chain-of-Thought. Angesichts der unterschiedlichen Genauigkeiten bei formal ähnlichen Aufgaben schließen wir, dass die ad-hoc-Kodierung der Autoregression kein robuster Mechanismus ist und nur begrenzte universelle Generalisierbarkeit nahelegt.

In-context learning (ICL) ermöglicht es einigen autoregressiven Modellen, Aufgaben über die Vorhersage des nächsten Tokens zu lösen, ohne weiteres Training zu benötigen. Dies hat zu Behauptungen über die Fähigkeit dieser Modelle geführt, ungesehene Aufgaben mit nur wenigen Shots (Beispielen) im Prompt zu lösen (zu lernen). Allerdings bedeutet Schlussfolgern nicht immer Lernen, da ICL eine gegebene Beobachtung nicht explizit kodiert. Stattdessen stützen sich die Modelle auf ihr Vorwissen und auf die gegebenen Beispiele, falls vorhanden. Wir argumentieren, dass ICL mathematisch betrachtet Lernen darstellt, seine vollständige Charakterisierung jedoch empirische Arbeit erfordert. Anschließend führen wir eine groß angelegte Analyse von ICL durch, bei der wir Memorierung, Vortraining, Verteilungsverschiebungen sowie Prompt-Stil und Formulierung herausrechnen oder berücksichtigen. Wir stellen fest, dass ICL ein effektives Lernparadigma ist, jedoch in seiner Fähigkeit, ungesehene Aufgaben zu lernen und darauf zu generalisieren, begrenzt ist. Wir beobachten, dass die Genauigkeit in dem Grenzfall, in dem Beispiele zahlreicher werden, unempfindlich gegenüber der Verteilung der Beispiele, dem Modell, dem Prompt-Stil und den sprachlichen Merkmalen der Eingabe wird. Stattdessen leitet es Muster aus Regelmäßigkeiten im Prompt ab, was zu Verteilungssensitivität führt, insbesondere bei Prompt-Stilen wie Chain-of-Thought. Angesichts der unterschiedlichen Genauigkeiten bei formal ähnlichen Aufgaben schließen wir, dass die ad-hoc-Kodierung der Autoregression kein robuster Mechanismus ist und nur begrenzte universelle Generalisierbarkeit nahelegt.

Paper-Link

https://arxiv.org/abs/2509.10414

DeepDive: Fortschritte bei Deep-Search-Agenten mit Knowledge Graphs und Multi-Turn-RL / DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL

Paper-Einführung

DeepDive schlägt einen innovativen Ansatz vor, der Knowledge Graphs (KG) und Multi-Turn Reinforcement Learning (RL) nutzt, um große Sprachmodelle (LLMs) zu leistungsfähigen Deep-Search-Agenten weiterzuentwickeln. Bestehende LLMs haben bei der Integration mit Browsing-Tools Probleme, weil ihnen langfristige Reasoning-Fähigkeiten fehlen und ausreichend überwachte Daten zur Lösung komplexer Fragen nicht vorhanden sind. Dadurch bleibt ihre Leistung gering. Um diese Probleme zu lösen, führt DeepDive zwei zentrale Techniken ein.

Erstens wurde eine Methode entwickelt, die mithilfe von KGs automatisch komplexe und schwer auffindbare Fragen synthetisiert. KGs stellen Entitäten und ihre Beziehungen strukturiert dar und schaffen so eine Umgebung, in der Agenten langfristiges Reasoning durchführen können. In diesem Prozess werden durch Random Walks Komplexität und Mehrdeutigkeit der Fragen erhöht, während LLMs genutzt werden, um anspruchsvolle Frage-Antwort-Paare zu erzeugen. Diese automatisierte Datensynthese liefert hochwertige Daten, die für das Training von Deep-Search-Agenten benötigt werden.

Zweitens setzt DeepDive End-to-End-Multi-Turn-RL ein, um die langfristigen Reasoning-Fähigkeiten von LLMs zu verbessern. Diese Methode umfasst eine strenge Belohnungsstruktur, die dem Agenten schrittweise beibringt, wie er sucht, wonach er suchen soll und wann die Suche beendet werden muss. Multi-Turn-RL unterstützt den Agenten dabei, durch iteratives Reasoning und Tool-Aufrufe zur endgültigen Antwort zu gelangen, was maßgeblich zur Verbesserung der Deep-Search-Fähigkeiten beiträgt.

Die experimentellen Ergebnisse von DeepDive zeigen ein neues wettbewerbsfähiges Open-Source-Ergebnis auf BrowseComp und übertreffen mehrere bestehende Modelle. Die Studie leistet damit einen wichtigen Beitrag zur Verbesserung der Leistung von Deep-Search-Agenten, erhöht mit dem veröffentlichten Datensatz und Code die Reproduzierbarkeit und liefert eine Grundlage für künftige Forschung. DeepDive präsentiert einen neuen Ansatz zur Lösung komplexer Informationssuchprobleme und erweitert die Einsatzmöglichkeiten von LLMs noch weiter.

Abstract

Das Hinzufügen von Browsing-Tools zu großen Sprachmodellen (LLMs) verbessert ihr Potenzial als Deep-Search-Agenten zur Lösung komplexer realer Aufgaben erheblich. Offene LLMs schneiden in solchen Umgebungen jedoch weiterhin schlecht ab, da ihre Long-Horizon-Reasoning-Fähigkeiten mit Browsing-Tools begrenzt sind und ausreichend schwierige überwachte Daten fehlen. Um diese Herausforderungen zu adressieren, schlagen wir DeepDive vor, um Deep-Search-Agenten weiterzuentwickeln. Erstens schlagen wir eine Strategie vor, um aus offenen Knowledge Graphs automatisch komplexe, schwierige und schwer auffindbare Fragen zu synthetisieren. Zweitens wenden wir End-to-End-Multi-Turn-Reinforcement-Learning (RL) an, um das Long-Horizon-Reasoning von LLMs mit Deep Search zu verbessern. Experimente zeigen, dass DeepDive-32B auf BrowseComp ein neues wettbewerbsfähiges Open-Source-Ergebnis erzielt und WebSailor, DeepSeek-R1-Browse und Search-o1 übertrifft. Wir zeigen, dass Multi-Turn-RL-Training die Deep-Search-Fähigkeit verbessert und erheblich zu Leistungssteigerungen über mehrere Benchmarks hinweg beiträgt. Außerdem beobachten wir, dass DeepDive Test-Time-Scaling von Tool-Aufrufen und paralleles Sampling ermöglicht. Alle Datensätze, Modelle und der Code sind öffentlich verfügbar unter https://github.com/THUDM/DeepDive.

Augmenting large language models (LLMs) with browsing tools substantially improves their potential as deep search agents to solve complex, real-world tasks. Yet, open LLMs still perform poorly in such settings due to limited long-horizon reasoning capacity with browsing tools and the lack of sufficiently difficult supervised data. To address these challenges, we present DeepDive to advance deep search agents. First, we propose a strategy to automatically synthesize complex, difficult, and hard-to-find questions from open knowledge graphs. Second, we apply end-to-end multi-turn reinforcement learning (RL) to enhance LLMs' long-horizon reasoning with deep search. Experiments show that DeepDive-32B achieves a new open-source competitive result on BrowseComp, outperforming WebSailor, DeepSeek-R1-Browse, and Search-o1. We demonstrate that multi-turn RL training improves deep search ability and significantly contributes to the performance improvements across multiple benchmarks. We observe that DeepDive enables test-time scaling of tool calls and parallel sampling. All datasets, models, and code are publicly available at https://github.com/THUDM/DeepDive.

Paper-Link

https://arxiv.org/abs/2509.10446

Weiterlesen

https://github.com/THUDM/DeepDive

Eine Übersicht zu Video Temporal Grounding mit multimodalen großen Sprachmodellen / A Survey on Video Temporal Grounding with Multimodal Large Language Model

Paper-Einführung

Das Feld Video Temporal Grounding (VTG) spielt eine wichtige Rolle bei der Identifikation und dem Verständnis spezifischer zeitlicher Ereignisse in Videos, und seine Leistung verbessert sich in letzter Zeit durch die Fortschritte bei Multimodal Large Language Models (MLLMs) erheblich. Auf Grundlage ihrer herausragenden multimodalen Verständnis- und Reasoning-Fähigkeiten zeigen MLLMs in VTG-Ansätzen Ergebnisse, die traditionelle Fine-Tuning-Methoden übertreffen. Diese Studie analysiert die aktuellen Forschungstrends im Bereich VTG-MLLMs systematisch anhand einer umfassenden Übersicht und erläutert sie entlang von drei Dimensionen: der funktionalen Rolle von MLLMs, den Lernparadigmen und den Techniken zur Verarbeitung von Video-Features.

MLLMs übernehmen in VTG zwei zentrale Rollen. Erstens unterstützen sie als Enabler die Interaktion zwischen Video und Sprache, zweitens fungieren sie als Executor, also als Modell, das die eigentliche VTG-Aufgabe ausführt. Durch diese Rollen maximieren verschiedene Modelle ihre Leistung bei VTG-Aufgaben. Die Lernparadigmen lassen sich in Pretraining, Fine-Tuning und No-Training unterteilen, wobei jedes Paradigma einen wichtigen Einfluss auf die Leistung und Generalisierungsfähigkeit des Modells hat. Insbesondere das No-Training-Paradigma zeigt das Potenzial, auch mit wenig Daten effektive Leistungen zu erzielen.

Auch die Techniken zur Verarbeitung von Video-Features haben erheblichen Einfluss auf die Leistung von VTG-MLLMs. Methoden zur effektiven Verarbeitung visueller und temporaler Merkmale sind wesentlich, um die räumlichen und zeitlichen Repräsentationen von Videos zu bestimmen. Darüber hinaus spielen Benchmark-Datensätze und Evaluierungsprotokolle eine wichtige Rolle bei der Bewertung der Leistung von VTG-MLLMs und bei der Überprüfung der Generalisierungsfähigkeit der Modelle.

Abschließend identifiziert die Studie die derzeitigen Grenzen von VTG-MLLMs und schlägt zukünftige Forschungsrichtungen vor. Eine mangelnde Vielfalt der Datensätze, die Komplexität der Modelle und Schwierigkeiten bei der Echtzeitverarbeitung bleiben zentrale Herausforderungen. Forschung zur Überwindung dieser Grenzen sollte sich auf die Entwicklung neuer Datensätze und die Optimierung der Modelle konzentrieren. Das Paper bietet eine umfassende Übersicht über VTG-MLLMs und liefert Forschenden in diesem Bereich nützliche Informationen.

Abstract

Die jüngsten Fortschritte beim Video Temporal Grounding (VTG) haben das feingranulare Videoverständnis deutlich verbessert, vor allem angetrieben durch multimodale Large Language Models (MLLMs). VTG-Ansätze auf Basis von MLLMs (VTG-MLLMs) übertreffen mit ihren überlegenen multimodalen Verständnis- und Reasoning-Fähigkeiten zunehmend traditionelle Fine-Tuning-Methoden. Sie erreichen nicht nur wettbewerbsfähige Leistung, sondern zeichnen sich auch durch starke Generalisierung in Zero-Shot-, Multi-Task- und Multi-Domain-Szenarien aus. Trotz umfangreicher Surveys zum allgemeinen Video-Sprach-Verständnis fehlen weiterhin umfassende Reviews, die sich speziell mit VTG-MLLMs befassen. Um diese Lücke zu schließen, untersucht dieser Survey die aktuelle Forschung zu VTG-MLLMs systematisch anhand einer dreidimensionalen Taxonomie: 1) funktionale Rollen von MLLMs, die ihre architektonische Bedeutung hervorheben, 2) Trainingsparadigmen, die Strategien für zeitliches Reasoning und Aufgabenanpassung analysieren, und 3) Verfahren zur Verarbeitung von Video-Features, die die Wirksamkeit räumlich-zeitlicher Repräsentationen bestimmen. Darüber hinaus werden Benchmark-Datensätze und Evaluationsprotokolle diskutiert sowie empirische Erkenntnisse zusammengefasst. Abschließend werden bestehende Einschränkungen identifiziert und vielversprechende Forschungsrichtungen vorgeschlagen. Für zusätzliche Materialien und Details wird Leserinnen und Lesern empfohlen, das Repository unter https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding zu besuchen.

> The recent advancement in video temporal grounding (VTG) has significantly enhanced fine-grained video understanding, primarily driven by multimodal large language models (MLLMs). With superior multimodal comprehension and reasoning abilities, VTG approaches based on MLLMs (VTG-MLLMs) are gradually surpassing traditional fine-tuned methods. They not only achieve competitive performance but also excel in generalization across zero-shot, multi-task, and multi-domain settings. Despite extensive surveys on general video-language understanding, comprehensive reviews specifically addressing VTG-MLLMs remain scarce. To fill this gap, this survey systematically examines current research on VTG-MLLMs through a three-dimensional taxonomy: 1) the functional roles of MLLMs, highlighting their architectural significance; 2) training paradigms, analyzing strategies for temporal reasoning and task adaptation; and 3) video feature processing techniques, which determine spatiotemporal representation effectiveness. We further discuss benchmark datasets, evaluation protocols, and summarize empirical findings. Finally, we identify existing limitations and propose promising research directions. For additional resources and details, readers are encouraged to visit our repository at https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding.

Paper-Link

https://arxiv.org/abs/2508.10922

Weiterführende Lektüre

https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding

Skalierung von Agenten durch kontinuierliches Pre-Training / Scaling Agents via Continual Pre-training

Paper-Einführung

Large Language Models (LLMs) haben sich zu Agentensystemen entwickelt, die autonome Tool-Nutzung und mehrstufiges Reasoning für die Lösung komplexer Probleme ausführen können. Post-Training-Ansätze auf Basis von General-Purpose-Foundation-Models zeigen jedoch bei Agentenaufgaben durchgängig schwache Leistung. Die Grundursache dieses Problems ist das Fehlen eines starken Agenten-Foundation-Models, was zu Optimierungsspannungen führt, da im Post-Training-Prozess vielfältige Agentenverhaltensweisen erlernt und zugleich an Expertendemonstrationen angepasst werden müssen. Um dies zu lösen, schlagen wir erstmals vor, Agentic Continual Pre-training (Agentic CPT) in die Trainingspipeline für Deep-Research-Agenten zu integrieren. Auf Basis dieses Ansatzes haben wir das Deep-Research-Agentenmodell AgentFounder entwickelt. AgentFounder-30B wurde auf 10 Benchmarks evaluiert, erzielte State-of-the-Art-Leistung und zeigte insbesondere starke Tool-Nutzungsfähigkeiten mit einer Pass@1-Leistung von 39.9% auf BrowseComp-en, 43.3% auf BrowseComp-zh und 31.5% auf HLE.

Abstract

Large Language Models (LLMs) haben sich zu Agentensystemen entwickelt, die zu autonomer Tool-Nutzung und mehrstufigem Reasoning für die Lösung komplexer Probleme fähig sind. Post-Training-Ansätze auf Basis von General-Purpose-Foundation-Models zeigen jedoch bei Agentenaufgaben durchgängig schwache Leistung, insbesondere in Open-Source-Implementierungen. Wir haben die Grundursache identifiziert: Das Fehlen eines starken Agenten-Foundation-Models erzeugt grundlegende Optimierungsspannungen, da das Modell im Post-Training gleichzeitig vielfältige Agentenverhaltensweisen erlernen und diese an Expertendemonstrationen anpassen muss. Um dies zu lösen, schlagen wir erstmals vor, Agentic Continual Pre-training (Agentic CPT) in die Trainingspipeline für Deep-Research-Agenten zu integrieren, um ein starkes Agenten-Foundation-Model aufzubauen. Auf Basis dieses Ansatzes entwickelten wir das Deep-Research-Agentenmodell AgentFounder. Wir evaluierten AgentFounder-30B auf 10 Benchmarks und erreichten State-of-the-Art-Leistung bei gleichzeitig stark erhaltener Tool-Nutzungsfähigkeit, darunter insbesondere 39.9% auf BrowseComp-en, 43.3% auf BrowseComp-zh und Pass@1 von 31.5% auf HLE.

Large language models (LLMs) have evolved into agentische Systeme, die zu autonomer Tool-Nutzung und mehrstufigem Reasoning für die Lösung komplexer Probleme fähig sind. Post-Training-Ansätze, die auf allgemein einsetzbaren Foundation Models aufbauen, bleiben jedoch bei agentischen Aufgaben durchweg hinter den Erwartungen zurück, insbesondere in Open-Source-Implementierungen. Wir identifizieren die Grundursache: Das Fehlen robuster agentischer Foundation Models zwingt Modelle im Post-Training dazu, gleichzeitig vielfältige agentische Verhaltensweisen zu erlernen und sie an Expertendemonstrationen auszurichten, wodurch grundlegende Optimierungskonflikte entstehen. Zu diesem Zweck schlagen wir als Erste vor, Agentic Continual Pre-training (Agentic CPT) in die Trainingspipeline von Deep-Research-Agenten zu integrieren, um leistungsstarke agentische Foundation Models aufzubauen. Auf Basis dieses Ansatzes entwickeln wir ein Deep-Research-Agent-Modell namens AgentFounder. Wir evaluieren unser AgentFounder-30B auf 10 Benchmarks und erreichen State-of-the-Art-Leistung bei zugleich starker Tool-Use-Fähigkeit, insbesondere 39,9 % auf BrowseComp-en, 43,3 % auf BrowseComp-zh und 31,5 % Pass@1 auf HLE.

Paper-Link

https://arxiv.org/abs/2509.13310

Weiterlesen

https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

Skalierungsgesetze für differenziell private Sprachmodelle / Scaling Laws for Differentially Private Language Models

Paper-Vorstellung

Die Forschung zu Skalierungsgesetzen für das Training großer Sprachmodelle (Large Language Models, LLMs) mit differenzieller Privatsphäre (Differential Privacy, DP) stellt einen wichtigen Fortschritt im modernen Bereich der künstlichen Intelligenz (AI) dar. Das Hauptziel dieser Studie ist es, Skalierungsgesetze zu etablieren, die die Komplexität des DP-LLM-Trainings präzise modellieren, um die Trade-offs zwischen Rechenaufwand, Privatsphäre und Nutzen klar aufzuzeigen und optimale Trainingskonfigurationen vorzuschlagen. Während Skalierungsgesetze im bisherigen LLM-Training eine wichtige Rolle dabei spielen, Leistungsverbesserungen vorherzusagen und Orientierung bei der Wahl von Hyperparametern zu geben, unterscheiden sich die Dynamiken des DP-Trainings deutlich, weshalb diese Skalierungsgesetze bislang noch nicht ausreichend verstanden sind.

In dieser Studie wurden Skalierungsgesetze für das DP-LLM-Training etabliert, indem ein Verfahren zur Anpassung der verlustschätzenden Funktion (L(M,T,\bar{\sigma})) verwendet wurde. Dabei steht (M) für die Anzahl der Modellparameter, (T) für die Anzahl der Trainingsiterationen und (\bar{\sigma}) für das Noise-Batch-Verhältnis; die Funktion wird mittels linearer Interpolation angepasst. Diese Funktion, implementiert mit scipy.interpolate.RegularGridInterpolator in Python, ist unter Berücksichtigung von Parametern definiert, die sich im Log-Space natürlich verändern. Dieser Ansatz trägt zum Verständnis der komplexen Dynamik des DP-LLM-Trainings bei und liefert innerhalb des Bereichs der experimentellen Konfigurationen wohldefinierte Ergebnisse.

Darüber hinaus stellt die Studie anhand der Formel der angepassten Funktion sowie der Implementierungsdetails eine Methode vor, mit der glatte Daten an Evaluationspunkten exakt getroffen und Zwischenwerte angenähert werden können. Dadurch liefert sie eine wichtige Grundlage für das Verständnis der Skalierungsgesetze des DP-LLM-Trainings; zukünftige Arbeiten sollten auf Basis der vorgeschlagenen Skalierungsgesetze Experimente mit verschiedenen DP-LLM-Architekturen durchführen und die theoretischen Modelle weiterentwickeln.

Insgesamt wird diese Studie durch die Etablierung von Skalierungsgesetzen für das Training großer Sprachmodelle mit differenzieller Privatsphäre dazu beitragen, die Komplexität des DP-LLM-Trainings besser zu verstehen und wichtige Leitlinien für das künftige Training und die Optimierung von LLMs bereitzustellen. Es wird erwartet, dass diese Erkenntnisse dazu beitragen, die Praxistauglichkeit von DP-LLMs weiter zu erhöhen.

Abstract

Skalierungsgesetze haben sich zu wichtigen Bestandteilen des Trainings großer Sprachmodelle (LLMs) entwickelt, da sie Leistungsgewinne durch Skalierung vorhersagen und Orientierung bei wichtigen Hyperparameter-Entscheidungen bieten können, die andernfalls teuer wären. LLMs sind zudem auf große, hochwertige Trainingsdatensätze angewiesen, etwa solche, die aus mitunter sensiblen Nutzerdaten stammen. Das Training von Modellen auf diesen sensiblen Nutzerdaten erfordert sorgfältige Datenschutzmaßnahmen wie differenzielle Privatsphäre (Differential Privacy, DP). Die Dynamik des DP-Trainings ist jedoch erheblich anders, und daher sind die zugehörigen Skalierungsgesetze noch nicht vollständig verstanden. In dieser Arbeit etablieren wir Skalierungsgesetze, die die Feinheiten des DP-LLM-Trainings präzise modellieren, und liefern damit ein vollständiges Bild der Trade-offs zwischen Compute, Privatsphäre und Nutzen sowie der optimalen Trainingskonfigurationen in vielen Settings.

Scaling laws have emerged as important components of large language model (LLM) training as they can predict performance gains through scale, and provide guidance on important hyper-parameter choices that would otherwise be expensive. LLMs also rely on large, high-quality training datasets, like those sourced from (sometimes sensitive) user data. Training models on this sensitive user data requires careful privacy protections like differential privacy (DP). However, the dynamics of DP training are significantly different, and consequently their scaling laws are not yet fully understood. In this work, we establish scaling laws that accurately model the intricacies of DP LLM training, providing a complete picture of the compute-privacy-utility tradeoffs and the optimal training configurations in many settings.

Paper-Link

https://arxiv.org/abs/2501.18914

Weiterlesen

https://services.google.com/fh/files/blogs/vaultgemma_tech_report.pdf

https://huggingface.co/google/vaultgemma-1b

https://research.google/blog/…

https://discuss.pytorch.kr/t/vaultgemma-llm-feat-differential-privacy/…

R-Zero: Selbst-evolvierendes Reasoning-LLM aus Zero Data / R-Zero: Self-Evolving Reasoning LLM from Zero Data

Paper-Vorstellung

Selbst-evolvierende Large Language Models (LLMs) bieten einen skalierbaren Weg in Richtung Superintelligenz, indem sie autonom Erfahrungen erzeugen und daraus lernen. Bestehende Trainingsmethoden sind auf umfangreiche menschliche Kuratierung und Labels angewiesen und setzen damit der Weiterentwicklung von AI-Systemen Grenzen. Um dies zu überwinden, wird R-Zero vorgeschlagen, ein vollständig autonomes Framework, das von einem Basis-LLM ausgeht und zwei unabhängige Modelle namens Challenger und Solver initialisiert. Diese Modelle werden durch Interaktion optimiert, und R-Zero erzeugt ohne bestehende Aufgaben und Labels ein zielgerichtetes, sich selbst verbesserndes Curriculum, das die Reasoning-Fähigkeiten verschiedener LLMs deutlich verbessert.

Paper Abstract

Selbst-evolvierende Large Language Models (LLMs) bieten einen skalierbaren Weg in Richtung Superintelligenz, indem sie autonom ihre eigenen Erfahrungen erzeugen, verfeinern und daraus lernen. Bestehende Methoden zum Training solcher Modelle stützen sich jedoch weiterhin stark auf riesige Mengen menschlich kuratierter Aufgaben und Labels, typischerweise per Fine-Tuning oder Reinforcement Learning, was einen grundlegenden Engpass für die Weiterentwicklung von AI-Systemen hin zu Fähigkeiten jenseits menschlicher Intelligenz darstellt. Um diese Einschränkung zu überwinden, stellen wir R-Zero vor, ein vollständig autonomes Framework, das seine Trainingsdaten von Grund auf selbst erzeugt. Ausgehend von einem einzelnen Basis-LLM initialisiert R-Zero zwei unabhängige Modelle mit unterschiedlichen Rollen, einen Challenger und einen Solver. Diese Modelle werden getrennt optimiert und entwickeln sich durch Interaktion gemeinsam weiter: Der Challenger wird dafür belohnt, Aufgaben nahe an der Fähigkeitsgrenze des Solvers vorzuschlagen, und der Solver wird dafür belohnt, die vom Challenger gestellten, zunehmend anspruchsvolleren Aufgaben zu lösen. Dieser Prozess erzeugt ein zielgerichtetes, sich selbst verbesserndes Curriculum ohne bereits existierende Aufgaben und Labels. Empirisch verbessert R-Zero die Reasoning-Fähigkeit über verschiedene Backbone-LLMs hinweg deutlich, etwa mit einer Steigerung von +6.49 für Qwen3-4B-Base auf Benchmarks für mathematisches Reasoning und +7.54 auf Benchmarks für Reasoning im allgemeinen Bereich.

> Self-evolving Large Language Models (LLMs) offer a scalable path toward super-intelligence by autonomously generating, refining, and learning from their own experiences. However, existing methods for training such models still rely heavily on vast human-curated tasks and labels, typically via fine-tuning or reinforcement learning, which poses a fundamental bottleneck to advancing AI systems toward capabilities beyond human intelligence. To overcome this limitation, we introduce R-Zero, a fully autonomous framework that generates its own training data from scratch. Starting from a single base LLM, R-Zero initializes two independent models with distinct roles, a Challenger and a Solver. These models are optimized separately and co-evolve through interaction: the Challenger is rewarded for proposing tasks near the edge of the Solver capability, and the Solver is rewarded for solving increasingly challenging tasks posed by the Challenger. This process yields a targeted, self-improving curriculum without any pre-existing tasks and labels. Empirically, R-Zero substantially improves reasoning capability across different backbone LLMs, e.g., boosting the Qwen3-4B-Base by +6.49 on math-reasoning benchmarks and +7.54 on general-domain reasoning benchmarks.

Paper-Link

https://arxiv.org/abs/2508.05004

War dieser von der 🔥PyTorch Korea User Group🇰🇷 zusammengestellte Beitrag hilfreich? Wenn Sie Mitglied werden, senden wir Ihnen wichtige Beiträge per E-Mail 💌 zu! Standardmäßig wöchentlich, aber eine Umstellung auf täglich ist ebenfalls möglich.

🎁 Wenn Sie weiter unten auf „Gefällt mir“ ❤️ klicken, unterstützen Sie damit die Veröffentlichung dieser News~ 🤗

Dieser Beitrag basiert auf einer Zusammenfassung mit einem GPT-Modell; daher kann es sein, dass Inhalte anders als im Original oder nicht ganz im Sinne des Originals zusammengefasst wurden. Wenn Sie das Thema interessiert, lesen Sie bitte auch den Originaltext! Falls Ihnen beim Lesen unnatürliche oder fehlerhafte Stellen auffallen, bitten wir Sie, uns dies in den Kommentaren mitzuteilen. 🤗

⚠️Werbung⚠️: War dieser von der 🔥PyTorch Korea User Group🇰🇷 zusammengestellte Beitrag hilfreich? Wenn Sie Mitglied werden, senden wir Ihnen wichtige Beiträge per E-Mail 💌 zu! Standardmäßig wöchentlich, aber eine Umstellung auf täglich ist ebenfalls möglich.

[2025/09/15 ~ 21] Lesenswerte AI/ML-Papers dieser Woche

PyTorchKR🔥🇰🇷 🤔💭

Reconstruction Alignment verbessert Unified Multimodal Models / Reconstruction Alignment Improves Unified Multimodal Models

Paper-Einführung

Paper-Abstract

Paper-Link

Unterstützung unserer AI-Oberherren: Datensysteme agent-first neu gestalten / Supporting Our AI Overlords: Redesigning Data Systems to be Agent-First

Paper-Einführung

Paper-Abstract

Paper-Link

AToken: Ein einheitlicher Tokenizer für Vision / AToken: A Unified Tokenizer for Vision

Paper-Einführung

Paper-Abstract

Paper-Link

Verbesserung allgemeiner Agentenintelligenz durch Environment Scaling / Towards General Agentic Intelligence via Environment Scaling

Paper-Einführung

Paper-Abstract

Paper-Link

Weiterführende Lektüre

Ist In-Context Learning Lernen? / Is In-Context Learning Learning?

Paper-Vorstellung

Abstract

Paper-Link

DeepDive: Fortschritte bei Deep-Search-Agenten mit Knowledge Graphs und Multi-Turn-RL / DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL

Paper-Einführung

Abstract

Paper-Link

Weiterlesen

Eine Übersicht zu Video Temporal Grounding mit multimodalen großen Sprachmodellen / A Survey on Video Temporal Grounding with Multimodal Large Language Model

Paper-Einführung

Abstract

Paper-Link

Weiterführende Lektüre

Skalierung von Agenten durch kontinuierliches Pre-Training / Scaling Agents via Continual Pre-training

Paper-Einführung

Abstract

Paper-Link

Weiterlesen

Skalierungsgesetze für differenziell private Sprachmodelle / Scaling Laws for Differentially Private Language Models

Paper-Vorstellung

Abstract

Paper-Link

Weiterlesen

R-Zero: Selbst-evolvierendes Reasoning-LLM aus Zero Data / R-Zero: Self-Evolving Reasoning LLM from Zero Data

Paper-Vorstellung

Paper Abstract

Paper-Link

Verwandte Beiträge

Noch keine Kommentare.