5 Punkte von ninebow 2025-09-17 | Noch keine Kommentare. | Auf WhatsApp teilen

[2025/09/08 ~ 14] Lesenswerte AI/ML-Papers dieser Woche

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Halluzinationen von Sprachmodellen: Jüngste Studien heben hervor, dass große Sprachmodelle in unsicheren Situationen zu Vermutungen neigen und dadurch „Halluzinationen“ erzeugen, also plausible, aber ungenaue Aussagen. Der Grund dafür sei, dass Trainings- und Evaluierungsverfahren eher das Raten belohnen, als Unsicherheit anzuerkennen. Um diese Halluzinationen zu beheben, müsse daher das Bewertungssystem bestehender Benchmarks angepasst werden.

2️⃣ Verständnis semantischer Strukturen: Es gibt zunehmend Studien, die analysieren, wie semantische Zusammenhänge in den Embedding-Matrizen großer Sprachmodelle strukturiert sind. Diese Arbeiten betonen, dass sich niedrigdimensionale Strukturen finden lassen, die menschlichen Bedeutungsbewertungen ähneln, und dass Projektionen entlang semantischer Richtungen von Wörtern stark mit menschlichen Bewertungen korrelieren. Das deutet darauf hin, dass Sprachmodelle semantische Informationen auf eine dem menschlichen Sprachverständnis ähnliche Weise verarbeiten.

3️⃣ Verbesserung fortgeschrittener Schlussfolgerungsfähigkeiten durch Reinforcement Learning: Es wird intensiv daran geforscht, mit Reinforcement Learning (RL) die komplexen Schlussfolgerungsfähigkeiten großer Sprachmodelle zu verbessern. Insbesondere wurden Methoden vorgeschlagen, die Tiefe und Breite anpassen, um die Effizienz von RL-Algorithmen zu erhöhen. Diese spielen laut den Ergebnissen eine wichtige Rolle dabei, dass Modelle fortgeschrittene strategische Planung erkunden und meistern. Solche Ansätze entstehen unter anderem durch neue Paradigmen wie RLVR (Reinforcement Learning with Verifiable Rewards).


Warum Sprachmodelle halluzinieren / Why Language Models Hallucinate (feat. OpenAI)

Vorstellung des Papers

Große Sprachmodelle neigen in unsicheren Situationen dazu, richtige Antworten zu erraten, wodurch das Phänomen der „Halluzination“ entsteht: plausible, aber falsche Informationen werden erzeugt. Solche Halluzinationen bleiben auch bei modernen Modellen ein Problem und untergraben die Zuverlässigkeit. Diese Studie sieht die Ursache darin, dass Trainings- und Evaluierungsverfahren Raten belohnen, statt Unsicherheit anzuerkennen. Insbesondere gehen Halluzinationen auf Fehler in der binären Klassifikation zurück und entstehen als natürlicher statistischer Druck, wenn falsche Aussagen nicht von Fakten unterschieden werden können.

In der Vortrainingsphase lernen Sprachmodelle die Verteilung von Sprache aus großen Textdatenmengen, wobei in diesem Prozess Fehler entstehen können. Diese Fehler werden durch Evaluierungsverfahren, die unsichere Antworten bestrafen, fortlaufend verstärkt. Die Forschenden weisen darauf hin, dass Sprachmodelle dazu tendieren, Unsicherheit zu vermeiden und zu raten, um in Tests gut abzuschneiden, und argumentieren, dass genau diese Tendenz Halluzinationen aufrechterhält.

Das von OpenAI veröffentlichte Paper identifiziert die statistischen Ursachen von Halluzinationen und analysiert sowohl ihren Ursprung im Pretraining als auch ihr Fortbestehen im Post-Training. Zudem wird vorgeschlagen, dass eine Anpassung bestehender Evaluierungsmethoden ein wirksamer Weg sein könnte, um Halluzinationen zu verringern. Dieser Ansatz kann die Zuverlässigkeit von Sprachmodellen erhöhen und weist darüber hinaus einen Weg zu vertrauenswürdigeren KI-Systemen. Die Ergebnisse der Studie können als wichtige Grundlage dienen, um Halluzinationen von Sprachmodellen besser zu verstehen und zu verbessern.

Abstract des Papers

Wie Studierende, die vor schwierigen Prüfungsfragen stehen, raten große Sprachmodelle manchmal, wenn sie unsicher sind, und erzeugen dadurch plausible, aber falsche Aussagen, anstatt ihre Unsicherheit einzugestehen. Solche „Halluzinationen“ bestehen selbst in modernsten Systemen fort und untergraben das Vertrauen. Wir argumentieren, dass Sprachmodelle halluzinieren, weil Trainings- und Evaluierungsverfahren das Raten stärker belohnen als das Eingestehen von Unsicherheit, und analysieren die statistischen Ursachen von Halluzinationen in der modernen Trainingspipeline. Halluzinationen müssen nichts Mysteriöses sein. Sie entstehen schlicht als Fehler in der binären Klassifikation. Wenn falsche Aussagen nicht von Fakten unterschieden werden können, dann entstehen Halluzinationen in vortrainierten Sprachmodellen durch natürlichen statistischen Druck. Wir argumentieren außerdem, dass Halluzinationen wegen der Art und Weise fortbestehen, wie die meisten Evaluierungen bewertet werden. Sprachmodelle sind darauf optimiert, gute Prüfungsteilnehmer zu sein, und Raten verbessert die Testleistung, wenn Unsicherheit besteht. Diese „Epidemie“ der Bestrafung unsicherer Antworten lässt sich nur durch eine sozio-technische Gegenmaßnahme beheben: durch die Anpassung der Bewertung bestehender Benchmarks, die zwar fehljustiert sind, aber die Leaderboards dominieren, statt zusätzliche Halluzinations-Evaluierungen einzuführen. Diese Veränderung könnte das Feld in Richtung vertrauenswürdigerer KI-Systeme lenken.

Like students facing hard exam questions, large language models sometimes guess when uncertain, producing plausible yet incorrect statements instead of admitting uncertainty. Such "hallucinations" persist even in state-of-the-art systems and undermine trust. We argue that language models hallucinate because the training and evaluation procedures reward guessing over acknowledging uncertainty, and we analyze the statistical causes of hallucinations in the modern training pipeline. Hallucinations need not be mysterious -- they originate simply as errors in binary classification. If incorrect statements cannot be distinguished from facts, then hallucinations in pretrained language models will arise through natural statistical pressures. We then argue that hallucinations persist due to the way most evaluations are graded -- language models are optimized to be good test-takers, and guessing when uncertain improves test performance. This "epidemic" of penalizing uncertain responses can only be addressed through a socio-technical mitigation: modifying the scoring of existing benchmarks that are misaligned but dominate leaderboards, rather than introducing additional hallucination evaluations. This change may steer the field toward more trustworthy AI systems.

Link zum Paper

https://arxiv.org/abs/2509.04664


Semantische Struktur in Embeddings großer Sprachmodelle / Semantic Structure in Large Language Model Embeddings

Vorstellung des Papers

Die Embedding-Struktur großer Sprachmodelle (LLMs) ist bemerkenswert, weil sie semantische Informationen auf eine Weise repräsentiert, die der menschlichen Sprachkognition ähnelt. Diese Studie analysiert auf Grundlage psychologischer Erkenntnisse die semantischen Zusammenhänge zwischen Wörtern in den Embedding-Matrizen von LLMs und untersucht dadurch die Korrelation zwischen menschlichen Wortbewertungen und internen Repräsentationen von LLMs. Die Ergebnisse zeigen, dass sich Wortprojektionen in LLM-Embeddings auf drei zentrale Dimensionen reduzieren lassen: Bewertung (gut vs. schlecht), Stärke (stark vs. schwach) und Aktivität (aktiv vs. passiv).

Die Studie vergleicht Daten aus einer Umfrage zu 360 Wörtern mit den Embeddings von LLMs und analysiert quantitativ die Korrelation zwischen menschlichen semantischen Bewertungen und den Embeddings der Modelle. Besonders hervorgehoben wird, dass Eigenschaften in LLMs miteinander verflochten sind, indem semantische Richtungen von Wortmerkmalen extrahiert und auf dieser Basis Off-Target-Effekte durch Interventionen gemessen wurden. Diese Ergebnisse deuten darauf hin, dass LLM-Embeddings die Komplexität menschlicher Sprache widerspiegeln und semantische Informationen relativ niedrigdimensional organisiert sind.

Außerdem betont die Studie, wie wichtig es ist, die Beziehungen zwischen einzelnen Eigenschaften zu messen, um die internen Funktionsweisen von LLMs zu verstehen. Das könnte sich positiv auf KI-Sicherheit und funktionales Tuning auswirken. Ein solcher Ansatz kann auch dazu beitragen, unbeabsichtigte Folgen zu vermeiden, die beim Feature Steering von LLMs auftreten können. Diese Arbeit leistet einen wichtigen Beitrag zum Verständnis semantischer Strukturen in LLMs und dazu, das Verhalten der Modelle klarer zu erfassen.

Abstract des Papers

Psychologische Forschung zeigt konsistent, dass menschliche Bewertungen von Wörtern über verschiedene semantische Skalen hinweg mit relativ geringem Informationsverlust auf eine niedrigdimensionale Form reduziert werden können. Wir stellen fest, dass die in den Embedding-Matrizen großer Sprachmodelle (LLMs) kodierten semantischen Assoziationen eine ähnliche Struktur aufweisen. Wir zeigen, dass die Projektionen von Wörtern auf semantische Richtungen, die durch Gegensatzpaare definiert sind (z. B. freundlich – grausam), stark mit menschlichen Bewertungen korrelieren, und stellen weiter fest, dass sich diese Projektionen innerhalb von LLM-Embeddings effektiv auf einen dreidimensionalen Unterraum reduzieren lassen. Dies ähnelt stark den Mustern, die aus menschlichen Umfrageantworten abgeleitet wurden. Außerdem stellen wir fest, dass das Verschieben von Tokens entlang einer semantischen Richtung unbeabsichtigte Effekte auf geometrisch ausgerichtete Merkmale verursacht, die proportional zu ihrer Kosinus-Ähnlichkeit sind. Diese Ergebnisse legen nahe, dass semantische Merkmale in LLMs ähnlich verschränkt sind, wie sie auch in menschlicher Sprache miteinander verbunden sind, und dass ein großer Teil semantischer Information trotz ihrer scheinbaren Komplexität überraschend niedrigdimensional ist. Darüber hinaus könnte die Berücksichtigung dieser semantischen Struktur entscheidend sein, um unbeabsichtigte Folgen beim Steuern von Merkmalen zu vermeiden.
> Psychological research consistently finds that human ratings of words across diverse semantic scales can be reduced to a low-dimensional form with relatively little information loss. We find that the semantic associations encoded in the embedding matrices of large language models (LLMs) exhibit a similar structure. We show that the projections of words on semantic directions defined by antonym pairs (e.g. kind - cruel) correlate highly with human ratings, and further find that these projections effectively reduce to a 3-dimensional subspace within LLM embeddings, closely resembling the patterns derived from human survey responses. Moreover, we find that shifting tokens along one semantic direction causes off-target effects on geometrically aligned features proportional to their cosine similarity. These findings suggest that semantic features are entangled within LLMs similarly to how they are interconnected in human language, and a great deal of semantic information, despite its apparent complexity, is surprisingly low-dimensional. Furthermore, accounting for this semantic structure may prove essential for avoiding unintended consequences when steering features.

Paper-Link

https://arxiv.org/abs/2508.10003


rStar2-Agent: Technischer Bericht zu agentischem Reasoning / rStar2-Agent: Agentic Reasoning Technical Report (feat. Microsoft)

Paper-Einführung

rStar2-Agent ist ein Math-Reasoning-Modell mit 14 Milliarden Parametern, das darauf ausgelegt ist, durch agentisches Reinforcement Learning Spitzenleistung zu erreichen. Das Modell geht über bestehende Long-Chain-of-Thought-(Long-CoT)-Ansätze hinaus und zeigt fortgeschrittenes kognitives Verhalten bei der Lösung komplexer Probleme. Insbesondere verfügt es bei der Nutzung von Python-Coding-Tools über die Fähigkeit, sorgfältig zu denken, autonom Zwischenschritte zu erkunden und zu verifizieren sowie Feedback aus der Code-Ausführung zu berücksichtigen.

Diese Innovation wird durch drei zentrale Elemente ermöglicht.

Erstens baut rStar2-Agent über eine effiziente RL-Infrastruktur eine zuverlässige Python-Code-Umgebung auf und unterstützt damit Ausführungen mit hohem Durchsatz. Diese Infrastruktur ist so konzipiert, dass sie auch mit begrenzten GPU-Ressourcen effektiv trainiert werden kann und dadurch die hohen Rollout-Kosten mindert. Zweitens adressiert der agentische RL-Algorithmus GRPO-RoC mithilfe einer Resample-on-Correct-Rollout-Strategie Umgebungsrauschen bei Coding-Tools und ermöglicht dem Modell, in der Code-Umgebung effektiver zu schlussfolgern. Drittens liefert ein effizientes Agenten-Trainingsrezept, das mit nicht schlussfolgerndem SFT (Supervised Fine-Tuning) beginnt und dann über mehrstufiges RL fortgeführt wird, fortgeschrittene kognitive Fähigkeiten bei minimalen Rechenkosten.

Durch diese Methodik hebt rStar2-Agent ein vortrainiertes 14B-Modell in nur 510 RL-Schritten auf State-of-the-Art-Niveau und erreicht pass@1-Werte von durchschnittlich 80,6 % bei AIME24 und 69,8 % bei AIME25. Damit übertrifft es DeepSeek-R1 (671B) und verkürzt zugleich die Antwortzeit deutlich. Darüber hinaus zeigt rStar2-Agent starke Generalisierungsfähigkeit nicht nur beim Lösen mathematischer Probleme, sondern auch bei Aufgaben in den Bereichen Alignment, wissenschaftliches Reasoning und agentische Tool-Nutzung. Diese Ergebnisse zeigen, dass agentische RL-Ansätze einen wichtigen Beitrag dazu leisten, kognitives Verhalten bei der Lösung komplexer Probleme zu stärken.

Abstract

Wir stellen rStar2-Agent vor, ein 14B-Modell für mathematisches Reasoning, das mit agentischem Reinforcement Learning trainiert wurde, um Leistung auf Frontier-Niveau zu erreichen. Über die aktuelle lange Chain of Thought (CoT) hinaus zeigt das Modell fortgeschrittene kognitive Verhaltensweisen: Es denkt sorgfältig nach, bevor es Python-Coding-Tools einsetzt, und reflektiert Feedback aus der Codeausführung, um Zwischenschritte in komplexen Problemlösungen autonom zu erkunden, zu verifizieren und zu verfeinern. Ermöglicht wird diese Fähigkeit durch drei zentrale Innovationen, die agentisches RL im großen Maßstab effektiv machen: (i) eine effiziente RL-Infrastruktur mit einer zuverlässigen Python-Code-Umgebung, die High-Throughput-Ausführung unterstützt und die hohen Rollout-Kosten mindert, wodurch Training mit begrenzten GPU-Ressourcen (64 MI300X-GPUs) möglich wird; (ii) GRPO-RoC, ein agentischer RL-Algorithmus mit einer Resample-on-Correct-Rollout-Strategie, der die inhärenten Umgebungsrauschen von Coding-Tools adressiert und dem Modell erlaubt, in einer Code-Umgebung effektiver zu schlussfolgern; (iii) ein effizientes Trainingsrezept für Agenten, das mit nicht-reasoningbasiertem SFT beginnt und sich über mehrstufige RL-Phasen weiterentwickelt, wodurch fortgeschrittene kognitive Fähigkeiten bei minimalen Compute-Kosten entstehen. Zu diesem Zweck hebt rStar2-Agent ein vortrainiertes 14B-Modell in nur 510 RL-Schritten auf den Stand der Technik und erreicht durchschnittliche pass@1-Werte von 80,6 % auf AIME24 und 69,8 % auf AIME25, womit es DeepSeek-R1 (671B) mit deutlich kürzeren Antworten übertrifft. Über Mathematik hinaus zeigt rStar2-Agent-14B auch starke Generalisierungsfähigkeit bei Alignment-, wissenschaftlichen Reasoning- und agentischen Tool-Use-Aufgaben. Code und Trainingsrezepte sind unter https://github.com/microsoft/rStar verfügbar.
> We introduce rStar2-Agent, a 14B math reasoning model trained with agentic reinforcement learning to achieve frontier-level performance. Beyond current long CoT, the model demonstrates advanced cognitive behaviors, such as thinking carefully before using Python coding tools and reflecting on code execution feedback to autonomously explore, verify, and refine intermediate steps in complex problem-solving. This capability is enabled through three key innovations that makes agentic RL effective at scale: (i) an efficient RL infrastructure with a reliable Python code environment that supports high-throughput execution and mitigates the high rollout costs, enabling training on limited GPU resources (64 MI300X GPUs); (ii) GRPO-RoC, an agentic RL algorithm with a Resample-on-Correct rollout strategy that addresses the inherent environment noises from coding tools, allowing the model to reason more effectively in a code environment; (iii) An efficient agent training recipe that starts with non-reasoning SFT and progresses through multi-RL stages, yielding advanced cognitive abilities with minimal compute cost. To this end, rStar2-Agent boosts a pre-trained 14B model to state of the art in only 510 RL steps within one week, achieving average pass@1 scores of 80.6% on AIME24 and 69.8% on AIME25, surpassing DeepSeek-R1 (671B) with significantly shorter responses. Beyond mathematics, rStar2-Agent-14B also demonstrates strong generalization to alignment, scientific reasoning, and agentic tool-use tasks. Code and training recipes are available at https://github.com/microsoft/rStar.

Paper-Link

https://arxiv.org/abs/2508.20722

Mehr lesen

https://github.com/microsoft/rStar


uGMM-NN: Neuronales Netzwerk mit univariatem Gaußschen Mischmodell / uGMM-NN: Univariate Gaussian Mixture Model Neural Network

Paper-Vorstellung

Das neuronale Netzwerk mit univariatem Gaußschen Mischmodell (Univariate Gaussian Mixture Model Neural Network, uGMM-NN) ist eine innovative Architektur, die probabilistische Inferenz direkt in die Recheneinheiten tiefer neuronaler Netze integriert und dabei den Ansatz verfolgt, dass jedes Neuron seine Aktivierung als univariate Gaußsche Mischung parametrisiert. Dieser Ansatz überwindet die Grenzen traditioneller Neuronen mit gewichteter Summe und fester Nichtlinearität und ermöglicht es, Multimodalität und Unsicherheit auf Ebene einzelner Neuronen durch lernbare Mittelwerte, Varianzen und Mischungskoeffizienten effektiv zu erfassen. Dieses Design verleiht dem Modell die nötige Flexibilität, um komplexe Datenverteilungen zu lernen, und bewahrt zugleich die Skalierbarkeit standardisierter Feedforward-Netzwerke.

Im Vergleich zu bestehenden Multilayer Perceptrons (MLP) kann uGMM-NN eine konkurrenzfähige diskriminative Leistung erreichen und zugleich eine probabilistische Interpretation der Aktivierungen ermöglichen. Dadurch geht das Modell über einfache Entscheidungsgrenzen hinaus und gewinnt die Fähigkeit, komplexe Strukturen in Daten zu verstehen und darzustellen. Das vorgeschlagene Framework schafft eine Grundlage dafür, Komponenten mit Unsicherheitsbewusstsein in moderne neuronale Architekturen zu integrieren, und eröffnet damit neue Forschungsrichtungen sowohl für diskriminatives als auch für generatives Modeling.

Die Struktur von uGMM-NN ist so aufgebaut, dass jedes Neuron seine Aktivierung in einer Form ausdrückt, die Mischungskoeffizienten, Mittelwerte und Varianzen umfasst; diese Elemente werden während des Lernprozesses optimiert. Als Lernmethode wird der Backpropagation-Algorithmus verwendet, um die Parameter zu aktualisieren, und die Loss-Funktion ist so entworfen, dass sie die Differenz zwischen den Aktivierungen der einzelnen Neuronen und den tatsächlichen Labels minimiert. Dabei kommen gradientenbasierte Optimierungsverfahren zum Einsatz, um die Leistung des Modells zu maximieren.

Experimentelle Ergebnisse zeigen, dass uGMM-NN auf verschiedenen Benchmark-Datensätzen eine höhere Genauigkeit als bestehende MLPs erzielt und seine Fähigkeit belegt, Unsicherheit effektiv zu verarbeiten. Diese Ergebnisse belegen die Überlegenheit von uGMM-NN und liefern eine wichtige Grundlage für die künftige Ausrichtung unsicherheitsbewusster Modellierung. Die Arbeit untersucht Anwendungsmöglichkeiten in verschiedenen Bereichen und führt zu einer Diskussion über die Skalierbarkeit von uGMM-NN sowie über die Möglichkeiten seiner Integration mit anderen Modellen.

Abstract des Papers

Dieses Paper stellt das Univariate Gaussian Mixture Model Neural Network (uGMM-NN) vor, eine neuartige neuronale Architektur, die probabilistisches Schließen direkt in die Recheneinheiten tiefer Netzwerke einbettet. Anders als traditionelle Neuronen, die gewichtete Summen anwenden, auf die feste Nichtlinearitäten folgen, parametrisiert jeder uGMM-NN-Knoten seine Aktivierungen als univariate Gaußsche Mischung mit lernbaren Mittelwerten, Varianzen und Mischungskoeffizienten. Dieses Design ermöglicht reichhaltigere Repräsentationen, indem es Multimodalität und Unsicherheit auf der Ebene einzelner Neuronen erfasst, und bewahrt zugleich die Skalierbarkeit standardmäßiger Feedforward-Netzwerke. Wir zeigen, dass uGMM-NN im Vergleich zu herkömmlichen mehrschichtigen Perzeptronen eine konkurrenzfähige diskriminative Leistung erreichen kann und zusätzlich eine probabilistische Interpretation der Aktivierungen bietet. Das vorgeschlagene Framework liefert eine Grundlage für die Integration unsicherheitsbewusster Komponenten in moderne neuronale Architekturen und eröffnet neue Richtungen sowohl für diskriminative als auch für generative Modellierung.
> This paper introduces the Univariate Gaussian Mixture Model Neural Network (uGMM-NN), a novel neural architecture that embeds probabilistic reasoning directly into the computational units of deep networks. Unlike traditional neurons, which apply weighted sums followed by fixed nonlinearities, each uGMM-NN node parameterizes its activations as a univariate Gaussian mixture, with learnable means, variances, and mixing coefficients. This design enables richer representations by capturing multimodality and uncertainty at the level of individual neurons, while retaining the scalability of standard feedforward networks. We demonstrate that uGMM-NN can achieve competitive discriminative performance compared to conventional multilayer perceptrons, while additionally offering a probabilistic interpretation of activations. The proposed framework provides a foundation for integrating uncertainty-aware components into modern neural architectures, opening new directions for both discriminative and generative modeling.

Paper-Link

https://arxiv.org/abs/2509.07569


Emergent hierarchisches Schließen in großen Sprachmodellen durch Reinforcement Learning / Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning

Paper-Einführung

Forschung zur Verbesserung komplexer Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs) hat sich in jüngster Zeit zu einem wichtigen Thema im Bereich der Künstlichen Intelligenz entwickelt. Diese Studie untersucht, wie Reinforcement Learning (RL) diese Fähigkeiten von LLMs verbessert, und zeigt, dass mehrere dabei auftretende Phänomene miteinander verknüpft sind. Insbesondere hängen Erfahrungen wie der „Aha-Moment“ eng mit strategischem Denken auf hoher Ebene zusammen und lassen sich als Merkmale einer emergenten Schlussfolgerungshierarchie interpretieren, die der Trennung von High-Level-Planung und Low-Level-Ausführung in menschlichen kognitiven Prozessen ähnelt.

Die Studie beschreibt eine Dynamik in zwei Phasen. In der Anfangsphase ist das Modell durch prozedurale Korrektheit begrenzt und muss zunächst Fähigkeiten auf niedriger Ebene verbessern. Danach verschiebt sich der Lernengpass, und Leistungssteigerungen werden von der Erkundung und Beherrschung strategischer Planung auf hoher Ebene angetrieben. Diese Einsicht legt die Ineffizienz bestehender RL-Algorithmen offen, insbesondere von GRPO (Generalized Reinforcement Policy Optimization), und hebt hervor, dass dieser Algorithmus Optimierungsdruck unterschiedslos anwendet und dadurch das Lernsignal verwässert.

Um dieses Problem zu lösen, schlagen die Autoren einen neuen Algorithmus namens HIerarchy-Aware Credit Assignment (HICRA) vor. HICRA konzentriert sich auf die Lösung strategischer Engpässe, indem es den Optimierungsaufwand auf Planungs-Token mit hohem Einfluss fokussiert. Der Algorithmus zeigt eine bessere Leistung als starke Baselines und belegt, dass er als Schlüssel zur Erschließung fortgeschrittener Schlussfolgerungsfähigkeiten dienen kann. Darüber hinaus schlagen die Autoren semantische Entropie als überlegene Kennzahl zur Messung strategischer Exploration vor, die besser funktioniert als potenziell irreführende Metriken wie die herkömmliche tokenbasierte Entropie.

Diese Studie präsentiert einen neuen Ansatz zur Steigerung der Effizienz von Lern- und Schlussfolgerungsprozessen in LLMs und betont mithilfe des HICRA-Algorithmus die Notwendigkeit einer gezielten Optimierung strategischer Planung. Es wird erwartet, dass diese Beiträge die komplexen Schlussfolgerungsfähigkeiten von LLMs weiter voranbringen und eine wichtige Grundlage für künftige Forschung bilden.

Paper-Zusammenfassung (Abstract)

Es hat sich gezeigt, dass Reinforcement Learning (RL) sehr effektiv dabei ist, die komplexen Reasoning-Fähigkeiten großer Sprachmodelle (LLMs) zu verbessern, doch die zugrunde liegenden Mechanismen dieses Erfolgs bleiben weitgehend undurchsichtig. Unsere Analyse zeigt, dass rätselhafte Phänomene wie „Aha-Momente“, „Length-Scaling“ und Entropiedynamiken keine voneinander getrennten Einzelereignisse sind, sondern Kennzeichen einer emergenten Reasoning-Hierarchie, die der Trennung zwischen hochrangiger strategischer Planung und niedrigstufiger prozeduraler Ausführung in der menschlichen Kognition ähnelt. Wir identifizieren eine überzeugende zweiphasige Dynamik: Zunächst ist ein Modell durch prozedurale Korrektheit eingeschränkt und muss seine niedrigstufigen Fähigkeiten verbessern. Danach verschiebt sich der Lernengpass entscheidend, und Leistungsgewinne werden durch die Exploration und Beherrschung hochrangiger strategischer Planung angetrieben. Diese Einsicht legt eine zentrale Ineffizienz in verbreiteten RL-Algorithmen wie GRPO offen, die Optimierungsdruck undifferenziert anwenden und das Lernsignal über alle Tokens hinweg verwässern. Um dieses Problem zu lösen, schlagen wir HIerarchy-Aware Credit Assignment (HICRA) vor, einen Algorithmus, der die Optimierungsanstrengungen auf einflussstarke Planungstokens konzentriert. HICRA übertrifft starke Baselines deutlich und zeigt, dass die Fokussierung auf diesen strategischen Engpass der Schlüssel zur Entfaltung fortgeschrittener Reasoning-Fähigkeiten ist. Darüber hinaus bestätigen wir, dass semantische Entropie ein besserer Kompass zur Messung strategischer Exploration ist als irreführende Metriken wie Token-Level-Entropie.
> Reinforcement Learning (RL) has proven highly effective at enhancing the complex reasoning abilities of Large Language Models (LLMs), yet underlying mechanisms driving this success remain largely opaque. Our analysis reveals that puzzling phenomena like aha moments", length-scaling'' and entropy dynamics are not disparate occurrences but hallmarks of an emergent reasoning hierarchy, akin to the separation of high-level strategic planning from low-level procedural execution in human cognition. We uncover a compelling two-phase dynamic: initially, a model is constrained by procedural correctness and must improve its low-level skills. The learning bottleneck then decisively shifts, with performance gains being driven by the exploration and mastery of high-level strategic planning. This insight exposes a core inefficiency in prevailing RL algorithms like GRPO, which apply optimization pressure agnostically and dilute the learning signal across all tokens. To address this, we propose HIerarchy-Aware Credit Assignment (HICRA), an algorithm that concentrates optimization efforts on high-impact planning tokens. HICRA significantly outperforms strong baselines, demonstrating that focusing on this strategic bottleneck is key to unlocking advanced reasoning. Furthermore, we validate semantic entropy as a superior compass for measuring strategic exploration over misleading metrics such as token-level entropy.

Paper-Link

https://arxiv.org/abs/2509.03646


OpenVision 2: Eine Familie generativ vortrainierter visueller Encoder für multimodales Lernen / OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning (feat. Apple)

Paper-Vorstellung

OpenVision 2 schlägt eine neue Familie generativ vortrainierter visueller Encoder für multimodales Lernen vor und vereinfacht die Architektur und das Loss-Design des bestehenden OpenVision, wodurch die Trainingseffizienz deutlich verbessert wird. Die Arbeit baut auf früheren Vision-Language-Pretraining-Arbeiten wie CapPa und AIMv2 sowie auf modernem multimodalem Design wie LLaVA auf und verfolgt einen Ansatz, bei dem der Text-Encoder entfernt und nur der Captioning-Loss beibehalten wird. Diese vereinfachte Struktur besteht aus zwei Modulen, einem Bild-Encoder und einem Text-Decoder, sodass visuelle Repräsentationen durch generative Lernsignale effektiv erlernt werden können.

Erste experimentelle Ergebnisse für OpenVision 2 zeigen, dass die Leistung des ursprünglichen Modells erhalten bleibt, während Trainingszeit und Speicherverbrauch deutlich reduziert werden. Beim Einsatz eines ViT-L/14-Backbones wurde die Trainingszeit beispielsweise um den Faktor 1,5 verkürzt und der Speicherverbrauch um den Faktor 1,8 gesenkt, sodass die maximale Batch-Größe von 2.000 auf 8.000 erhöht werden konnte. Diese Verbesserungen eröffnen OpenVision 2 die Möglichkeit, auf mehr als 1 Milliarde Parameter zu skalieren, und deuten darauf hin, dass ein leichtgewichtiges, rein generatives Paradigma für die Entwicklung multimodaler Foundation Models attraktiv ist.

Die Studie regt dazu an, die bisherige Annahme zu überdenken, dass CLIP-artiges kontrastives Lernen für den Aufbau von Vision-Encodern unverzichtbar sei. OpenVision 2 zeigt, dass rein generative Ziele bei der multimodalen Leistung mit kontrastiven Methoden konkurrieren können, während die Rechenkosten deutlich sinken und eine Skalierung auf größere Modelle ermöglicht wird. Forschende erhalten die Möglichkeit, das Potenzial generativen Pretrainings für Vision-Encoder weiter zu untersuchen, indem sie den vollständigen Trainingssatz und die vortrainierten Checkpoints von OpenVision 2 nutzen. Diese Innovation weist auf eine neue Richtung im Bereich multimodalen Lernens hin und dürfte einen wichtigen Beitrag für künftige Forschung leisten.

Paper-Zusammenfassung (Abstract)

Dieses Paper zeigt, wie sich die Architektur und das Loss-Design von OpenVision vereinfachen lassen, um die Trainingseffizienz zu verbessern. Aufbauend auf früheren Vision-Language-Pretraining-Arbeiten wie CapPa und AIMv2 sowie modernen multimodalen Designs wie LLaVA sind unsere Änderungen unkompliziert: Wir entfernen den Text-Encoder (und damit den kontrastiven Loss) und behalten nur den Captioning-Loss als rein generatives Trainingssignal bei. Diese neue Version nennen wir OpenVision 2. Die ersten Ergebnisse sind vielversprechend: Trotz dieser Vereinfachung erreicht OpenVision 2 auf einer breiten Palette multimodaler Benchmarks eine konkurrenzfähige Leistung auf dem Niveau des ursprünglichen Modells und senkt zugleich Trainingszeit und Speicherverbrauch deutlich. Mit ViT-L/14 verkürzt sich die Trainingszeit beispielsweise um etwa den Faktor 1,5 (von 83 Stunden auf 57 Stunden), während der Speicherverbrauch um etwa den Faktor 1,8 sinkt (von 24,5 GB auf 13,8 GB, wodurch sich die maximale Batch-Größe entsprechend von 2k auf 8k erhöhen lässt). Diese überlegene Trainingseffizienz ermöglicht es uns außerdem, weit über den größten in OpenVision verwendeten Vision-Encoder hinaus zu skalieren und mehr als 1 Milliarde Parameter zu erreichen. Wir sind überzeugt, dass dieses leichtgewichtige, rein generative Paradigma für die künftige Entwicklung von Vision-Encodern in multimodalen Foundation Models äußerst attraktiv ist.
> This paper provides a simplification on OpenVision's architecture and loss design for enhancing its training efficiency. Following the prior vision-language pretraining works CapPa and AIMv2, as well as modern multimodal designs like LLaVA, our changes are straightforward: we remove the text encoder (and therefore the contrastive loss), retaining only the captioning loss as a purely generative training signal. We name this new version OpenVision 2. The initial results are promising: despite this simplification, OpenVision 2 competitively matches the original model's performance on a broad set of multimodal benchmarks while substantially cutting both training time and memory consumption. For example, with ViT-L/14, it reduces training time by about 1.5x (from 83h to 57h), and memory usage by about 1.8x (from 24.5GB to 13.8GB, equivalently allowing the maximum batch size to grow from 2k to 8k). This superior training efficiency also allows us to scale far beyond the largest vision encoder used in OpenVision, reaching more than 1 billion parameters. We hold a strong belief that this lightweight, generative-only paradigm is compelling for future vision encoder development in multimodal foundation models.

Paper-Link

https://arxiv.org/abs/2509.01644

Weiterführende Links

https://ucsc-vlaa.github.io/OpenVision2

https://github.com/UCSC-VLAA/OpenVision

https://huggingface.co/collections/UCSC-VLAA/…

https://huggingface.co/datasets/UCSC-VLAA/Recap-DataComp-1B


Backprompting: Nutzung synthetischer Produktionsdaten für Guardrails bei Gesundheitsratschlägen / Backprompting: Leveraging Synthetic Production Data for Health Advice Guardrails (feat. IBM Research)

Paper-Einführung

Mit der zunehmenden Verbreitung des Einsatzes von Large Language Models (LLMs) in Unternehmensumgebungen treten verschiedene damit verbundene Risiken hervor. Insbesondere die Möglichkeit, dass LLM-Ausgaben Fehlinformationen enthalten, kann in sensiblen Bereichen wie Gesundheitsratschlägen schwerwiegende Folgen haben. Um diese Risiken zu mindern, werden Guardrail-Technologien benötigt, die Ein- und Ausgabetexte von LLMs mithilfe verschiedener Detektoren filtern. Eines der größten Hindernisse bei der Entwicklung und Pflege leistungsfähiger Detektoren ist jedoch die Schwierigkeit, produktionsreife, gelabelte Daten zu realen LLM-Ausgaben zu beschaffen.

Um dieses Problem zu lösen, schlägt diese Studie eine innovative Methodik namens Backprompting vor. Backprompting ist ein Ansatz, bei dem zu einem von einem LLM auf Basis einer Nutzerfrage erzeugten Text erneut Fragen gestellt werden, um produktionsähnliche, gelabelte Daten zu erzeugen. Dabei werden spärliche Human-in-the-Loop-Clustering-Verfahren genutzt, um die generierten Daten zu labeln. So lässt sich ein paralleler Korpus aufbauen, der den ursprünglichen Datensatz grob repräsentiert und zugleich realen LLM-Ausgaben ähnelt.

Das zentrale Ziel der Forschung ist es, robuste Trainingsdaten für Detektoren zu erzeugen, indem bestehende Datensätze mit synthetischen Beispielen angereichert werden. Dadurch soll die Leistung beim Aufbau von Guardrails zur Erkennung von Gesundheitsratschlägen verbessert werden. Die experimentellen Ergebnisse zeigen, dass der vorgeschlagene Detektor im Vergleich zu bestehenden Methoden Leistungssteigerungen von bis zu 3,73 % erzielt und selbst im Vergleich zu GPT-4o hervorragende Resultate liefert. Diese Ergebnisse deuten darauf hin, dass die durch Backprompting erzeugten Daten das Training der Detektoren positiv beeinflusst haben.

Zusammenfassend präsentiert diese Studie eine neue Methodik zur Datengenerierung, um die Sicherheit von LLM-Ausgaben zu erhöhen, und zeigt ihr Potenzial für Anwendungen in verschiedenen Bereichen. Backprompting erweist sich als wirksam für die Entwicklung von Guardrails für Gesundheitsratschläge und dürfte einen wichtigen Beitrag zur sicheren Nutzung von LLMs leisten.

Abstract des Papers

Die Verbreitung großer Sprachmodelle (LLMs) in Unternehmensumgebungen hat erhebliche Risiken im Zusammenhang mit ihrer Nutzung mit sich gebracht. Guardrail-Technologien zielen darauf ab, diese Risiken zu mindern, indem sie Ein-/Ausgabetexte von LLMs mit verschiedenen Detektoren filtern. Die Entwicklung und Wartung robuster Detektoren bringt jedoch mehrere Herausforderungen mit sich. Eine davon ist die Schwierigkeit, vor der Bereitstellung produktionsreife, gelabelte Daten auf Basis realer LLM-Ausgaben zu erhalten. In dieser Arbeit schlagen wir Backprompting als einfache und zugleich intuitive Lösung vor, um produktionsähnliche gelabelte Daten für die Entwicklung von Guardrails für Gesundheitsratschläge zu erzeugen. Darüber hinaus kombinieren wir unsere Backprompting-Methode mit einer sparsamen Human-in-the-Loop-Clustering-Technik, um die erzeugten Daten zu labeln. Unser Ziel ist es, ein Parallelkorpus aufzubauen, das den Originaldatensatz grob repräsentiert und zugleich realen LLM-Ausgaben ähnelt. Anschließend reichern wir bestehende Datensätze mit unseren synthetischen Beispielen an, um robuste Trainingsdaten für unseren Detektor zu erzeugen. Wir testen unsere Technik an einer der schwierigsten und nuanciertesten Guardrail-Aufgaben, nämlich der Identifikation von Gesundheitsratschlägen in LLM-Ausgaben, und zeigen eine verbesserte Leistung gegenüber anderen Lösungen. Unser Detektor kann GPT-4o um bis zu 3,73 % übertreffen, obwohl er 400-mal weniger Parameter hat.
> The pervasiveness of large language models (LLMs) in enterprise settings has also brought forth a significant amount of risks associated with their usage. Guardrails technologies aim to mitigate this risk by filtering LLMs' input/output text through various detectors. However, developing and maintaining robust detectors faces many challenges, one of which is the difficulty in acquiring production-quality labeled data on real LLM outputs prior to deployment. In this work, we propose backprompting, a simple yet intuitive solution to generate production-like labeled data for health advice guardrails development. Furthermore, we pair our backprompting method with a sparse human-in-the-loop clustering technique to label the generated data. Our aim is to construct a parallel corpus roughly representative of the original dataset yet resembling real LLM output. We then infuse existing datasets with our synthetic examples to produce robust training data for our detector. We test our technique in one of the most difficult and nuanced guardrails: the identification of health advice in LLM output, and demonstrate improvement versus other solutions. Our detector is able to outperform GPT-4o by up to 3.73%, despite having 400x less parameters.

Paper-Link

https://arxiv.org/abs/2508.18384


Tiefen-Breiten-Synergie in RLVR: Verbesserte LLM-Reasoning-Fähigkeiten durch adaptive Exploration / Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration

Paper-Einführung

Reinforcement Learning with Verifiable Reward (RLVR) spielt eine wichtige Rolle dabei, die Reasoning-Fähigkeiten großer Sprachmodelle (LLMs) zu maximieren, doch sein Potenzial wird durch zwei bislang wenig erforschte Dimensionen begrenzt: Depth (das schwierigste Problem, das ein Modell sampeln kann) und Breadth (die Anzahl der Instanzen, die in einer einzelnen Iteration verbraucht werden). In dieser Arbeit analysieren wir den bestehenden GRPO-Algorithmus (Generalized Relative Preference Optimization) und decken eine systematische Verzerrung auf, bei der der kumulative Vorteil (cumulative advantage) Samples mit mittlerer Genauigkeit unverhältnismäßig stark gewichtet und Instanzen mit niedriger Genauigkeit vernachlässigt. Um dieses Problem zu lösen, schlagen wir die Methodik Difficulty Adaptive Rollout Sampling (DARS) vor, die durch zielgerichtete mehrstufige Rollouts die Gewichtung schwieriger Probleme neu ausbalanciert und die Zahl positiver Rollouts erhöht.

DARS verbessert nicht einfach nur die Rollout-Größe, sondern trägt zur Steigerung der Pass@K-Leistung bei. Außerdem untersuchen wir, wie eine aggressive Erweiterung der Breite der Trainingsdaten zu besseren Reasoning-Ergebnissen beitragen kann, indem wir die Batch-Größe deutlich vergrößern und die Mini-Batch-Iterationen von Proximal Policy Optimization (PPO) über mehrere Epochen hinweg durch Full-Batch-Updates ersetzen. Dieser Ansatz verbessert die Pass@1-Leistung erheblich, und groß angelegtes Breitentraining hält eine hohe Token-Level-Entropie aufrecht, was auf anhaltende Exploration und reduziertes Gradientenrauschen hinweist.

DARS-B ist eine Methodik, die DARS um große Breite erweitert und dadurch gleichzeitig Leistungsverbesserungen bei Pass@K und Pass@1 erzielt. Dies zeigt, dass adaptive Exploration in Breite und Tiefe eine entscheidende Rolle dabei spielt, die Reasoning-Fähigkeiten von RLVR zu entfalten. Diese Arbeit weist damit einen neuen Weg zur Maximierung der Reasoning-Fähigkeiten von RLVR und belegt experimentell, dass adaptive Exploration von Tiefe und Breite zur Leistungssteigerung von RLVR beiträgt.

Abstract des Papers

Reinforcement Learning with Verifiable Reward (RLVR) hat sich als leistungsstarkes Paradigma herauskristallisiert, um die Reasoning-Fähigkeiten großer Sprachmodelle freizusetzen. Sein volles Potenzial wird jedoch durch zwei bislang zu wenig erforschte Dimensionen begrenzt: Tiefe (Depth) – das schwierigste Problem, das ein Modell sampeln kann; Breite (Breadth) – die Anzahl der in einer einzelnen Iteration verarbeiteten Instanzen. Wir analysieren den populären GRPO-Algorithmus und decken eine systematische Verzerrung auf: Der kumulative Vorteil (cumulative-advantage) gewichtet Samples mit mittlerer Genauigkeit überproportional, während Instanzen mit niedriger Genauigkeit, die entscheidend dafür sind, die Grenzen des Reasoning zu verschieben, geringer gewichtet werden. Um diese Vernachlässigung der Tiefe zu beheben, führen wir Difficulty Adaptive Rollout Sampling (DARS) ein, das schwierige Probleme durch gezielte mehrstufige Rollouts neu gewichtet und dadurch die Zahl positiver Rollouts für schwierige Probleme erhöht. Empirisch beschleunigt ein naives Vergrößern der Rollout-Größe lediglich die Konvergenz und verschlechtert sogar Pass@K. DARS hingegen liefert konsistente Verbesserungen bei Pass@K, ohne zusätzliche Inferenzkosten bei der Konvergenz zu verursachen. So wie wir die Tiefe der Exploration adaptiv erweitert haben, fragen wir nun, ob eine aggressive Skalierung der Breite der Trainingsdaten die Reasoning-Gewinne weiter verstärken kann. Zu diesem Zweck skalieren wir die Batch-Größe massiv und ersetzen die Mini-Batch-Iterationen von PPO durch Full-Batch-Updates über mehrere Epochen. Eine größere Breite verbessert die Pass@1-Leistung deutlich. Training mit großer Breite hält eine hohe Entropie auf Token-Ebene aufrecht, was auf fortgesetzte Exploration und reduziertes Gradientenrauschen hindeutet. Zusätzlich stellen wir DARS-B vor, das DARS um große Breite erweitert, und zeigen gleichzeitige Verbesserungen bei Pass@K und Pass@1. Die Ergebnisse bestätigen, dass Breite und adaptive Exploration über die Tiefe hinweg in RLVR als orthogonale Dimensionen wirken und entscheidend dafür sind, die Reasoning-Stärke von RLVR zu entfalten.
> Reinforcement Learning with Verifiable Reward (RLVR) has emerged as a powerful paradigm for unlocking reasoning capabilities in large language models, yet its full potential is hindered by two under-explored dimensions: Depth-the hardest problem a model can sample; Breadth-the number of instances consumed in a single iteration. We dissect the popular GRPO algorithm and reveal a systematic bias: the cumulative-advantage disproportionately weights samples with medium accuracy, while down-weighting the low-accuracy instances that are crucial for pushing reasoning boundaries. To rectify the depth neglect, we introduce Difficulty Adaptive Rollout Sampling (DARS), which re-weights hard problems through targeted multi-stage rollouts, thereby increasing the number of positive rollouts for hard problems. Empirically, naively enlarging rollout size only accelerates convergence and even hurts Pass@K. Our DARS, in contrast, delivers consistent Pass@K gains without extra inference cost at convergence. Just as we adaptively expanded the depth of exploration, we now ask whether aggressively scaling the breadth of training data can further amplify reasoning gains. To this end, we intensely scale batch size and replace PPO's mini-batch iterations with full-batch updates over multiple epochs. Increasing breadth significantly enhances Pass@1 performance. Large-breadth training sustains high token-level entropy, indicating continued exploration and reduced gradient noise. We further present DARS-B, which augments DARS with large breadth, and demonstrate simultaneous gains in Pass@K and Pass@1. The results confirm that breadth and adaptive exploration across depth operate as orthogonal dimensions in RLVR, which are key to unleashing the reasoning power of RLVR.

Paper-Link

https://arxiv.org/abs/2508.13755


FlowVLA: Bewegung mit einer visuellen Gedankenkette denken / FlowVLA: Thinking in Motion with a Visual Chain of Thought

Paper-Einführung

Vision-Language-Action-(VLA)-Modelle stützen sich auf interne Weltmodelle, die über die Vorhersage des nächsten Frames trainiert werden. Dieser Ansatz hat jedoch Schwierigkeiten mit physikalischem Reasoning, weil statisches Erscheinungsbild und dynamische Bewegung miteinander verflochten sind. Um dieses Problem zu lösen, führen wir ein Pretraining-Framework namens Visual Chain of Thought (Visual CoT) ein, das das Modell dazu anleitet, zunächst die Entwicklung einer Szene zu erschließen und erst danach Vorhersagen zu treffen. FlowVLA sagt zukünftige Frames voraus, indem es zunächst eine zwischengelagerte Darstellung des optischen Flusses erzeugt; dieser Prozess wird innerhalb eines einzelnen autoregressiven Transformers umgesetzt und lernt so dynamische Elemente getrennt. Experimente zeigen, dass FlowVLA konsistente visuelle Vorhersagen erzeugt und die Effizienz des Policy-Learnings deutlich verbessert, wodurch eine prinzipientreuere Grundlage für Weltmodellierung entsteht.

Paper-Abstract

Viele Vision-Language-Action-(VLA)-Modelle stützen sich auf ein internes Weltmodell, das über die Vorhersage des nächsten Frames trainiert wird. Dieser Ansatz hat jedoch Schwierigkeiten mit physikalischem Schlussfolgern, da er statisches Erscheinungsbild und dynamische Bewegung miteinander verknüpft, was oft zu unplausiblen visuellen Vorhersagen und ineffizientem Policy-Lernen führt. Um diese Grenzen zu überwinden, führen wir die Visual Chain of Thought (Visual CoT) ein: ein Pre-Training-Framework, das ein Modell dazu anleitet, darüber zu schlussfolgern, wie sich eine Szene entwickelt, bevor es vorhersagt, wie sie aussehen wird. Wir setzen dieses Prinzip in FlowVLA um, das einen zukünftigen Frame ($v_{t+1}$) erst dann vorhersagt, nachdem es eine zwischengeschaltete optische Flussrepräsentation ($f_t$) erzeugt hat, die die Bewegungsdynamik kodiert. Dieser Denkprozess „$v_t \rightarrow f_t \rightarrow v_{t+1}$“ wird innerhalb eines einzelnen autoregressiven Transformers umgesetzt und führt das Modell dazu, entkoppelte Dynamiken zu lernen. Dadurch erzeugt FlowVLA kohärente visuelle Vorhersagen und ermöglicht effizienteres Policy-Lernen. Experimente auf anspruchsvollen Benchmarks zur robotischen Manipulation zeigen State-of-the-Art-Leistung mit deutlich verbesserter Sample-Effizienz und weisen auf eine prinzipientreuere Grundlage für World Modeling hin. Projektseite: https://irpn-lab.github.io/FlowVLA/
> Many Vision-Language-Action (VLA) models rely on an internal world model trained via next-frame prediction. This approach, however, struggles with physical reasoning as it entangles static appearance with dynamic motion, often resulting in implausible visual forecasts and inefficient policy learning. To address these limitations, we introduce the Visual Chain of Thought (Visual CoT): a pre-training framework that encourages a model to reason about how a scene evolves before predicting what it will look like. We instantiate this principle in FlowVLA, which predicts a future frame ($v_{t+1}$) only after generating an intermediate optical flow representation ($f_t$) that encodes motion dynamics. This ``$v_t \rightarrow f_t \rightarrow v_{t+1}$'' reasoning process is implemented within a single autoregressive Transformer, guiding the model to learn disentangled dynamics. As a result, FlowVLA produces coherent visual predictions and facilitates more efficient policy learning. Experiments on challenging robotics manipulation benchmarks demonstrate state-of-the-art performance with substantially improved sample efficiency, pointing toward a more principled foundation for world modeling. Project page: https://irpn-lab.github.io/FlowVLA/

Paper-Link

https://arxiv.org/abs/2508.18269

Weiterlesen

https://irpn-lab.github.io/FlowVLA/


Episodische Gedächtnisrepräsentation für das Verständnis langformatiger Videos / Episodic Memory Representation for Long-form Video Understanding

Paper-Einführung

Eine der Herausforderungen im Bereich Video Understanding ist die effektive Verarbeitung des Kontexts langer Videos. Bestehende Video Large Language Models (Video-LLMs) sind beim allgemeinen Video Understanding stark, haben bei langen Videos jedoch aufgrund der Begrenzungen des Kontextfensters Schwierigkeiten. Um dieses Problem zu lösen, bietet das vorgeschlagene Framework Video-EM (Episodic Memory Representation) einen innovativen Ansatz, der kein Training erfordert.

Video-EM modelliert die Hauptereignisse eines Videos als zeitlich geordnete Episoden und erfasst so dynamische raumzeitliche Beziehungen und narrative Strukturen. Das Framework besteht aus drei Kernkomponenten: Key Event Selection, Episodic Memory Representation und Chain of Thought (CoT) Video Reasoning. Das Modul Key Event Selection identifiziert abfragerelevante Informationen und extrahiert zeitlich benachbarte Schlüsselevents, wodurch die Redundanz des Videos reduziert wird.

Das Modul Episodic Memory Representation modelliert explizit die zeitliche Reihenfolge jedes Ereignisses und stellt dadurch den dynamischen raumzeitlichen Kontext reichhaltig dar. So kann die Narration des Videos effektiv rekonstruiert werden. Schließlich wählt CoT Video Reasoning iterativ die minimale Menge relevanter episodischer Erinnerungen aus, um präzise und kontextbasierte Antworten zu erzeugen.

Diese Studie bewertete die Leistung von Video-EM auf verschiedenen Benchmarks und zeigte Ergebnisse, die im Vergleich zu bestehenden Modellen Leistungsverbesserungen von 4–9 % erreichten. Diese Resultate zeigen, dass es gelungen ist, mit einer geringeren Anzahl von Frames eine hohe Genauigkeit beizubehalten. Video-EM verbessert die Genauigkeit von Video Question Answering erheblich und leistet einen wichtigen Beitrag, der neue Möglichkeiten im Bereich Video Understanding eröffnet. Dieser Ansatz könnte künftig als wichtige Grundlage für weitere Forschung dienen.

Paper-Zusammenfassung (Abstract)

Video Large Language Models (Video-LLMs) zeigen bei allgemeinem Videoverständnis hervorragende Leistungen, haben jedoch aufgrund der Grenzen des Kontextfensters Schwierigkeiten mit langen Videos. Daher konzentrieren sich neuere Ansätze auf Keyframe-Retrieval und komprimieren lange Videos auf eine kleine Zahl informativer Frames. So praktisch diese Methoden auch sind, vereinfachen sie das Problem auf statisches Text-Bild-Matching und übersehen dabei raumzeitliche Beziehungen, die für das Erfassen von Szenenwechseln und kontextueller Kontinuität entscheidend sind; zudem können sie redundante Keyframes mit begrenztem Informationsgehalt erzeugen, wodurch wichtige Hinweise verwässert werden, die für präzises Video-Question-Answering essenziell sind. Um diese Grenzen zu überwinden, stellen wir Video-EM vor, ein trainingsfreies Framework, das von den Prinzipien des menschlichen episodischen Gedächtnisses inspiriert ist und robustes, kontextuell fundiertes Schlussfolgern ermöglichen soll. Anstatt Keyframes als isolierte visuelle Einheiten zu behandeln, modelliert Video-EM sie explizit als zeitlich geordnete episodische Ereignisse und erfasst so sowohl räumliche Beziehungen als auch zeitliche Dynamiken, die notwendig sind, um die zugrunde liegende Erzählung präzise zu rekonstruieren. Darüber hinaus nutzt das Framework Chain-of-Thought-(CoT)-Denken mit LLMs, um iterativ eine minimale, aber hochinformative Teilmenge episodischer Erinnerungen zu identifizieren, und ermöglicht so effizientes und präzises Question Answering durch Video-LLMs. Umfangreiche Evaluierungen auf den Benchmarks Video-MME, EgoSchema, HourVideo und LVBench bestätigen die Überlegenheit von Video-EM: Gegenüber den jeweiligen Baselines erreicht es Leistungssteigerungen von 4–9 % und erzielt dabei mit weniger Frames wettbewerbsfähige Ergebnisse.
> Video Large Language Models (Video-LLMs) excel at general video understanding but struggle with long-form videos due to context window limits. Consequently, recent approaches focus on keyframe retrieval, condensing lengthy videos into a small set of informative frames. Despite their practicality, these methods simplify the problem to static text image matching, overlooking spatio temporal relationships crucial for capturing scene transitions and contextual continuity, and may yield redundant keyframes with limited information, diluting salient cues essential for accurate video question answering. To address these limitations, we introduce Video-EM, a training free framework inspired by the principles of human episodic memory, designed to facilitate robust and contextually grounded reasoning. Rather than treating keyframes as isolated visual entities, Video-EM explicitly models them as temporally ordered episodic events, capturing both spatial relationships and temporal dynamics necessary for accurately reconstructing the underlying narrative. Furthermore, the framework leverages chain of thought (CoT) thinking with LLMs to iteratively identify a minimal yet highly informative subset of episodic memories, enabling efficient and accurate question answering by Video-LLMs. Extensive evaluations on the Video-MME, EgoSchema, HourVideo, and LVBench benchmarks confirm the superiority of Video-EM, which achieves highly competitive results with performance gains of 4-9 percent over respective baselines while utilizing fewer frames.

Paper-Link

https://arxiv.org/abs/2508.09486


Dieser Beitrag basiert auf einem mit einem GPT-Modell zusammengefassten Text, daher können Inhalte anders als im Original wiedergegeben sein oder von der ursprünglichen Intention abweichen. Wenn Sie das Thema interessiert, lesen Sie bitte auch den Originaltext. Falls Ihnen beim Lesen unnatürliche Formulierungen oder Fehler auffallen, freuen wir uns über einen Hinweis in den Kommentaren. 🤗

⚠️Werbung⚠️: War dieser von der 🔥PyTorch Korea User Group🇰🇷 zusammengestellte Beitrag hilfreich für Sie? Wenn Sie sich registrieren, senden wir Ihnen wichtige Beiträge per E-Mail💌 zu! Standardmäßig ist Weekly eingestellt, Sie können dies aber auch auf Daily ändern.

Noch keine Kommentare.

Noch keine Kommentare.