[2025/12/22 ~ 28] Lesenswerte AI/ML-Papers dieser Woche
(discuss.pytorch.kr)[2025/12/22 ~ 28] Lesenswerte AI/ML-Papers dieser Woche
PyTorchKR🔥🇰🇷 🤔💭
1️⃣ Tiefgehende Strategien zur Erkennung und Minderung von Halluzinationen (Deep Hallucination Detection & Mitigation): Ein Blick auf die diese Woche ausgewählten Papers zeigt deutlich den Versuch, über das bloße Vergrößern von Modellen hinaus das chronische Problem von LLMs, die Halluzination, grundlegend zu lösen. QuCo-RAG bestimmt den Zeitpunkt der Suche mithilfe eines objektiven Indikators, nämlich der Statistik der vortrainierten Daten, statt anhand des subjektiven Vertrauens des Modells, während H-Neurons einen mikroskopischen Ansatz verfolgt, der spezifische halluzinationsauslösende Neuronen identifiziert und ihren Ursprung zurückverfolgt. Außerdem reduziert Model-First Reasoning strukturelle Fehler, indem vor der Problemlösung ein expliziter Modellierungsschritt durchlaufen wird. Das zeigt, dass sich die AI-Forschung von bloß „plausibel klingenden Antworten“ hin zu überprüfbaren und verlässlichen Mechanismen entwickelt.
2️⃣ Weiterentwicklung von Inferenz-Effizienz und Echtzeitverarbeitung (Evolution of Inference Efficiency & Real-Time Processing): Mit dem Wachstum der Modelle wird auch intensiv daran geforscht, Inferenzgeschwindigkeit und Speichereffizienz zu maximieren. WorldPlay ermöglicht Echtzeit-Videogenerierung, indem es den Trade-off zwischen Geschwindigkeit und Speicher löst, und Jacobi Forcing steigert die Inferenzgeschwindigkeit durch paralleles Decoding drastisch, indem es die Grenzen der sequenziellen Generierung (AR) überwindet. Darüber hinaus präsentiert qTTT einen neuen Ansatz, bei dem in der Inferenzphase leichtgewichtiges Lernen durchgeführt wird, um Leistungsabfälle bei langen Kontexten (Score Dilution) zu verhindern. Das lässt sich als unverzichtbarer Optimierungsschritt verstehen, um Hochleistungsmodelle auf tatsächlichem Service-Niveau (Real-time application) einzusetzen.
3️⃣ Verbessertes Verständnis dynamischer Welten und strukturiertes Schlussfolgern (Enhanced Dynamic World Understanding & Structured Reasoning): Über die Analyse statischer Bilder oder Texte hinaus ist ein starker Trend erkennbar, den Zeitverlauf (4D) sowie physische/logische Strukturen zu verstehen. 4D-RGPT versucht ein 4D-Verständnis, indem es zur 3D-Raumrepräsentation eine Zeitachse hinzufügt, um die zeitliche Dynamik von Videos zu erfassen, und WorldPlay führt Weltmodellierung unter Wahrung geometrischer Konsistenz durch. NEPA will das visuelle Verständnis ebenfalls verbessern, indem es statt Pixelrekonstruktion Embedding-Vorhersage nutzt. Das deutet darauf hin, dass AI über bloßes Pattern Matching hinaus in eine Phase eintritt, in der sie wie Menschen „die Funktionsweise der Welt“ einschließlich physikalischer Gesetze und logischer Kausalität internalisiert.
WorldPlay: Hin zu langfristiger geometrischer Konsistenz für interaktive Weltmodellierung in Echtzeit / WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling
Paper-Einführung
WorldPlay ist ein innovatives Streaming-Video-Diffusionsmodell für interaktive Weltmodellierung in Echtzeit, das mit dem Schwerpunkt entwickelt wurde, langfristige geometrische Konsistenz aufrechtzuerhalten und zugleich den Trade-off zwischen Geschwindigkeit und Speicher zu lösen. Das Modell maximiert seine Leistung durch drei zentrale Innovationen. Erstens ermöglicht Dual Action Representation eine robuste Bewegungssteuerung auf Basis von Nutzereingaben und setzt physikalisch plausible Bewegungen in Szenen unterschiedlicher Größenordnungen um. Zweitens trägt Reconstituted Context Memory dazu bei, langfristige Konsistenz zu bewahren, indem Informationen aus vergangenen Frames dynamisch rekonstruiert werden. Dadurch bleiben geometrisch wichtige ältere Frames zugänglich, was die Speichereffizienz erhöht. Drittens wird mit Context Forcing eine neue Distillationsmethode eingeführt, die die Leistung speicherbewusster Modelle verbessert. Diese Methode richtet den Speicherkontext zwischen Lehrer- und Schülermodell aus, sodass das Schülermodell Langzeitinformationen effektiv nutzen kann.
WorldPlay erzeugt 720p-Videos mit 24 Bildern pro Sekunde und zeigt im Vergleich zu bestehenden Verfahren eine überlegene Konsistenz. Das Modell erreicht sowohl Geschwindigkeit bei der Echtzeit-Videogenerierung als auch langfristige geometrische Konsistenz und zeigt eine starke Generalisierungsfähigkeit über verschiedene Szenen hinweg. Darüber hinaus ermöglicht es hochwertige 3D-Rekonstruktionen und unterstützt promptbasierte Interaktionen, mit denen dynamische Weltereignisse ausgelöst werden können. Dank dieser Eigenschaften leistet WorldPlay einen wichtigen Beitrag im Bereich der interaktiven Echtzeit-Videogenerierung und eröffnet künftig vielfältige Anwendungsmöglichkeiten.
Paper-Zusammenfassung (Abstract)
Dieses Paper stellt WorldPlay vor, ein Streaming-Video-Diffusionsmodell, das interaktive Weltmodellierung in Echtzeit ermöglicht. WorldPlay löst den Zielkonflikt zwischen Geschwindigkeit und Speicher, der aktuelle Methoden einschränkt, und bewahrt dabei eine langfristige geometrische Konsistenz. WorldPlay stützt sich auf drei zentrale Innovationen. 1) Wir verwenden eine Dual Action Representation, die eine robuste Aktionssteuerung als Reaktion auf die Tastatur- und Mauseingaben der Nutzer ermöglicht. 2) Um langfristige Konsistenz sicherzustellen, rekonstruiert unser Reconstituted Context Memory den Kontext aus vergangenen Frames dynamisch und nutzt temporales Reframing, um geometrisch wichtige, aber weit zurückliegende Frames zugänglich zu halten, wodurch die Abschwächung des Speichers wirksam gemildert wird. 3) Außerdem schlagen wir Context Forcing vor, eine neue Destillationsmethode für speicherbewusste Modelle. Durch die Ausrichtung des Speicherkontexts zwischen Lehrer und Schüler bleibt die Fähigkeit des Schülers erhalten, Langzeitinformationen zu nutzen, was Echtzeitgeschwindigkeit ermöglicht und zugleich Fehlerdrift verhindert. Insgesamt kann WorldPlay langfristig 720p-Videostreams mit 24 FPS erzeugen, wobei es im Vergleich zu bestehenden Verfahren eine überlegene Konsistenz beibehält und über verschiedene Szenen hinweg eine starke Generalisierungsfähigkeit zeigt. Die Projektseite und die Online-Demo finden sich unter: https://3d-models.hunyuan.tencent.com/world/ und https://3d.hunyuan.tencent.com/sceneTo3D.
> This paper presents WorldPlay, a streaming video diffusion model that enables real-time, interactive world modeling with long-term geometric consistency, resolving the trade-off between speed and memory that limits current methods. WorldPlay draws power from three key innovations. 1) We use a Dual Action Representation to enable robust action control in response to the user's keyboard and mouse inputs. 2) To enforce long-term consistency, our Reconstituted Context Memory dynamically rebuilds context from past frames and uses temporal reframing to keep geometrically important but long-past frames accessible, effectively alleviating memory attenuation. 3) We also propose Context Forcing, a novel distillation method designed for memory-aware model. Aligning memory context between the teacher and student preserves the student's capacity to use long-range information, enabling real-time speeds while preventing error drift. Taken together, WorldPlay generates long-horizon streaming 720p video at 24 FPS with superior consistency, comparing favorably with existing techniques and showing strong generalization across diverse scenes. Project page and online demo can be found: https://3d-models.hunyuan.tencent.com/world/ and https://3d.hunyuan.tencent.com/sceneTo3D.
Paper-Link
https://arxiv.org/abs/2512.14614
Mehr lesen
https://3d-models.hunyuan.tencent.com/world/
https://3d.hunyuan.tencent.com/sceneTo3D
QuCo-RAG: Methode für Dynamic Retrieval-Augmented Generation durch Quantifizierung von Unsicherheit aus den Pre-Training-Daten / QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation
Paper-Einführung
QuCo-RAG ist eine innovative Methodik, die Halluzinationen mindert, indem sie im Generierungsprozess großer Sprachmodelle (LLMs) dynamisch entscheidet, wann Retrieval ausgelöst werden soll. Bestehende Ansätze stützen sich auf interne Signale des Modells, was jedoch das Problem hat, dass LLMs oft schlecht kalibriert sind und bei falschen Ausgaben ein hohes Vertrauen zeigen. Um diese Grenzen zu überwinden, schlägt diese Arbeit eine neue Methode vor, die Unsicherheit nicht über subjektive Konfidenz, sondern über objektive Statistiken quantifiziert, die aus den Pre-Training-Daten berechnet werden.
Die Unsicherheitsquantifizierung von QuCo-RAG besteht aus zwei Hauptschritten. Im ersten Schritt werden vor der Generierung seltene Entitäten identifiziert, die auf Long-Tail-Wissenslücken hinweisen. Im zweiten Schritt wird während der Generierung das gemeinsame Auftreten von Entitäten in den Pre-Training-Daten überprüft; ist die Co-Occurrence gleich null, signalisiert dies ein Halluzinationsrisiko. Diese beiden Schritte nutzen Infini-gram, um Abfragen mit Millisekundenlatenz über 4 Billionen Tokens auszuführen und so Retrieval in Situationen mit hoher Unsicherheit auszulösen.
Experimentelle Ergebnisse zeigen, dass QuCo-RAG auf Multi-Hop-Question-Answering-(QA)-Benchmarks mit dem OLMo-2-Modell gegenüber aktuellen Baselines eine Genauigkeitssteigerung (EM) von 5 bis 12 Punkten erzielt. Darüber hinaus lässt sich die Methode auch effektiv auf Modelle mit inoffiziellen Pre-Training-Daten (Llama, Qwen, GPT) übertragen und verbessert dort EM um bis zu 14 Punkte. Experimente zur Domain-Generalization im biomedizinischen QA validieren zusätzlich die Robustheit von QuCo-RAG.
QuCo-RAG präsentiert ein neues Paradigma für Dynamic Retrieval-Augmented Generation durch Verifikation auf Basis des Pre-Training-Korpus und ist als modellunabhängiger Ansatz auf verschiedene LLMs anwendbar. Diese Forschung trägt dazu bei, das Risiko von Halluzinationen zu verringern, und wird künftig die Anwendungsmöglichkeiten in verschiedenen Domänen weiter untersuchen.
Abstract des Papers
Dynamic Retrieval-Augmented Generation bestimmt adaptiv, wann während der Generierung eine Retrieval-Abfrage erfolgen soll, um Halluzinationen in großen Sprachmodellen (LLMs) zu reduzieren. Bestehende Methoden stützen sich jedoch auf modellinterne Signale wie Logits oder Entropie, die grundsätzlich unzuverlässig sind, da LLMs typischerweise schlecht kalibriert sind und bei fehlerhaften Ausgaben oft eine hohe Sicherheit zeigen. Wir schlagen QuCo-RAG vor, das den Fokus von subjektiver Zuversicht auf objektive, aus den Pre-Training-Daten berechnete Statistiken verlagert. Unsere Methode quantifiziert Unsicherheit in zwei Stufen: (1) vor der Generierung identifizieren wir seltene Entitäten, die auf Long-Tail-Wissenslücken hinweisen; (2) während der Generierung prüfen wir das gemeinsame Auftreten von Entitäten im Pre-Training-Korpus, wobei ein fehlendes gemeinsames Auftreten häufig ein Signal für Halluzinationsrisiko ist. Beide Stufen nutzen Infini-gram für Abfragen mit Millisekunden-Latenz über 4 Billionen Tokens und lösen Retrieval aus, wenn die Unsicherheit hoch ist. Experimente auf Multi-Hop-QA-Benchmarks zeigen, dass QuCo-RAG mit OLMo-2-Modellen EM-Gewinne von 5–12 Punkten gegenüber Baselines auf dem Stand der Technik erzielt und sich effektiv auf Modelle mit nicht offengelegten Pre-Training-Daten (Llama, Qwen, GPT) übertragen lässt, wobei EM um bis zu 14 Punkte verbessert wird. Die Domänengeneralisierung auf biomedizinischem QA validiert zusätzlich die Robustheit unseres Paradigmas. Diese Ergebnisse etablieren korpusgestützte Verifikation als ein prinzipientreues und in der Praxis weitgehend modellagnostisches Paradigma für dynamisches RAG. Unser Code ist öffentlich verfügbar unter https://github.com/ZhishanQ/QuCo-RAG.
> Dynamic Retrieval-Augmented Generation adaptively determines when to retrieve during generation to mitigate hallucinations in large language models (LLMs). However, existing methods rely on model-internal signals (e.g., logits, entropy), which are fundamentally unreliable because LLMs are typically ill-calibrated and often exhibit high confidence in erroneous outputs. We propose QuCo-RAG, which shifts from subjective confidence to objective statistics computed from pre-training data. Our method quantifies uncertainty through two stages: (1) before generation, we identify low-frequency entities indicating long-tail knowledge gaps; (2) during generation, we verify entity co-occurrence in the pre-training corpus, where zero co-occurrence often signals hallucination risk. Both stages leverage Infini-gram for millisecond-latency queries over 4 trillion tokens, triggering retrieval when uncertainty is high. Experiments on multi-hop QA benchmarks show QuCo-RAG achieves EM gains of 5--12 points over state-of-the-art baselines with OLMo-2 models, and transfers effectively to models with undisclosed pre-training data (Llama, Qwen, GPT), improving EM by up to 14 points. Domain generalization on biomedical QA further validates the robustness of our paradigm. These results establish corpus-grounded verification as a principled, practically model-agnostic paradigm for dynamic RAG. Our code is publicly available at https://github.com/ZhishanQ/QuCo-RAG.
Paper-Link
https://arxiv.org/abs/2512.19134
Weiterlesen
https://github.com/ZhishanQ/QuCo-RAG
4D-RGPT: Ein perzeptionsdestillationsbasierter Ansatz für 4D-Verständnis auf Regionsebene / 4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation
Paper-Einführung
4D-RGPT ist ein spezialisiertes multimodales großes Sprachmodell (MMLM), das entwickelt wurde, um 4D-Repräsentationen aus Videoeingaben effektiv zu erfassen. Bestehende 3D- und 4D-Video-Question-Answering-(VQA-)Benchmarks konzentrieren sich auf statische Szenen und verfügen nicht über Prompts auf Regionsebene, wodurch das Verständnis zeitlicher Dynamiken eingeschränkt ist. Um dieses Problem zu lösen, führt diese Studie ein innovatives Trainings-Framework namens Perceptual 4D Distillation (P4D) ein, das umfassende 4D-Wahrnehmung ermöglicht, indem 4D-Repräsentationen aus eingefrorenen Expertenmodellen auf 4D-RGPT übertragen werden.
Außerdem wird ein neuer Benchmark namens R4D-Bench vorgeschlagen, der Prompts auf Regionsebene für tiefenbewusste dynamische Szenen enthält. R4D-Bench wurde über eine hybride Pipeline aus Automatisierung und menschlicher Validierung erstellt, um die Grenzen bestehender nicht regionaler 4D-VQA-Benchmarks zu überwinden. Der Benchmark umfasst 9 Fragenkategorien, um verschiedene Aspekte des 4D-Verständnisses zu bewerten, wobei jede Kategorie einen Maßstab für die umfassende Bewertung der Leistung von MMLMs liefert.
Das Multiple-Choice-Frageformat erfordert die Präzision, die MMLMs benötigen, um exakte Antworten zu geben; diese ist essenziell, um Position und Ausrichtung von Objekten zu verstehen. Dieser Ansatz verbessert die 4D-Verständnisfähigkeit von MMLMs und ermöglicht durch regionsbasierte Fragen eine tiefergehende Bewertung. Die Studie leistet mit 4D-RGPT und R4D-Bench einen wichtigen Beitrag, indem sie die Grenzen bestehender VQA-Systeme überwindet und 4D-Wahrnehmung sowie zeitliches Verständnis verbessert.
Paper-Abstract
Trotz der Fortschritte bei verschiedenen multimodalen Large Language Models (MLLMs) ist ihre Fähigkeit zum Schlussfolgern über 3D-Strukturen und zeitliche Dynamiken weiterhin begrenzt, eingeschränkt durch eine schwache 4D-Wahrnehmung und ein unzureichendes zeitliches Verständnis. Bestehende 3D- und 4D-Video-Question-Answering-(VQA)-Benchmarks konzentrieren sich zudem auf statische Szenen und es fehlt an Prompts auf Regionsebene. Um diese Probleme anzugehen, führen wir Folgendes ein: (a) 4D-RGPT, ein spezialisiertes MLLM, das darauf ausgelegt ist, mit verbesserter zeitlicher Wahrnehmung 4D-Repräsentationen aus Videoeingaben zu erfassen; (b) Perceptual 4D Distillation (P4D), ein Trainings-Framework, das 4D-Repräsentationen aus einem eingefrorenen Expertenmodell in 4D-RGPT überträgt, um eine umfassende 4D-Wahrnehmung zu ermöglichen; und (c) R4D-Bench, einen Benchmark für tiefenbewusste dynamische Szenen mit Prompts auf Regionsebene, der über eine hybride Pipeline aus Automatisierung und menschlicher Verifikation erstellt wurde. Unser 4D-RGPT erzielt sowohl bei bestehenden 4D-VQA-Benchmarks als auch beim vorgeschlagenen R4D-Bench-Benchmark bemerkenswerte Verbesserungen.
> Despite advances in Multimodal LLMs (MLLMs), their ability to reason over 3D structures and temporal dynamics remains limited, constrained by weak 4D perception and temporal understanding. Existing 3D and 4D Video Question Answering (VQA) benchmarks also emphasize static scenes and lack region-level prompting. We tackle these issues by introducing: (a) 4D-RGPT, a specialized MLLM designed to capture 4D representations from video inputs with enhanced temporal perception; (b) Perceptual 4D Distillation (P4D), a training framework that transfers 4D representations from a frozen expert model into 4D-RGPT for comprehensive 4D perception; and (c) R4D-Bench, a benchmark for depth-aware dynamic scenes with region-level prompting, built via a hybrid automated and human-verified pipeline. Our 4D-RGPT achieves notable improvements on both existing 4D VQA benchmarks and the proposed R4D-Bench benchmark.
Paper-Link
https://arxiv.org/abs/2512.17012
Weiterlesen
https://ca-joe-yang.github.io/resource/projects/4D_RGPT
H-Neuronen: Eine Studie zur Existenz, Wirkung und Herkunft von mit Halluzinationen assoziierten Neuronen in Large Language Models / H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs
Paper-Vorstellung
Das Halluzinationsproblem in Large Language Models (LLMs) ist einer der Hauptfaktoren, die die Zuverlässigkeit von Modellen beeinträchtigen, und bezeichnet das Phänomen, bei dem plausibel klingende, aber faktisch falsche Ausgaben erzeugt werden. Diese Studie analysiert systematisch die Existenz, den Einfluss und die Herkunft von mit Halluzinationen assoziierten Neuronen, den sogenannten H-Neuronen. Im Prozess ihrer Identifikation wurde gezeigt, dass eine spärliche Menge von Neuronen, weniger als 0,1 % aller Neuronen, das Auftreten von Halluzinationen zuverlässig vorhersagen kann. Diese Neuronen zeigten in verschiedenen Szenarien eine starke Generalisierungsfähigkeit.
Hinsichtlich ihrer verhaltensbezogenen Wirkung wurde durch kontrollierte Interventionen festgestellt, dass H-Neuronen kausal mit übermäßiger Gefälligkeit verbunden sind. Dies deutet darauf hin, dass die zur Entstehung von Halluzinationen beitragenden Neuronen nicht einfach zufällig aktiviert werden, sondern eng mit bestimmten Verhaltensmustern zusammenhängen. Bezüglich ihrer Herkunft wurde bestätigt, dass H-Neuronen aus vortrainierten Basismodellen stammen und ihre Vorhersagekraft für die Halluzinationserkennung beibehalten. Dies liefert die wichtige Einsicht, dass H-Neuronen bereits im frühen Lernprozess des Modells entstehen.
Methodisch wurde der TriviaQA-Datensatz genutzt, um einen hochwertigen Kontrastsatz zu erstellen, der zuverlässige Ausgaben von halluzinierten Ausgaben unterscheidet, um mit Halluzinationen assoziierte Neuronen robust zu identifizieren. Anschließend wurde ein linearer Klassifikator trainiert, um den Beitrag jedes Neurons zu quantifizieren, und daraus binäre Labels zur Vorhersage von Halluzinationen erzeugt. Dieser Ansatz schafft eine Grundlage, um den funktionalen Einfluss von H-Neuronen klar zu bewerten.
Abschließend trägt die Studie zum Verständnis der neuronalen Mechanismen hinter Halluzinationen in LLMs bei und liefert wichtiges Grundlagenmaterial für die Entwicklung künftig zuverlässigerer LLMs. Diese Ergebnisse bieten essenzielle Einsichten für die Forschung zur Erhöhung der Zuverlässigkeit von LLMs und schaffen eine wichtige Grundlage für zukünftige Forschungsrichtungen.
Abstract
Large Language Models (LLMs) erzeugen häufig Halluzinationen, also plausibel wirkende, aber faktisch inkorrekte Ausgaben, was ihre Zuverlässigkeit untergräbt. Frühere Arbeiten haben Halluzinationen aus makroskopischen Perspektiven wie Trainingsdaten und Zielsetzungen untersucht, doch die zugrunde liegenden Mechanismen auf Neuronenebene sind weitgehend unerforscht. In dieser Arbeit führen wir eine systematische Untersuchung von mit Halluzinationen assoziierten Neuronen (H-Neuronen) in LLMs aus drei Perspektiven durch: Identifikation, verhaltensbezogene Wirkung und Herkunft. Hinsichtlich der Identifikation zeigen wir, dass eine bemerkenswert spärliche Teilmenge von Neuronen (weniger als $0.1%$ aller Neuronen) das Auftreten von Halluzinationen zuverlässig vorhersagen kann und über verschiedene Szenarien hinweg stark generalisiert. In Bezug auf die verhaltensbezogene Wirkung zeigen kontrollierte Interventionen, dass diese Neuronen kausal mit übermäßiger Gefälligkeit verbunden sind. Hinsichtlich ihrer Herkunft verfolgen wir diese Neuronen bis zu den vortrainierten Basismodellen zurück und stellen fest, dass sie ihre Vorhersagekraft für die Halluzinationserkennung behalten, was darauf hindeutet, dass sie während des Pre-Trainings entstehen. Unsere Ergebnisse schlagen eine Brücke zwischen makroskopischen Verhaltensmustern und mikroskopischen neuronalen Mechanismen und bieten Einsichten für die Entwicklung zuverlässigerer LLMs.
> Large language models (LLMs) frequently generate hallucinations -- plausible but factually incorrect outputs -- undermining their reliability. While prior work has examined hallucinations from macroscopic perspectives such as training data and objectives, the underlying neuron-level mechanisms remain largely unexplored. In this paper, we conduct a systematic investigation into hallucination-associated neurons (H-Neurons) in LLMs from three perspectives: identification, behavioral impact, and origins. Regarding their identification, we demonstrate that a remarkably sparse subset of neurons (less than $0.1%$ of total neurons) can reliably predict hallucination occurrences, with strong generalization across diverse scenarios. In terms of behavioral impact, controlled interventions reveal that these neurons are causally linked to over-compliance behaviors. Concerning their origins, we trace these neurons back to the pre-trained base models and find that these neurons remain predictive for hallucination detection, indicating they emerge during pre-training. Our findings bridge macroscopic behavioral patterns with microscopic neural mechanisms, offering insights for developing more reliable LLMs.
Paper-Link
https://arxiv.org/abs/2512.01797
Next-Embedding Prediction macht starke Vision-Learner möglich / Next-Embedding Prediction Makes Strong Vision Learners
Paper-Einführung
Self-Supervised Learning ist zu einer wichtigen Methodik geworden, um Repräsentationen mithilfe großer unannotierter Datensätze zu lernen. In den letzten Jahren haben sich dabei verschiedene Ansätze wie Contrastive Learning und Self-Distillation weiterentwickelt. Diese Methoden benötigen jedoch oft große Batch-Größen oder Memory Banks, und auch Rekonstruktionsziele mit leichtgewichtigen Decodern haben ihre Grenzen gezeigt. Als Alternative wurde Predictive Representation Learning vorgeschlagen, bei dem statt roher Eingaben semantische Embeddings vorhergesagt werden; insbesondere Verfahren wie JEPA (Just-Embedding Predictive Autoregression) haben Aufmerksamkeit erregt. JEPA ist jedoch auf Repräsentationen ausgerichtet und hat die Einschränkung, dass ein vortrainierter Encoder Merkmale erzeugt, die anschließend separat von Downstream-Modulen genutzt werden.
Vor diesem Hintergrund wurde der Ansatz Next-Embedding Predictive Autoregression (NEPA) vorgeschlagen, der zukünftige Patch-Embeddings auf Basis vergangener Patch-Embeddings vorhersagt und dabei Causal Masking sowie Stop-Gradient-Techniken nutzt. NEPA konzentriert sich darauf, das Modell nicht dazu zu trainieren, Merkmale für Downstream-Aufgaben auszugeben, sondern die Vorhersageaufgabe direkt auszuführen. Die Methodik basiert auf einer einfachen Transformer-Architektur und erzielt durch Pretraining auf dem ImageNet-1k-Datensatz hohe Leistung. Besonders bemerkenswert ist, dass starke Ergebnisse auch ohne Pixelrekonstruktion, diskrete Tokens, kontrastiven Loss oder aufgabenspezifische Heads erhalten bleiben.
NEPA erreichte mit ViT-B- und ViT-L-Backbones auf ImageNet-1K jeweils eine Top-1-Genauigkeit von 83,8 % beziehungsweise 85,3 % und ließ sich auch effektiv auf die Aufgabe der semantischen Segmentierung auf ADE20K übertragen. Diese Ergebnisse zeigen, dass NEPA als einfache, skalierbare und potenziell modalitätsagnostische Alternative zum visuellen Self-Supervised Learning beitragen kann. Die Forschung zu NEPA zeigt die Möglichkeit auf, Aufgabenverhalten durch Vorhersage direkt zu steuern, und leistet damit einen wichtigen Beitrag, der den Einsatz in verschiedenen Vision-Aufgaben künftig eröffnet.
Abstract
Inspiriert vom Erfolg generativen Pretrainings in der natürlichen Sprachverarbeitung fragen wir, ob dieselben Prinzipien starke selbstüberwachte visuelle Lerner hervorbringen können. Statt Modelle darauf zu trainieren, Merkmale für die nachgelagerte Nutzung auszugeben, trainieren wir sie darauf, Embeddings zu erzeugen, um Vorhersageaufgaben direkt auszuführen. Diese Arbeit untersucht einen solchen Wechsel vom Repräsentationslernen zum Modelllernen. Konkret lernen Modelle, zukünftige Patch-Embeddings unter Bedingung vergangener Embeddings vorherzusagen, wobei Causal Masking und Stop Gradient verwendet werden. Wir nennen dies Next-Embedding Predictive Autoregression (NEPA). Wir zeigen, dass ein einfacher Transformer, der auf ImageNet-1k vortrainiert wurde und Next-Embedding Prediction als einziges Lernziel verwendet, effektiv ist. Pixelrekonstruktion, diskrete Tokens, kontrastiver Loss oder aufgabenspezifische Heads sind nicht erforderlich. Diese Formulierung bewahrt strukturelle Einfachheit und Skalierbarkeit, ohne zusätzliche Designkomplexität zu benötigen. NEPA erzielt starke Ergebnisse über verschiedene Aufgaben hinweg und erreicht nach Fine-Tuning mit ViT-B- und ViT-L-Backbones auf ImageNet-1K eine Top-1-Genauigkeit von 83,8 % bzw. 85,3 % und lässt sich effektiv auf semantische Segmentierung auf ADE20K übertragen. Wir glauben, dass generatives Pretraining aus Embeddings eine einfache, skalierbare und potenziell modalitätsagnostische Alternative für visuelles Self-Supervised Learning bietet.
> Inspired by the success of generative pretraining in natural language, we ask whether the same principles can yield strong self-supervised visual learners. Instead of training models to output features for downstream use, we train them to generate embeddings to perform predictive tasks directly. This work explores such a shift from learning representations to learning models. Specifically, models learn to predict future patch embeddings conditioned on past ones, using causal masking and stop gradient, which we refer to as Next-Embedding Predictive Autoregression (NEPA). We demonstrate that a simple Transformer pretrained on ImageNet-1k with next embedding prediction as its sole learning objective is effective - no pixel reconstruction, discrete tokens, contrastive loss, or task-specific heads. This formulation retains architectural simplicity and scalability, without requiring additional design complexity. NEPA achieves strong results across tasks, attaining 83.8% and 85.3% top-1 accuracy on ImageNet-1K with ViT-B and ViT-L backbones after fine-tuning, and transferring effectively to semantic segmentation on ADE20K. We believe generative pretraining from embeddings provides a simple, scalable, and potentially modality-agnostic alternative to visual self-supervised learning.
Paper-Link
https://arxiv.org/abs/2512.16922
Weiterführende Lektüre
Model-First-Reasoning-LLM-Agenten: Halluzinationen durch explizite Problemmodellierung reduzieren / Model-First Reasoning LLM Agents: Reducing Hallucinations through Explicit Problem Modeling
Paper-Einführung
Große Sprachmodelle (LLMs) neigen bei komplexen mehrstufigen Planungsaufgaben zu einem hohen Anteil an Constraint-Verletzungen und inkonsistenten Lösungen. Bestehende Strategien wie Chain-of-Thought und ReAct stützen sich auf implizites State-Tracking und können diese Grenzen wegen fehlender expliziter Problemrepräsentationen nicht überwinden. Diese Studie schlägt, inspiriert von klassischer KI-Planung, ein neues zweistufiges Paradigma namens Model-First Reasoning (MFR) vor. Dabei konstruiert das LLM zunächst ein explizites Modell des Problems und erzeugt anschließend darauf aufbauend einen Lösungsplan.
Experimente in mehreren Planungsdomänen zeigen, dass MFR sowohl die Constraint-Einhaltung als auch die Lösungsqualität verbessert. Insbesondere wurde die Wirksamkeit von MFR in verschiedenen Bereichen wie medizinischer Terminplanung, Routenplanung, Ressourcenzuteilung, Logikrätseln und prozeduraler Synthese nachgewiesen. Ablationsstudien unterstreichen, dass der explizite Modellierungsschritt für diese Ergebnisse entscheidend ist. Die Resultate legen nahe, dass Planungsfehler von LLMs hauptsächlich auf Mängel in der Repräsentation zurückgehen und eher aus unzureichender Problemrepräsentation als aus Grenzen des Schlussfolgerns resultieren.
MFR ist in eine Phase zur Konstruktion eines expliziten Problemmodells und eine Phase zur Erzeugung der Lösung unterteilt; dabei werden Entitäten, Zustandsvariablen, Aktionen und Constraints definiert. Diese explizite Modellierung hilft dem LLM, Probleme strukturierter zu verstehen und zu lösen. Die Studie liefert eine Grundlage zur Behebung von Repräsentationsfehlern in LLM-basierten Planungs- und Reasoning-Aufgaben und leistet einen wichtigen Beitrag für vertrauenswürdige KI-Agenten. Alle Prompts, Evaluationsverfahren und Aufgabendatensätze sind dokumentiert, um die Reproduzierbarkeit zu fördern und eine Basis für künftige Forschung zu schaffen.
Abstract
Große Sprachmodelle (LLMs) haben bei komplexen, mehrstufigen Planungsaufgaben oft Schwierigkeiten und zeigen hohe Raten an Constraint-Verletzungen sowie inkonsistente Lösungen. Bestehende Strategien wie Chain-of-Thought und ReAct stützen sich auf implizites State-Tracking und verfügen nicht über eine explizite Problemrepräsentation. Inspiriert von klassischer KI-Planung schlagen wir Model-First Reasoning (MFR) vor. MFR ist ein zweiphasiges Paradigma, bei dem das LLM zunächst ein explizites Modell des Problems erstellt, Entitäten, Zustandsvariablen, Aktionen und Constraints definiert und erst danach einen Lösungsplan erzeugt. Über mehrere Planungsdomänen hinweg, darunter medizinische Terminplanung, Routenplanung, Ressourcenallokation, Logikrätsel und prozedurale Synthese, reduziert MFR Constraint-Verletzungen und verbessert die Lösungsqualität im Vergleich zu Chain-of-Thought und ReAct. Ablationsstudien zeigen, dass die explizite Modellierungsphase für diese Verbesserungen entscheidend ist. Unsere Ergebnisse legen nahe, dass viele Planungsfehler von LLMs eher auf Mängel in der Repräsentation als auf Grenzen des Schlussfolgerns zurückzuführen sind, und heben explizite Modellierung als Schlüsselkomponente für robuste und interpretierbare KI-Agenten hervor. Alle Prompts, Evaluierungsverfahren und Aufgaben-Datensätze sind dokumentiert, um die Reproduzierbarkeit zu erleichtern.
> Large Language Models (LLMs) often struggle with complex multi-step planning tasks, showing high rates of constraint violations and inconsistent solutions. Existing strategies such as Chain-of-Thought and ReAct rely on implicit state tracking and lack an explicit problem representation. Inspired by classical AI planning, we propose Model-First Reasoning (MFR), a two-phase paradigm in which the LLM first constructs an explicit model of the problem, defining entities, state variables, actions, and constraints, before generating a solution plan. Across multiple planning domains, including medical scheduling, route planning, resource allocation, logic puzzles, and procedural synthesis, MFR reduces constraint violations and improves solution quality compared to Chain-of-Thought and ReAct. Ablation studies show that the explicit modeling phase is critical for these gains. Our results suggest that many LLM planning failures stem from representational deficiencies rather than reasoning limitations, highlighting explicit modeling as a key component for robust and interpretable AI agents. All prompts, evaluation procedures, and task datasets are documented to facilitate reproducibility.
Paper-Link
https://arxiv.org/abs/2512.14474
Verlassen wir uns nicht einfach nur auf den Kontext: Test-Time-Training für Long-Context-LLMs / Let's (not) just put things in Context: Test-Time Training for Long-Context LLMs
Paper-Vorstellung
Die Fortschritte bei großen Sprachmodellen (LLMs) haben die Fähigkeit zur Verarbeitung langer Kontexte deutlich verbessert, doch es bleibt wichtig, das Problem zu lösen, dass diese Modelle in langen Kontexten in der Praxis oft nicht effektiv funktionieren. Diese Studie weist darauf hin, dass die von bestehenden Inferenzzeit-Strategien zur Leistungsverbesserung verwendete Erzeugung von Thinking Tokens aufgrund des Problems der Score Dilution an Grenzen stößt. Score Dilution entsteht durch die Eigenschaften statischer Self-Attention und verringert die Genauigkeit des Modells in langen Kontexten.
Um dieses Problem zu lösen, schlägt die Studie eine neue Methodik namens query-only test-time training (qTTT) vor. qTTT überwindet die Grenzen statischer Self-Attention durch gezielte Gradienten-Updates für den gegebenen Kontext und zielt auf Leistungsverbesserungen in langen Kontexten ab. Die experimentellen Ergebnisse zeigen, dass qTTT einen wirksameren Ansatz als bestehende Inferenzzeit-Strategien bietet und beim Modell Qwen3-4B auf Teilmengen der Benchmarks LongBench-v2 und ZeroScrolls durchschnittliche Leistungssteigerungen von 12,6 bzw. 14,1 Prozentpunkten erzielt.
Die Studie betont, dass zur Verbesserung der Leistung in langen Kontexten ein kleiner Umfang kontextspezifischen Trainings erforderlich ist, was eine bessere Nutzung der Inferenzberechnung bedeutet. Die Einführung von qTTT präsentiert einen praktikablen Weg, die Leistung von Long-Context-LLMs zu maximieren, und dürfte künftiger Forschung neue Richtungen für die Verarbeitung langer Kontexte aufzeigen. Dieser innovative Ansatz wird die Einsatzmöglichkeiten von LLMs voraussichtlich weiter ausweiten und zu Leistungsverbesserungen in verschiedenen Anwendungsfeldern beitragen.
Paper-Abstract
Fortschritte bei Trainings- und Architekturstrategien haben LLMs mit Kontextlängen von Millionen von Tokens ermöglicht. Empirische Belege deuten jedoch darauf hin, dass solche Long-Context-LLMs weit mehr Text verarbeiten können, als sie tatsächlich zuverlässig nutzen können. Andererseits wurde gezeigt, dass sich die Leistung von LLMs bei anspruchsvollen Aufgaben mit mehrstufigem Reasoning durch Inference-Time-Compute skalieren lässt. Durch kontrollierte Experimente mit Sandbox-Long-Context-Aufgaben stellen wir fest, dass solche Inference-Time-Strategien schnell abnehmende Erträge zeigen und bei langen Kontexten versagen. Wir führen diese Fehlschläge auf Score Dilution zurück, ein Phänomen, das statischer Self-Attention inhärent ist. Außerdem zeigen wir, dass aktuelle Inference-Time-Strategien unter bestimmten Bedingungen relevante Signale aus langen Kontexten nicht abrufen können. Wir schlagen eine einfache Methode vor, die durch gezielte Gradienten-Updates auf dem gegebenen Kontext die Grenzen statischer Self-Attention nachweislich überwindet. Wir stellen fest, dass diese Veränderung darin, wie Inference-Time-Compute eingesetzt wird, über Modelle und Long-Context-Benchmarks hinweg konsistent große Leistungsverbesserungen bringt. Unsere Methode erzielt für Qwen3-4B auf Teilmengen der Benchmarks LongBench-v2 und ZeroScrolls im Durchschnitt große Verbesserungen von 12,6 bzw. 14,1 Prozentpunkten. Die praktische Schlussfolgerung lautet: Bei langen Kontexten ist ein kleines Maß an kontextspezifischem Training eine bessere Nutzung von Inference-Compute als aktuelle Inference-Time-Scaling-Strategien wie das Erzeugen weiterer Thinking-Tokens.
> Progress on training and architecture strategies has enabled LLMs with millions of tokens in context length. However, empirical evidence suggests that such long-context LLMs can consume far more text than they can reliably use. On the other hand, it has been shown that inference-time compute can be used to scale performance of LLMs, often by generating thinking tokens, on challenging tasks involving multi-step reasoning. Through controlled experiments on sandbox long-context tasks, we find that such inference-time strategies show rapidly diminishing returns and fail at long context. We attribute these failures to score dilution, a phenomenon inherent to static self-attention. Further, we show that current inference-time strategies cannot retrieve relevant long-context signals under certain conditions. We propose a simple method that, through targeted gradient updates on the given context, provably overcomes limitations of static self-attention. We find that this shift in how inference-time compute is spent leads to consistently large performance improvements across models and long-context benchmarks. Our method leads to large 12.6 and 14.1 percentage point improvements for Qwen3-4B on average across subsets of LongBench-v2 and ZeroScrolls benchmarks. The takeaway is practical: for long context, a small amount of context-specific training is a better use of inference compute than current inference-time scaling strategies like producing more thinking tokens.
Paper-Link
https://arxiv.org/abs/2512.13898
Stabilisierung von Reinforcement Learning mit großen Sprachmodellen: Formulierung und Praxis / Stabilizing Reinforcement Learning with LLMs: Formulation and Practices
Paper-Einführung
Reinforcement Learning (RL) wurde in verschiedenen Bereichen erfolgreich eingesetzt, doch das Problem der Instabilität während des Trainings bleibt weiterhin eine zentrale Herausforderung. Diese Studie schlägt eine neue Methodik vor, um die Stabilität von RL mithilfe von Large Language Models (LLMs) zu erhöhen. Insbesondere identifiziert sie Bedingungen, unter denen sich über die Policy-Gradient-Methode REINFORCE anstelle von Belohnungen auf Sequenzebene Ziele auf Token-Ebene optimieren lassen. Mithilfe einer Näherung erster Ordnung wird gezeigt, dass diese Ersatzzielsetzung dann gültig wird, wenn der Train-Inference-Mismatch und die Veralterung der Policy minimiert werden.
Diese Einsichten tragen dazu bei zu erklären, wie Techniken wie Importance-Sampling-Korrektur, Clipping und Routing Replay für Mixture-of-Experts-(MoE)-Modelle die Stabilisierung des RL-Trainings beeinflussen. Durch Experimente mit einem 30B-MoE-Modell über mehrere Millionen GPU-Stunden hinweg wird gezeigt, dass der grundlegende Policy-Gradient-Algorithmus mit Importance-Sampling-Korrektur im On-Policy-Training die höchste Trainingsstabilität erreicht. Darüber hinaus wird hervorgehoben, dass bei der Einführung von Off-Policy-Updates zur Beschleunigung der Konvergenz die Kombination aus Clipping und Routing Replay entscheidend ist, um durch die Veralterung der Policy verursachte Instabilitäten abzumildern.
Sobald das Training stabilisiert ist, zeigt sich außerdem, dass kontinuierliche Optimierung unabhängig von der Initialisierung konsistent zu einer einheitlichen Endleistung führt. Diese Forschungsergebnisse liefern neue Einsichten für ein stabiles RL-Training und schaffen eine wichtige Grundlage für künftige Forschung. Das Paper präsentiert einen innovativen Ansatz zur Stabilisierung von Reinforcement Learning mit Large Language Models und leistet einen wichtigen Beitrag zur Lösung der Instabilität im RL-Training.
Paper-Abstract
Dieses Paper schlägt eine neue Formulierung für Reinforcement Learning (RL) mit Large Language Models (LLMs) vor und erklärt, warum und unter welchen Bedingungen sich die echte sequenzbasierte Belohnung in Policy-Gradient-Methoden wie REINFORCE über ein surrogates tokenbasiertes Ziel optimieren lässt. Konkret zeigen wir mittels einer Näherung erster Ordnung, dass dieses Surrogat nur dann zunehmend gültig wird, wenn sowohl die Diskrepanz zwischen Training und Inferenz als auch die Policy-Veraltung minimiert werden. Diese Erkenntnis liefert eine prinzipielle Erklärung dafür, warum mehrere weit verbreitete Techniken eine entscheidende Rolle bei der Stabilisierung des RL-Trainings spielen, darunter Importance-Sampling-Korrektur, Clipping und insbesondere Routing Replay für Mixture-of-Experts-(MoE)-Modelle. Durch umfangreiche Experimente mit einem 30B-MoE-Modell im Umfang von Hunderttausenden GPU-Stunden zeigen wir, dass beim On-Policy-Training der grundlegende Policy-Gradient-Algorithmus mit Importance-Sampling-Korrektur die höchste Trainingsstabilität erreicht. Wenn Off-Policy-Updates eingeführt werden, um die Konvergenz zu beschleunigen, wird die Kombination aus Clipping und Routing Replay essenziell, um die durch Policy-Veraltung verursachte Instabilität zu mindern. Bemerkenswert ist, dass eine langfristige Optimierung nach Stabilisierung des Trainings unabhängig von der Cold-Start-Initialisierung konsistent eine ähnliche Endleistung liefert. Wir hoffen, dass die geteilten Erkenntnisse und die entwickelten Rezepte für stabiles RL-Training künftige Forschung unterstützen werden.
> This paper proposes a novel formulation for reinforcement learning (RL) with large language models, explaining why and under what conditions the true sequence-level reward can be optimized via a surrogate token-level objective in policy gradient methods such as REINFORCE. Specifically, through a first-order approximation, we show that this surrogate becomes increasingly valid only when both the training-inference discrepancy and policy staleness are minimized. This insight provides a principled explanation for the crucial role of several widely adopted techniques in stabilizing RL training, including importance sampling correction, clipping, and particularly Routing Replay for Mixture-of-Experts (MoE) models. Through extensive experiments with a 30B MoE model totaling hundreds of thousands of GPU hours, we show that for on-policy training, the basic policy gradient algorithm with importance sampling correction achieves the highest training stability. When off-policy updates are introduced to accelerate convergence, combining clipping and Routing Replay becomes essential to mitigate the instability caused by policy staleness. Notably, once training is stabilized, prolonged optimization consistently yields comparable final performance regardless of cold-start initialization. We hope that the shared insights and the developed recipes for stable RL training will facilitate future research.
Paper-Link
https://arxiv.org/abs/2512.01374
Schnelles und präzises kausales paralleles Decoding mit rekursivem Forcing / Fast and Accurate Causal Parallel Decoding using Jacobi Forcing
Paper-Einführung
Während intensiv daran geforscht wird, die Inferenzgeschwindigkeit von Large Language Models zu verbessern, schlägt diese Arbeit eine innovative Methodik namens Jacobi Forcing vor. Dieser Ansatz konzentriert sich darauf, die Inferenzlatenz zu minimieren, indem er paralleles Decoding für Transformer-basierte Modelle durch Multi-Token-Generierung ermöglicht. Bestehende Ansätze mit diffusion large language models (dLLMs) zeigten aufgrund von Diskrepanzen zwischen Pre-Training und Post-Training Grenzen bei der Leistungssteigerung. Insbesondere verwenden dLLMs bidirektionale Attention, was zu Konflikten mit dem kausalen Prior führt und die korrekte Wiederverwendung des Key-Value-Cache (KV cache) behindert.
Jacobi Forcing ist ein schrittweises Distillation-Paradigma, bei dem das Modell lernt, entlang seines selbst erzeugten parallelen Decoding-Pfads zu trainieren, und sich so unter Beibehaltung der vortrainierten kausalen Inferenz-Eigenschaften in einen effizienten parallelen Decoder verwandelt. Das mit dieser Methodik trainierte Jacobi-Forcing-Modell erreichte bei Coding- und Mathematik-Benchmarks eine 3,8-fache Wall-Clock-Beschleunigung bei minimalem Leistungsverlust. Darüber hinaus wurde Multi-Block-Decoding durch rejection recycling eingeführt, wodurch in jeder Iteration eine bis zu 4,5-fach höhere Token-Akzeptanz und nahezu eine 4,0-fache Wall-Clock-Beschleunigung möglich wurden.
Diese Studie stellt mit Jacobi Forcing eine Methodik vor, die bei AR-Modellen die Eigenschaften kausaler Inferenz bewahrt und zugleich effizientes paralleles Decoding ermöglicht, und zeigt damit das Potenzial, die Inferenzgeschwindigkeit von Large Language Models drastisch zu erhöhen. Dieser Ansatz hat das Potenzial, die Modelleffizienz im Bereich Natural Language Processing (NLP) deutlich zu verbessern, und dürfte einen wichtigen Beitrag für künftige Forschung leisten.
Paper-Abstract
Die Multi-Token-Generierung hat sich als vielversprechendes Paradigma zur Beschleunigung der Inferenz großer Transformer-basierter Modelle etabliert. Jüngste Arbeiten untersuchen vor allem Diffusion Large Language Models (dLLMs) für paralleles Decoding, um die Inferenzlatenz zu verringern. Um Generierungsqualität auf AR-Niveau zu erreichen, passen viele Techniken AR-Modelle an dLLMs an, um paralleles Decoding zu ermöglichen. Allerdings erzielen sie im Vergleich zu AR-Modellen nur begrenzte Beschleunigungen, was auf eine Diskrepanz zwischen Pretraining und Post-Training zurückzuführen ist. Konkret weicht die maskierte Datenverteilung im Post-Training stark von der realen Datenverteilung ab, die während des Pretrainings beobachtet wurde, und dLLMs basieren auf bidirektionaler Attention, was mit dem beim Pretraining gelernten kausalen Prior kollidiert und die Integration einer exakten Wiederverwendung des KV-Cache behindert. Um dieses Problem zu lösen, stellen wir Jacobi Forcing vor. Dabei handelt es sich um ein progressives Distillationsparadigma, bei dem Modelle auf ihren selbst erzeugten parallelen Decoding-Trajektorien trainiert werden. So werden AR-Modelle sanft in effiziente parallele Decoder überführt, während ihre vortrainierte Eigenschaft zur kausalen Inferenz erhalten bleibt. Das unter diesem Paradigma trainierte Modell, das Jacobi Forcing Model, erreicht auf Coding- und Mathematik-Benchmarks eine 3,8-fache Wall-Clock-Beschleunigung bei minimalem Leistungsverlust. Basierend auf den Trajektorie-Eigenschaften der Jacobi Forcing Models führen wir außerdem Multi-Block-Decoding mit Rejection Recycling ein, das pro Iteration bis zu 4,5-mal höhere Token-Akzeptanz ermöglicht und nahezu eine 4,0-fache Wall-Clock-Beschleunigung erreicht, wodurch zusätzlicher Rechenaufwand effektiv gegen geringere Inferenzlatenz eingetauscht wird. Unser Code ist unter https://github.com/hao-ai-lab/JacobiForcing verfügbar.
> Multi-token generation has emerged as a promising paradigm for accelerating transformer-based large model inference. Recent efforts primarily explore diffusion Large Language Models (dLLMs) for parallel decoding to reduce inference latency. To achieve AR-level generation quality, many techniques adapt AR models into dLLMs to enable parallel decoding. However, they suffer from limited speedup compared to AR models due to a pretrain-to-posttrain mismatch. Specifically, the masked data distribution in post-training deviates significantly from the real-world data distribution seen during pretraining, and dLLMs rely on bidirectional attention, which conflicts with the causal prior learned during pretraining and hinders the integration of exact KV cache reuse. To address this, we introduce Jacobi Forcing, a progressive distillation paradigm where models are trained on their own generated parallel decoding trajectories, smoothly shifting AR models into efficient parallel decoders while preserving their pretrained causal inference property. The models trained under this paradigm, Jacobi Forcing Model, achieves 3.8x wall-clock speedup on coding and math benchmarks with minimal loss in performance. Based on Jacobi Forcing Models' trajectory characteristics, we introduce multi-block decoding with rejection recycling, which enables up to 4.5x higher token acceptance count per iteration and nearly 4.0x wall-clock speedup, effectively trading additional compute for lower inference latency. Our code is available at https://github.com/hao-ai-lab/JacobiForcing.
Paper-Link
https://arxiv.org/abs/2512.14681
Weiterlesen
https://github.com/hao-ai-lab/JacobiForcing
Schäden durch große Sprachmodelle (LLM): Eine Taxonomie und Diskussion / LLM Harms: A Taxonomy and Discussion
Paper-Vorstellung
Dies ist eine Studie zu den Kategorien von Schäden im Zusammenhang mit großen Sprachmodellen (LLMs). Die Studie stellt fünf Schadenskategorien vor, die vor, während und nach der Entwicklung von AI-Anwendungen auftreten können: Vorentwicklung, direkte Ausgaben, Missbrauch und böswillige Anwendungen sowie nachgelagerte Anwendungen. Sie betont die Notwendigkeit, Risiken in der aktuellen Landschaft zu definieren, und zeigt Wege auf, Verantwortlichkeit, Transparenz und Bias zu steuern. Außerdem schlägt sie Minderungsstrategien und zukünftige Richtungen für spezifische Domänen vor und enthält einen standardisierten Vorschlag für ein dynamisches Auditsystem zur verantwortungsvollen Entwicklung und Integration von LLMs.
Paper-Abstract
Diese Studie behandelt Kategorien von Schäden rund um große Sprachmodelle (LLMs) im Bereich der künstlichen Intelligenz. Sie behandelt fünf Schadenskategorien, die vor, während und nach der Entwicklung von AI-Anwendungen relevant sind: Vorentwicklung, direkte Ausgaben, Missbrauch und böswillige Anwendung sowie nachgelagerte Anwendung. Sie unterstreicht die Notwendigkeit, Risiken in der aktuellen Landschaft zu definieren, um Verantwortlichkeit, Transparenz und den Umgang mit Bias bei der Anpassung von LLMs für praktische Anwendungen sicherzustellen. Außerdem werden Minderungsstrategien und zukünftige Richtungen für spezifische Bereiche sowie ein dynamisches Auditsystem als standardisierter Vorschlag vorgestellt, das die verantwortungsvolle Entwicklung und Integration von LLMs leiten soll.
> This study addresses categories of harm surrounding Large Language Models (LLMs) in the field of artificial intelligence. It addresses five categories of harms addressed before, during, and after development of AI applications: pre-development, direct output, Misuse and Malicious Application, and downstream application. By underscoring the need to define risks of the current landscape to ensure accountability, transparency and navigating bias when adapting LLMs for practical applications. It proposes mitigation strategies and future directions for specific domains and a dynamic auditing system guiding responsible development and integration of LLMs in a standardized proposal.
Paper-Link
https://arxiv.org/abs/2512.05929
⚠️Werbung⚠️: Fanden Sie diesen von der 🔥PyTorch Korean User Group🇰🇷 zusammengestellten Beitrag hilfreich? Werden Sie Mitglied, dann senden wir Ihnen wichtige Beiträge per E-Mail💌 zu! (Standard ist Weekly, aber eine Umstellung auf Daily ist ebenfalls möglich.)
Noch keine Kommentare.