I-DLM – introspektive Diffusion Language Models (Introspective Diffusion Language Models)
(introspective-diffusion.github.io)- I-DLM ist der erste Fall, in dem ein diffusionsbasiertes Sprachmodell gleichzeitig Qualität auf AR-(Autoregressive-)Modell-Niveau und parallele Generierungsgeschwindigkeit erreicht
- Mit Introspective Strided Decoding (ISD) werden in einem einzigen Forward-Pass neue Tokens erzeugt und frühere Tokens verifiziert
- I-DLM-8B verbessert sich gegenüber LLaDA-2.1-mini (16B) mit der Hälfte der Parameter um +26 Punkte auf AIME-24 und +15 Punkte auf LiveCodeBench-v6
- Mit Gated LoRA wird eine verlustfreie Beschleunigung auf Bit-Ebene (lossless) umgesetzt und vollständige Kompatibilität mit der SGLang-Infrastruktur geboten
- Diffusion Language Models belegen durch Lernen von Selbstkonsistenz und Optimierung des parallelen Decodings ihr Potenzial für praktische großskalige Deployments
Überblick
- I-DLM (Introspective Diffusion Language Model) ist ein Modell, das die Fähigkeit bestehender Diffusion Language Models (DLMs) zur parallelen Token-Generierung beibehält, gleichzeitig aber das Problem der introspektiven Konsistenz (introspective consistency) löst und damit Qualität auf AR-Modell-Niveau erreicht
- Mit Introspective Strided Decoding (ISD) werden in einem einzigen Forward-Pass neue Tokens erzeugt und gleichzeitig frühere Tokens verifiziert
- I-DLM-8B ist das erste DLM, das die gleiche Qualität wie ein AR-Modell vergleichbarer Größe erreicht, und verbessert sich gegenüber LLaDA-2.1-mini (16B) mit der Hälfte der Parameter um +26 Punkte auf AIME-24 und +15 Punkte auf LiveCodeBench-v6
- In Umgebungen mit hoher Parallelität (C=64) erreicht es 2,9- bis 4,1-fachen Durchsatz (throughput) und unterstützt mit Gated LoRA eine verlustfreie Beschleunigung auf Bit-Ebene (lossless)
Warum introspektive Konsistenz notwendig ist
- AR-Modelle führen in einem einzigen Forward-Pass Generierung und Selbstverifikation gleichzeitig aus, während bestehende DLMs nur Denoising lernen und deshalb eine unzureichende Selbstkonsistenz aufweisen
- Drei Engpässe bisheriger DLMs
- Niedrige Selbstkonsistenz: SDAR 0.699 vs I-DLM 0.984
- Ineffiziente Berechnung: TiDAR ca. 7,8-facher Overhead vs I-DLM ca. 2,5-fach
- Infrastruktur-Mismatch: SDAR slope=84 vs I-DLM=549
I-DLM-Methodik
-
Introspective-Consistency-Training
- Ein vortrainiertes AR-Modell wird über causal attention, logit shift und eine all-masked-Zielfunktion umgewandelt
-
Introspective Strided Decoding (ISD)
- In einem einzigen Forward-Pass werden N Tokens erzeugt und frühere Tokens verifiziert
- Zur Verifikation der Generierungsergebnisse wird ein p/q-Akzeptanzkriterium (acceptance criterion) verwendet
-
AR-kompatibles Serving
- Durch eine streng kausale Attention-Struktur direkt in die SGLang-Infrastruktur integrierbar
- Läuft ohne separate Custom-Infrastruktur in derselben Serving-Umgebung wie AR-Modelle
Leistungsergebnisse
- I-DLM ist das erste DLM, dessen Qualität einem AR-Modell gleicher Größe entspricht, und übertrifft bestehende DLMs über 15 Benchmarks hinweg
-
Wichtige Benchmark-Ergebnisse
- Wissen & Schlussfolgern: ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
- Mathematik: AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
- Code: HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
- Instruktionsausführung: IFEval 84.7
- I-DLM-32B erzielt höhere Leistung als LLaDA-2.1-flash (100B)
Durchsatz (Throughput)
- Bei Batch-Größen von 1 bis 64 wird 2,9- bis 4,1-fach höherer Durchsatz gegenüber LLaDA-2.1-mini und SDAR erreicht
- In memory-bound Umgebungen approximiert TPF (Token Per Forward) die tatsächliche Beschleunigung
- I-DLM(N=4, p=0.9): TPF≈2.9, Effizienz 1.22
- SDAR(N=4, p=0.5): TPF≈1.1, Effizienz 0.31
- Eine Effizienz über 1 bedeutet, dass paralleles Decoding die Gesamtmenge an Berechnung gegenüber AR reduziert
Speedup Factor Explorer
- Akzeptanzrate p=0.9, R-ISD LoRA-Overhead α=1.12
-
Näherungsformel für die Beschleunigung:
- memory-bound:
Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1) - R-ISD (verlustfrei):
Speedup ≈ TPF/α - Gated LoRA ist nur an MASK-Positionen aktiv und garantiert damit Bit-für-Bit-Identität mit der AR-Ausgabe
- memory-bound:
Dokumentation und Ressourcen
- Installation, Training, Inferenz, Serving, verlustfreies R-ISD, Modelle und Benchmarks werden vollständig als Web-Dokumentation bereitgestellt
-
Installation
- GitHub-Repository klonen und danach
install.shausführen
- GitHub-Repository klonen und danach
-
Quick Start
- Nach dem Start des SGLang-Servers können Chat-Completion-Anfragen über die REST API gestellt werden
-
Training
- Training durch Kombination vollständig maskierter Sequenzen mit sauberen Sequenzen
- 4,5B Tokens, 8×H100 GPU, 2 Epochen, Stride-Curriculum (N=2→3)
-
Inference & ISD
- Neue Tokens werden an MASK-Positionen vorgeschlagen (q) und an sauberen Positionen verifiziert (p)
- Das Akzeptanzkriterium
min(1, p(x)/q(x))garantiert die AR-Verteilung - Bei Stride N=4 ergibt sich TPF=2.96, also etwa 3-fache Beschleunigung
-
Serving (SGLang)
-
Paged-KV-Cache**,** CUDA-Graph-Capture (+42~76%), Stationary-batch-Decode-Loop (+11~21%), Argmax-Proposal (+11~15%), Paged-only-Attention-Kernel (+10~14%)
- Das Gesamtsystem erreicht 2,1- bis 2,5-fach höheren Durchsatz gegenüber der Basis
-
-
Lossless R-ISD
- Gated LoRA (rank=128) wird nur an MASK-Positionen angewendet
- Die Ausgabe ist vollständig identisch mit dem Basis-AR-Modell
- Overhead ca. 1,12-fach
-
Model Zoo
- I-DLM-8B: basiert auf Qwen3-8B, Qualität auf AR-Niveau
- I-DLM-32B: basiert auf Qwen3-32B, übertrifft LLaDA-2.1-flash (100B)
- I-DLM-8B-LoRA: mit Gated LoRA (rank=128)
-
Benchmarks
- Auswertung über 15 Benchmarks (Wissen, Mathematik, Code, Instruktionsausführung)
- Reproduktionsskripte werden bereitgestellt
Zitationsinformationen
- Paper: Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
- Forschungseinrichtungen: Together AI, UIUC, Princeton, Stanford, UT Austin
- Autoren: Yifan Yu und 14 weitere
Fazit
- I-DLM ist der erste Fall, in dem ein diffusionsbasiertes Sprachmodell gleichzeitig Qualität und Geschwindigkeit von AR-Modellen erreicht
- Mit Selbstkonsistenz-Training und ISD-Decoding werden die Grenzen paralleler Generierung überwunden
- SGLang-Kompatibilität, verlustfreie Beschleunigung und hohe Skalierbarkeit beim Durchsatz belegen die Eignung für praktische Deployments
1 Kommentare
Hacker-News-Kommentare
Wenn ich das richtig verstanden habe, ist das ein ziemlich erstaunlicher Ansatz
Sie haben einen Qwen-Autoregressor mit mehreren Techniken so umgebaut, dass er wie ein Diffuser funktioniert, und damit eine deutlich bessere Leistung als bisherige Diffuser erzielt
Über LoRA-Adapter lässt sich die Ausgabe an die Verteilung des Base-Modells anpassen, sodass man mit demselben Seed bytegenau identische Ergebnisse erhält und gleichzeitig fast die doppelte Geschwindigkeit erreicht
Ich bin eher ein begeisterter Experimentierer als ein Experte, aber das wirkt wie eine wirklich spannende Entwicklung
Es gibt keinen Denoising-Prozess, und die kausale Struktur bleibt erhalten
Konkret wird mit mehreren MASK-Tokens trainiert, um mehrere Tokens auf einmal vorherzusagen, und bei der Inferenz werden diese parallel erzeugt, um die Geschwindigkeit zu erhöhen
Zum Beispiel hängt man an „what is 2+2“ fünf MASK-Tokens an und sagt damit die nächsten fünf Tokens in einem Schritt voraus
Dadurch führt man statt Matrix-Vektor-Operationen Matrix-Matrix-Operationen aus, was die Speichereffizienz erhöht
Allerdings sinkt die Qualität stark, je größer k (die Zahl der vorhergesagten Tokens) wird, und auch im Paper zeigt sich bereits bei k=8 ein Rückgang
Letztlich ist es Self-Speculative Decoding auf Basis einer 4-Token-Vorhersage; die bisherigen Grenzen werden also nicht vollständig aufgehoben, aber es ist eine interessante Trainingsmethode
Eine passende Erklärung steht in einem früheren Beitrag
Ich frage mich, worin genau der Unterschied im Vergleich zu DFlash oder DDTree besteht
Letztes Jahr habe ich kurz gesehen, wie Gemini-Antworten schrittweise erschienen, fast wie bei Diffusion
Ich weiß nicht, ob das ein Experiment war oder nur ein visueller Effekt, aber es war interessant
Mich würde interessieren, ob hier jemand Diffusion für Textgenerierung ernsthaft ausprobiert
Die Geschwindigkeit ist erstaunlich, aber Latenz bis zum ersten Token und Ausgabequalität bleiben offene Aufgaben
Wenn Geschwindigkeit und Genauigkeit noch ein Stück steigen, könnte das für kostengünstige Modelle oder asynchrone Workloads durchaus praktikabel werden
Außerdem wäre es spannend, mit Experimenten längere Texte auf einmal zu diffundieren, um die Fähigkeit zum Schlussfolgern gezielt zu steigern
Siehe dazu den Beitrag von Emergent Mind
Es läuft deutlich flüssiger als das frühere Gemini Flash Lite und eignet sich gut für Aufgaben wie Auto-Tagging oder Link-Erstellung
An die Tool-Calling-Leistung von Haiku 3.5 kommt es allerdings noch nicht heran
Für Aufgaben mit ausreichend Input und kurzem Output passt dLLM gut, und auch in Bereichen wie Tab-Autovervollständigung scheint Potenzial zu stecken
Es generiert von links nach rechts, aber die Diffusion findet nur innerhalb eines Sliding Window statt. Bei einem Fenster von etwa 16 Tokens ist der Unterschied nicht groß
Ich bin kein Experte, aber bei Diffusion hätte ich erwartet, dass die gesamte Ausgabe auf einmal erzeugt wird
Das I-LDM-Modell scheint stattdessen den vorherigen Kontext zu verwenden, um den nächsten Block zu generieren
Wenn man zum Beispiel jeweils zwei Tokens erzeugt, kommt man fast auf die doppelte Geschwindigkeit
Mit größerer Blockgröße steigt die gesamte Generierungsgeschwindigkeit so stark, dass der Unterschied zur vollständigen Erzeugung in einem Schritt klein wird
Entscheidend ist letztlich, wie gut sich der Qualitätsverlust begrenzen lässt, und genau das scheint dieses Paper gut zu lösen
Ich frage mich, ob man für solche Modelle auf sglang umsteigen muss oder ob vLLM das bereits unterstützt
Ich dachte schon länger, dass blockbasierte Diffusionsarchitekturen die Zukunft von LLMs sein könnten
Eine Struktur, die die Token-Erzeugung dynamisch steuert und während der Generierung Selbstkorrektur erlaubt – so etwas könnte wie ein System für das Kurzzeitgedächtnis des Menschen sein
Die mathematischen Grundlagen kenne ich nicht gut, aber ich hoffe, dass sich die Entwicklung in diese Richtung bewegt
In den Release Notes steht
Ich frage mich, ob man dieses Modell schon jetzt direkt verwenden kann
Ich frage mich, ob ein Diffusionsmodell einen Block erzeugen, das Ergebnis introspektiv prüfen und dann erneut erzeugen kann – also eine Form von iterativem Schlussfolgern