I-DLM – introspektive Diffusion Language Models (Introspective Diffusion Language Models)

(introspective-diffusion.github.io)

1 Punkte von GN⁺ 14 일 전 | 1 Kommentare | Auf WhatsApp teilen

I-DLM ist der erste Fall, in dem ein diffusionsbasiertes Sprachmodell gleichzeitig Qualität auf AR-(Autoregressive-)Modell-Niveau und parallele Generierungsgeschwindigkeit erreicht
Mit Introspective Strided Decoding (ISD) werden in einem einzigen Forward-Pass neue Tokens erzeugt und frühere Tokens verifiziert
I-DLM-8B verbessert sich gegenüber LLaDA-2.1-mini (16B) mit der Hälfte der Parameter um +26 Punkte auf AIME-24 und +15 Punkte auf LiveCodeBench-v6
Mit Gated LoRA wird eine verlustfreie Beschleunigung auf Bit-Ebene (lossless) umgesetzt und vollständige Kompatibilität mit der SGLang-Infrastruktur geboten
Diffusion Language Models belegen durch Lernen von Selbstkonsistenz und Optimierung des parallelen Decodings ihr Potenzial für praktische großskalige Deployments

Überblick

I-DLM (Introspective Diffusion Language Model) ist ein Modell, das die Fähigkeit bestehender Diffusion Language Models (DLMs) zur parallelen Token-Generierung beibehält, gleichzeitig aber das Problem der introspektiven Konsistenz (introspective consistency) löst und damit Qualität auf AR-Modell-Niveau erreicht
Mit Introspective Strided Decoding (ISD) werden in einem einzigen Forward-Pass neue Tokens erzeugt und gleichzeitig frühere Tokens verifiziert
I-DLM-8B ist das erste DLM, das die gleiche Qualität wie ein AR-Modell vergleichbarer Größe erreicht, und verbessert sich gegenüber LLaDA-2.1-mini (16B) mit der Hälfte der Parameter um +26 Punkte auf AIME-24 und +15 Punkte auf LiveCodeBench-v6
In Umgebungen mit hoher Parallelität (C=64) erreicht es 2,9- bis 4,1-fachen Durchsatz (throughput) und unterstützt mit Gated LoRA eine verlustfreie Beschleunigung auf Bit-Ebene (lossless)

Warum introspektive Konsistenz notwendig ist

AR-Modelle führen in einem einzigen Forward-Pass Generierung und Selbstverifikation gleichzeitig aus, während bestehende DLMs nur Denoising lernen und deshalb eine unzureichende Selbstkonsistenz aufweisen
Drei Engpässe bisheriger DLMs
- Niedrige Selbstkonsistenz: SDAR 0.699 vs I-DLM 0.984
- Ineffiziente Berechnung: TiDAR ca. 7,8-facher Overhead vs I-DLM ca. 2,5-fach
- Infrastruktur-Mismatch: SDAR slope=84 vs I-DLM=549

I-DLM-Methodik

Introspective-Consistency-Training
- Ein vortrainiertes AR-Modell wird über causal attention, logit shift und eine all-masked-Zielfunktion umgewandelt
Introspective Strided Decoding (ISD)
- In einem einzigen Forward-Pass werden N Tokens erzeugt und frühere Tokens verifiziert
- Zur Verifikation der Generierungsergebnisse wird ein p/q-Akzeptanzkriterium (acceptance criterion) verwendet
AR-kompatibles Serving
- Durch eine streng kausale Attention-Struktur direkt in die SGLang-Infrastruktur integrierbar
- Läuft ohne separate Custom-Infrastruktur in derselben Serving-Umgebung wie AR-Modelle

Leistungsergebnisse

I-DLM ist das erste DLM, dessen Qualität einem AR-Modell gleicher Größe entspricht, und übertrifft bestehende DLMs über 15 Benchmarks hinweg
Wichtige Benchmark-Ergebnisse
- Wissen & Schlussfolgern: ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
- Mathematik: AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
- Code: HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
- Instruktionsausführung: IFEval 84.7
- I-DLM-32B erzielt höhere Leistung als LLaDA-2.1-flash (100B)

Durchsatz (Throughput)

Bei Batch-Größen von 1 bis 64 wird 2,9- bis 4,1-fach höherer Durchsatz gegenüber LLaDA-2.1-mini und SDAR erreicht
In memory-bound Umgebungen approximiert TPF (Token Per Forward) die tatsächliche Beschleunigung
- I-DLM(N=4, p=0.9): TPF≈2.9, Effizienz 1.22
- SDAR(N=4, p=0.5): TPF≈1.1, Effizienz 0.31
Eine Effizienz über 1 bedeutet, dass paralleles Decoding die Gesamtmenge an Berechnung gegenüber AR reduziert

Speedup Factor Explorer

Akzeptanzrate p=0.9, R-ISD LoRA-Overhead α=1.12
Näherungsformel für die Beschleunigung:
- memory-bound: Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1)
- R-ISD (verlustfrei): Speedup ≈ TPF/α
- Gated LoRA ist nur an MASK-Positionen aktiv und garantiert damit Bit-für-Bit-Identität mit der AR-Ausgabe

Dokumentation und Ressourcen

Installation, Training, Inferenz, Serving, verlustfreies R-ISD, Modelle und Benchmarks werden vollständig als Web-Dokumentation bereitgestellt
Installation
- GitHub-Repository klonen und danach install.sh ausführen
Quick Start
- Nach dem Start des SGLang-Servers können Chat-Completion-Anfragen über die REST API gestellt werden
Training
- Training durch Kombination vollständig maskierter Sequenzen mit sauberen Sequenzen
- 4,5B Tokens, 8×H100 GPU, 2 Epochen, Stride-Curriculum (N=2→3)
Inference & ISD
- Neue Tokens werden an MASK-Positionen vorgeschlagen (q) und an sauberen Positionen verifiziert (p)
- Das Akzeptanzkriterium min(1, p(x)/q(x)) garantiert die AR-Verteilung
- Bei Stride N=4 ergibt sich TPF=2.96, also etwa 3-fache Beschleunigung
Serving (SGLang)
- Paged-KV-Cache**,** CUDA-Graph-Capture (+42~76%), Stationary-batch-Decode-Loop (+11~21%), Argmax-Proposal (+11~15%), Paged-only-Attention-Kernel (+10~14%)
  - Das Gesamtsystem erreicht 2,1- bis 2,5-fach höheren Durchsatz gegenüber der Basis
Lossless R-ISD
- Gated LoRA (rank=128) wird nur an MASK-Positionen angewendet
- Die Ausgabe ist vollständig identisch mit dem Basis-AR-Modell
- Overhead ca. 1,12-fach
Model Zoo
- I-DLM-8B: basiert auf Qwen3-8B, Qualität auf AR-Niveau
- I-DLM-32B: basiert auf Qwen3-32B, übertrifft LLaDA-2.1-flash (100B)
- I-DLM-8B-LoRA: mit Gated LoRA (rank=128)
Benchmarks
- Auswertung über 15 Benchmarks (Wissen, Mathematik, Code, Instruktionsausführung)
- Reproduktionsskripte werden bereitgestellt

Zitationsinformationen

Paper: Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
Forschungseinrichtungen: Together AI, UIUC, Princeton, Stanford, UT Austin
Autoren: Yifan Yu und 14 weitere

Fazit

I-DLM ist der erste Fall, in dem ein diffusionsbasiertes Sprachmodell gleichzeitig Qualität und Geschwindigkeit von AR-Modellen erreicht
Mit Selbstkonsistenz-Training und ISD-Decoding werden die Grenzen paralleler Generierung überwunden
SGLang-Kompatibilität, verlustfreie Beschleunigung und hohe Skalierbarkeit beim Durchsatz belegen die Eignung für praktische Deployments

1 Kommentare

GN⁺ 14 일 전

Hacker-News-Kommentare

Wenn ich das richtig verstanden habe, ist das ein ziemlich erstaunlicher Ansatz
Sie haben einen Qwen-Autoregressor mit mehreren Techniken so umgebaut, dass er wie ein Diffuser funktioniert, und damit eine deutlich bessere Leistung als bisherige Diffuser erzielt
Über LoRA-Adapter lässt sich die Ausgabe an die Verteilung des Base-Modells anpassen, sodass man mit demselben Seed bytegenau identische Ergebnisse erhält und gleichzeitig fast die doppelte Geschwindigkeit erreicht
Ich bin eher ein begeisterter Experimentierer als ein Experte, aber das wirkt wie eine wirklich spannende Entwicklung
- Auf jeden Fall etwas, worüber man sich freuen kann. Dieses Paper behauptet, eine Brücke zwischen AR-Qualität und parallelem Decoding zu schlagen. Besonders der verlustfreie LoRA-Hilfsmodus ist beeindruckend
- Ich verstehe nicht, wie man die Ausgabe des Base-Modells vergleichen kann, ohne sie direkt zu erzeugen. Dann frage ich mich, welche Bedeutung dieser Vergleich überhaupt hat
- Eigentlich ist das eher eine Variante von Multi-Token-Prediction und Speculative Decoding als von Diffusion
  Es gibt keinen Denoising-Prozess, und die kausale Struktur bleibt erhalten
  Konkret wird mit mehreren MASK-Tokens trainiert, um mehrere Tokens auf einmal vorherzusagen, und bei der Inferenz werden diese parallel erzeugt, um die Geschwindigkeit zu erhöhen
  Zum Beispiel hängt man an „what is 2+2“ fünf MASK-Tokens an und sagt damit die nächsten fünf Tokens in einem Schritt voraus
  Dadurch führt man statt Matrix-Vektor-Operationen Matrix-Matrix-Operationen aus, was die Speichereffizienz erhöht
  Allerdings sinkt die Qualität stark, je größer k (die Zahl der vorhergesagten Tokens) wird, und auch im Paper zeigt sich bereits bei k=8 ein Rückgang
  Letztlich ist es Self-Speculative Decoding auf Basis einer 4-Token-Vorhersage; die bisherigen Grenzen werden also nicht vollständig aufgehoben, aber es ist eine interessante Trainingsmethode
  Eine passende Erklärung steht in einem früheren Beitrag
Ich frage mich, worin genau der Unterschied im Vergleich zu DFlash oder DDTree besteht
Letztes Jahr habe ich kurz gesehen, wie Gemini-Antworten schrittweise erschienen, fast wie bei Diffusion
Ich weiß nicht, ob das ein Experiment war oder nur ein visueller Effekt, aber es war interessant
Mich würde interessieren, ob hier jemand Diffusion für Textgenerierung ernsthaft ausprobiert
- Inception Labs scheint schon recht lange in diesem Bereich zu forschen
  Die Geschwindigkeit ist erstaunlich, aber Latenz bis zum ersten Token und Ausgabequalität bleiben offene Aufgaben
  Wenn Geschwindigkeit und Genauigkeit noch ein Stück steigen, könnte das für kostengünstige Modelle oder asynchrone Workloads durchaus praktikabel werden
  Außerdem wäre es spannend, mit Experimenten längere Texte auf einmal zu diffundieren, um die Fähigkeit zum Schlussfolgern gezielt zu steigern
- Derzeit wird das im Bereich lokaler LLMs für Speculative Decoding untersucht
  Siehe dazu den Beitrag von Emergent Mind
- Mercury 2 ist im Hinblick auf Latenz und Preis für UX-Experimente sehr attraktiv
  Es läuft deutlich flüssiger als das frühere Gemini Flash Lite und eignet sich gut für Aufgaben wie Auto-Tagging oder Link-Erstellung
  An die Tool-Calling-Leistung von Haiku 3.5 kommt es allerdings noch nicht heran
  Für Aufgaben mit ausreichend Input und kurzem Output passt dLLM gut, und auch in Bereichen wie Tab-Autovervollständigung scheint Potenzial zu stecken
- Ich habe auch damit experimentiert, und dafür braucht man eine andere intuitive Herangehensweise als bei gewöhnlichen LLMs. Für manche Probleme passt es sehr gut
- Ich implementiere WeDLM in Swift, aber die Leistung reicht noch nicht aus
  Es generiert von links nach rechts, aber die Diffusion findet nur innerhalb eines Sliding Window statt. Bei einem Fenster von etwa 16 Tokens ist der Unterschied nicht groß
Ich bin kein Experte, aber bei Diffusion hätte ich erwartet, dass die gesamte Ausgabe auf einmal erzeugt wird
Das I-LDM-Modell scheint stattdessen den vorherigen Kontext zu verwenden, um den nächsten Block zu generieren
- Blockweise Generierung bringt einen großen Geschwindigkeitsschub
  Wenn man zum Beispiel jeweils zwei Tokens erzeugt, kommt man fast auf die doppelte Geschwindigkeit
  Mit größerer Blockgröße steigt die gesamte Generierungsgeschwindigkeit so stark, dass der Unterschied zur vollständigen Erzeugung in einem Schritt klein wird
  Entscheidend ist letztlich, wie gut sich der Qualitätsverlust begrenzen lässt, und genau das scheint dieses Paper gut zu lösen
Ich frage mich, ob man für solche Modelle auf sglang umsteigen muss oder ob vLLM das bereits unterstützt
Ich dachte schon länger, dass blockbasierte Diffusionsarchitekturen die Zukunft von LLMs sein könnten
Eine Struktur, die die Token-Erzeugung dynamisch steuert und während der Generierung Selbstkorrektur erlaubt – so etwas könnte wie ein System für das Kurzzeitgedächtnis des Menschen sein
Die mathematischen Grundlagen kenne ich nicht gut, aber ich hoffe, dass sich die Entwicklung in diese Richtung bewegt
In den Release Notes steht

2025-04-12: Code veröffentlicht und I-DLM-8B, 32B, 8B-LoRA freigegeben
Das Datum wirkt ziemlich alt; ich frage mich, ob das vielleicht eine ältere Version ist
- Das ist nur ein Tippfehler im Jahr. Ich habe bestätigt, dass es tatsächlich erst vor ein paar Tagen auf HuggingFace hochgeladen wurde
Ich frage mich, ob man dieses Modell schon jetzt direkt verwenden kann
Ich frage mich, ob ein Diffusionsmodell einen Block erzeugen, das Ergebnis introspektiv prüfen und dann erneut erzeugen kann – also eine Form von iterativem Schlussfolgern
- Ja. Das lässt sich umsetzen, indem man die erste Ausgabe erneut in das Modell einspeist und sie wie bei einem AR-Inferenzmodell neu bewertet

I-DLM – introspektive Diffusion Language Models (Introspective Diffusion Language Models)

Überblick

Warum introspektive Konsistenz notwendig ist

I-DLM-Methodik

Introspective-Consistency-Training

Introspective Strided Decoding (ISD)

AR-kompatibles Serving

Leistungsergebnisse

Wichtige Benchmark-Ergebnisse

Durchsatz (Throughput)

Speedup Factor Explorer

Näherungsformel für die Beschleunigung:

Dokumentation und Ressourcen

Installation

Quick Start

Training

Inference & ISD

Serving (SGLang)

Paged-KV-Cache**,** CUDA-Graph-Capture (+42~76%), Stationary-batch-Decode-Loop (+11~21%), Argmax-Proposal (+11~15%), Paged-only-Attention-Kernel (+10~14%)

Lossless R-ISD

Model Zoo

Benchmarks

Zitationsinformationen

Fazit

Verwandte Beiträge

1 Kommentare

Hacker-News-Kommentare

Paged-KV-Cache, CUDA-Graph-Capture (+42~76%), Stationary-batch-Decode-Loop (+11~21%), Argmax-Proposal (+11~15%), Paged-only-Attention-Kernel (+10~14%)