1 Punkte von GN⁺ 14 일 전 | 1 Kommentare | Auf WhatsApp teilen
  • I-DLM ist der erste Fall, in dem ein diffusionsbasiertes Sprachmodell gleichzeitig Qualität auf AR-(Autoregressive-)Modell-Niveau und parallele Generierungsgeschwindigkeit erreicht
  • Mit Introspective Strided Decoding (ISD) werden in einem einzigen Forward-Pass neue Tokens erzeugt und frühere Tokens verifiziert
  • I-DLM-8B verbessert sich gegenüber LLaDA-2.1-mini (16B) mit der Hälfte der Parameter um +26 Punkte auf AIME-24 und +15 Punkte auf LiveCodeBench-v6
  • Mit Gated LoRA wird eine verlustfreie Beschleunigung auf Bit-Ebene (lossless) umgesetzt und vollständige Kompatibilität mit der SGLang-Infrastruktur geboten
  • Diffusion Language Models belegen durch Lernen von Selbstkonsistenz und Optimierung des parallelen Decodings ihr Potenzial für praktische großskalige Deployments

Überblick

  • I-DLM (Introspective Diffusion Language Model) ist ein Modell, das die Fähigkeit bestehender Diffusion Language Models (DLMs) zur parallelen Token-Generierung beibehält, gleichzeitig aber das Problem der introspektiven Konsistenz (introspective consistency) löst und damit Qualität auf AR-Modell-Niveau erreicht
  • Mit Introspective Strided Decoding (ISD) werden in einem einzigen Forward-Pass neue Tokens erzeugt und gleichzeitig frühere Tokens verifiziert
  • I-DLM-8B ist das erste DLM, das die gleiche Qualität wie ein AR-Modell vergleichbarer Größe erreicht, und verbessert sich gegenüber LLaDA-2.1-mini (16B) mit der Hälfte der Parameter um +26 Punkte auf AIME-24 und +15 Punkte auf LiveCodeBench-v6
  • In Umgebungen mit hoher Parallelität (C=64) erreicht es 2,9- bis 4,1-fachen Durchsatz (throughput) und unterstützt mit Gated LoRA eine verlustfreie Beschleunigung auf Bit-Ebene (lossless)

Warum introspektive Konsistenz notwendig ist

  • AR-Modelle führen in einem einzigen Forward-Pass Generierung und Selbstverifikation gleichzeitig aus, während bestehende DLMs nur Denoising lernen und deshalb eine unzureichende Selbstkonsistenz aufweisen
  • Drei Engpässe bisheriger DLMs
    • Niedrige Selbstkonsistenz: SDAR 0.699 vs I-DLM 0.984
    • Ineffiziente Berechnung: TiDAR ca. 7,8-facher Overhead vs I-DLM ca. 2,5-fach
    • Infrastruktur-Mismatch: SDAR slope=84 vs I-DLM=549

I-DLM-Methodik

  • Introspective-Consistency-Training

    • Ein vortrainiertes AR-Modell wird über causal attention, logit shift und eine all-masked-Zielfunktion umgewandelt
  • Introspective Strided Decoding (ISD)

    • In einem einzigen Forward-Pass werden N Tokens erzeugt und frühere Tokens verifiziert
    • Zur Verifikation der Generierungsergebnisse wird ein p/q-Akzeptanzkriterium (acceptance criterion) verwendet
  • AR-kompatibles Serving

    • Durch eine streng kausale Attention-Struktur direkt in die SGLang-Infrastruktur integrierbar
    • Läuft ohne separate Custom-Infrastruktur in derselben Serving-Umgebung wie AR-Modelle

Leistungsergebnisse

  • I-DLM ist das erste DLM, dessen Qualität einem AR-Modell gleicher Größe entspricht, und übertrifft bestehende DLMs über 15 Benchmarks hinweg
  • Wichtige Benchmark-Ergebnisse

    • Wissen & Schlussfolgern: ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
    • Mathematik: AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
    • Code: HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
    • Instruktionsausführung: IFEval 84.7
    • I-DLM-32B erzielt höhere Leistung als LLaDA-2.1-flash (100B)

Durchsatz (Throughput)

  • Bei Batch-Größen von 1 bis 64 wird 2,9- bis 4,1-fach höherer Durchsatz gegenüber LLaDA-2.1-mini und SDAR erreicht
  • In memory-bound Umgebungen approximiert TPF (Token Per Forward) die tatsächliche Beschleunigung
    • I-DLM(N=4, p=0.9): TPF≈2.9, Effizienz 1.22
    • SDAR(N=4, p=0.5): TPF≈1.1, Effizienz 0.31
  • Eine Effizienz über 1 bedeutet, dass paralleles Decoding die Gesamtmenge an Berechnung gegenüber AR reduziert

Speedup Factor Explorer

  • Akzeptanzrate p=0.9, R-ISD LoRA-Overhead α=1.12
  • Näherungsformel für die Beschleunigung:

    • memory-bound: Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1)
    • R-ISD (verlustfrei): Speedup ≈ TPF/α
    • Gated LoRA ist nur an MASK-Positionen aktiv und garantiert damit Bit-für-Bit-Identität mit der AR-Ausgabe

Dokumentation und Ressourcen

  • Installation, Training, Inferenz, Serving, verlustfreies R-ISD, Modelle und Benchmarks werden vollständig als Web-Dokumentation bereitgestellt
  • Installation

    • GitHub-Repository klonen und danach install.sh ausführen
  • Quick Start

    • Nach dem Start des SGLang-Servers können Chat-Completion-Anfragen über die REST API gestellt werden
  • Training

    • Training durch Kombination vollständig maskierter Sequenzen mit sauberen Sequenzen
    • 4,5B Tokens, 8×H100 GPU, 2 Epochen, Stride-Curriculum (N=2→3)
  • Inference & ISD

    • Neue Tokens werden an MASK-Positionen vorgeschlagen (q) und an sauberen Positionen verifiziert (p)
    • Das Akzeptanzkriterium min(1, p(x)/q(x)) garantiert die AR-Verteilung
    • Bei Stride N=4 ergibt sich TPF=2.96, also etwa 3-fache Beschleunigung
  • Serving (SGLang)

    • Paged-KV-Cache**,** CUDA-Graph-Capture (+42~76%), Stationary-batch-Decode-Loop (+11~21%), Argmax-Proposal (+11~15%), Paged-only-Attention-Kernel (+10~14%)

      • Das Gesamtsystem erreicht 2,1- bis 2,5-fach höheren Durchsatz gegenüber der Basis
  • Lossless R-ISD

    • Gated LoRA (rank=128) wird nur an MASK-Positionen angewendet
    • Die Ausgabe ist vollständig identisch mit dem Basis-AR-Modell
    • Overhead ca. 1,12-fach
  • Model Zoo

    • I-DLM-8B: basiert auf Qwen3-8B, Qualität auf AR-Niveau
    • I-DLM-32B: basiert auf Qwen3-32B, übertrifft LLaDA-2.1-flash (100B)
    • I-DLM-8B-LoRA: mit Gated LoRA (rank=128)
  • Benchmarks

    • Auswertung über 15 Benchmarks (Wissen, Mathematik, Code, Instruktionsausführung)
    • Reproduktionsskripte werden bereitgestellt

Zitationsinformationen

  • Paper: Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
  • Forschungseinrichtungen: Together AI, UIUC, Princeton, Stanford, UT Austin
  • Autoren: Yifan Yu und 14 weitere

Fazit

  • I-DLM ist der erste Fall, in dem ein diffusionsbasiertes Sprachmodell gleichzeitig Qualität und Geschwindigkeit von AR-Modellen erreicht
  • Mit Selbstkonsistenz-Training und ISD-Decoding werden die Grenzen paralleler Generierung überwunden
  • SGLang-Kompatibilität, verlustfreie Beschleunigung und hohe Skalierbarkeit beim Durchsatz belegen die Eignung für praktische Deployments

1 Kommentare

 
GN⁺ 14 일 전
Hacker-News-Kommentare
  • Wenn ich das richtig verstanden habe, ist das ein ziemlich erstaunlicher Ansatz
    Sie haben einen Qwen-Autoregressor mit mehreren Techniken so umgebaut, dass er wie ein Diffuser funktioniert, und damit eine deutlich bessere Leistung als bisherige Diffuser erzielt
    Über LoRA-Adapter lässt sich die Ausgabe an die Verteilung des Base-Modells anpassen, sodass man mit demselben Seed bytegenau identische Ergebnisse erhält und gleichzeitig fast die doppelte Geschwindigkeit erreicht
    Ich bin eher ein begeisterter Experimentierer als ein Experte, aber das wirkt wie eine wirklich spannende Entwicklung

    • Auf jeden Fall etwas, worüber man sich freuen kann. Dieses Paper behauptet, eine Brücke zwischen AR-Qualität und parallelem Decoding zu schlagen. Besonders der verlustfreie LoRA-Hilfsmodus ist beeindruckend
    • Ich verstehe nicht, wie man die Ausgabe des Base-Modells vergleichen kann, ohne sie direkt zu erzeugen. Dann frage ich mich, welche Bedeutung dieser Vergleich überhaupt hat
    • Eigentlich ist das eher eine Variante von Multi-Token-Prediction und Speculative Decoding als von Diffusion
      Es gibt keinen Denoising-Prozess, und die kausale Struktur bleibt erhalten
      Konkret wird mit mehreren MASK-Tokens trainiert, um mehrere Tokens auf einmal vorherzusagen, und bei der Inferenz werden diese parallel erzeugt, um die Geschwindigkeit zu erhöhen
      Zum Beispiel hängt man an „what is 2+2“ fünf MASK-Tokens an und sagt damit die nächsten fünf Tokens in einem Schritt voraus
      Dadurch führt man statt Matrix-Vektor-Operationen Matrix-Matrix-Operationen aus, was die Speichereffizienz erhöht
      Allerdings sinkt die Qualität stark, je größer k (die Zahl der vorhergesagten Tokens) wird, und auch im Paper zeigt sich bereits bei k=8 ein Rückgang
      Letztlich ist es Self-Speculative Decoding auf Basis einer 4-Token-Vorhersage; die bisherigen Grenzen werden also nicht vollständig aufgehoben, aber es ist eine interessante Trainingsmethode
      Eine passende Erklärung steht in einem früheren Beitrag
  • Ich frage mich, worin genau der Unterschied im Vergleich zu DFlash oder DDTree besteht

  • Letztes Jahr habe ich kurz gesehen, wie Gemini-Antworten schrittweise erschienen, fast wie bei Diffusion
    Ich weiß nicht, ob das ein Experiment war oder nur ein visueller Effekt, aber es war interessant

  • Mich würde interessieren, ob hier jemand Diffusion für Textgenerierung ernsthaft ausprobiert

    • Inception Labs scheint schon recht lange in diesem Bereich zu forschen
      Die Geschwindigkeit ist erstaunlich, aber Latenz bis zum ersten Token und Ausgabequalität bleiben offene Aufgaben
      Wenn Geschwindigkeit und Genauigkeit noch ein Stück steigen, könnte das für kostengünstige Modelle oder asynchrone Workloads durchaus praktikabel werden
      Außerdem wäre es spannend, mit Experimenten längere Texte auf einmal zu diffundieren, um die Fähigkeit zum Schlussfolgern gezielt zu steigern
    • Derzeit wird das im Bereich lokaler LLMs für Speculative Decoding untersucht
      Siehe dazu den Beitrag von Emergent Mind
    • Mercury 2 ist im Hinblick auf Latenz und Preis für UX-Experimente sehr attraktiv
      Es läuft deutlich flüssiger als das frühere Gemini Flash Lite und eignet sich gut für Aufgaben wie Auto-Tagging oder Link-Erstellung
      An die Tool-Calling-Leistung von Haiku 3.5 kommt es allerdings noch nicht heran
      Für Aufgaben mit ausreichend Input und kurzem Output passt dLLM gut, und auch in Bereichen wie Tab-Autovervollständigung scheint Potenzial zu stecken
    • Ich habe auch damit experimentiert, und dafür braucht man eine andere intuitive Herangehensweise als bei gewöhnlichen LLMs. Für manche Probleme passt es sehr gut
    • Ich implementiere WeDLM in Swift, aber die Leistung reicht noch nicht aus
      Es generiert von links nach rechts, aber die Diffusion findet nur innerhalb eines Sliding Window statt. Bei einem Fenster von etwa 16 Tokens ist der Unterschied nicht groß
  • Ich bin kein Experte, aber bei Diffusion hätte ich erwartet, dass die gesamte Ausgabe auf einmal erzeugt wird
    Das I-LDM-Modell scheint stattdessen den vorherigen Kontext zu verwenden, um den nächsten Block zu generieren

    • Blockweise Generierung bringt einen großen Geschwindigkeitsschub
      Wenn man zum Beispiel jeweils zwei Tokens erzeugt, kommt man fast auf die doppelte Geschwindigkeit
      Mit größerer Blockgröße steigt die gesamte Generierungsgeschwindigkeit so stark, dass der Unterschied zur vollständigen Erzeugung in einem Schritt klein wird
      Entscheidend ist letztlich, wie gut sich der Qualitätsverlust begrenzen lässt, und genau das scheint dieses Paper gut zu lösen
  • Ich frage mich, ob man für solche Modelle auf sglang umsteigen muss oder ob vLLM das bereits unterstützt

  • Ich dachte schon länger, dass blockbasierte Diffusionsarchitekturen die Zukunft von LLMs sein könnten
    Eine Struktur, die die Token-Erzeugung dynamisch steuert und während der Generierung Selbstkorrektur erlaubt – so etwas könnte wie ein System für das Kurzzeitgedächtnis des Menschen sein
    Die mathematischen Grundlagen kenne ich nicht gut, aber ich hoffe, dass sich die Entwicklung in diese Richtung bewegt

  • In den Release Notes steht

    2025-04-12: Code veröffentlicht und I-DLM-8B, 32B, 8B-LoRA freigegeben
    Das Datum wirkt ziemlich alt; ich frage mich, ob das vielleicht eine ältere Version ist

    • Das ist nur ein Tippfehler im Jahr. Ich habe bestätigt, dass es tatsächlich erst vor ein paar Tagen auf HuggingFace hochgeladen wurde
  • Ich frage mich, ob man dieses Modell schon jetzt direkt verwenden kann

  • Ich frage mich, ob ein Diffusionsmodell einen Block erzeugen, das Ergebnis introspektiv prüfen und dann erneut erzeugen kann – also eine Form von iterativem Schlussfolgern

    • Ja. Das lässt sich umsetzen, indem man die erste Ausgabe erneut in das Modell einspeist und sie wie bei einem AR-Inferenzmodell neu bewertet