Mercury 2: Diffusionsbasiertes ultraschnelles Inferenz-LLM

(inceptionlabs.ai)

7 Punkte von GN⁺ 2026-02-26 | Noch keine Kommentare. | Auf WhatsApp teilen

Ein Sprachmodell, das mit einem auf Diffusionsmodellen (diffusion) basierenden Verfahren zur parallelen Generierung die Geschwindigkeitsgrenzen bestehender LLMs mit sequenziellem Decoding überwindet
Mit einer Struktur zur parallelen Verfeinerung (parallel refinement), die mehrere Tokens gleichzeitig erzeugt und überarbeitet, erreicht es eine mehr als fünffach höhere Antwortgeschwindigkeit
Mit 1.009 Tokens/Sekunde Verarbeitungsgeschwindigkeit, 128K Kontext, JSON-Ausgabe und Tool-Use-Funktionen ist es für Echtzeit-Anwendungen optimiert
Bewährte Effizienz in latenzkritischen Umgebungen wie Coding-Assistenz, Agent-Loops, Sprachschnittstellen sowie Search- und RAG-Pipelines
Vollständig kompatibel mit der OpenAI API und direkt integrierbar, ohne bestehende Infrastruktur anpassen zu müssen

Überblick über Mercury 2

Mercury 2 ist das schnellste Inferenz-Sprachmodell der Welt
- Ziel ist es, in produktiven AI-Umgebungen sofortige Reaktionsfähigkeit bereitzustellen
Der Engpass bestehender LLMs liegt in der autoregressiven sequenziellen Decodierung (one token at a time)
- Dadurch summiert sich Latenz in AI-Workflows mit iterativen Schleifen

Mercury 2 nutzt parallel refinement statt sequenziellem Decoding
- Mehrere Tokens werden gleichzeitig erzeugt und konvergieren in wenigen Schritten
- Statt wie eine „Schreibmaschine“ zu arbeiten, überarbeitet das Modell eher wie ein „Editor“ wiederholt einen Gesamtentwurf
Das ermöglicht mehr als fünffach höhere Generierungsgeschwindigkeit und eine neue Geschwindigkeitskurve
Diffusionsbasierte Inferenz ermöglicht hochwertige Inferenz bei minimaler Latenz und geringen Kosten

Geschwindigkeit: 1.009 Tokens/Sekunde auf NVIDIA-Blackwell-GPUs
Preis: $0,25 pro 1 Million Input-Tokens, $0,75 pro 1 Million Output-Tokens
Qualität: konkurrenzfähig mit führenden geschwindigkeitsoptimierten Modellen
Funktionen: anpassbares Reasoning (tunable reasoning), 128K Kontext, Tool-Use, JSON-Schema-ausgerichtete Ausgabe
Latenzoptimierung: p95-Latenz, konsistente Reaktionsfähigkeit in Umgebungen mit hoher Gleichzeitigkeit, stabile Verarbeitungskapazität
Ein NVIDIA-Vertreter erwähnte, dass Mercury 2 in Kombination mit NVIDIA-AI-Infrastruktur mehr als 1.000 Tokens/Sekunde erreicht habe

Bietet sofortige Antworten innerhalb von Entwickler-Loops wie Autovervollständigung, Refactoring und Code-Agenten
Zed-Mitgründer Max Brunsfeld betonte eine „Vorschlagsgeschwindigkeit, die sich wie ein Teil des Denkens anfühlt“

Reduziert Aufruflatenzen in Agent-Workflows, die mehrstufige Inferenzaufrufe erfordern
Viant nutzt Mercury 2 zur Echtzeit-Kampagnenoptimierung und zur Stärkung autonomer Werbesysteme
Wispr Flow evaluiert die Geschwindigkeit von Mercury 2 für Echtzeit-Gespräche und die Verfeinerung von Transkriptionen
Skyvern erklärte, es sei „mindestens doppelt so schnell wie GPT-5.2“

Sprachschnittstellen haben die strengsten Latenzgrenzen
Happyverse AI setzt Mercury 2 für natürliche interaktive Avatare in Echtzeit ein
OpenCall verwies auf das Potenzial, mit niedriger Latenz und hoher Qualität reaktionsstärkere Sprachagenten zu bauen

Ermöglicht Echtzeit-Inferenz, indem die akkumulierte Latenz aus mehrstufiger Suche, Reranking und Zusammenfassung reduziert wird
SearchBlox hat in Zusammenarbeit mit Mercury 2 Search-AI in Echtzeit umgesetzt
und liefert sekundenschnelle Intelligence in Bereichen wie Kundensupport, Risiko und E-Commerce

Mercury 2 ist ab sofort verfügbar und vollständig kompatibel mit der OpenAI API
Ohne Codeänderungen in bestehende Systeme integrierbar
Bei Enterprise-Evaluierungen werden Unterstützung bei Workload-Eignung, Leistungsvalidierung und Evaluierungsdesign geboten
Offizielle Formulierung: “Mercury 2 is live. Welcome to diffusion.”