Mercury 2: Diffusionsbasiertes ultraschnelles Inferenz-LLM
(inceptionlabs.ai)- Ein Sprachmodell, das mit einem auf Diffusionsmodellen (diffusion) basierenden Verfahren zur parallelen Generierung die Geschwindigkeitsgrenzen bestehender LLMs mit sequenziellem Decoding überwindet
- Mit einer Struktur zur parallelen Verfeinerung (parallel refinement), die mehrere Tokens gleichzeitig erzeugt und überarbeitet, erreicht es eine mehr als fünffach höhere Antwortgeschwindigkeit
- Mit 1.009 Tokens/Sekunde Verarbeitungsgeschwindigkeit, 128K Kontext, JSON-Ausgabe und Tool-Use-Funktionen ist es für Echtzeit-Anwendungen optimiert
- Bewährte Effizienz in latenzkritischen Umgebungen wie Coding-Assistenz, Agent-Loops, Sprachschnittstellen sowie Search- und RAG-Pipelines
- Vollständig kompatibel mit der OpenAI API und direkt integrierbar, ohne bestehende Infrastruktur anpassen zu müssen
Überblick über Mercury 2
- Mercury 2 ist das schnellste Inferenz-Sprachmodell der Welt
- Ziel ist es, in produktiven AI-Umgebungen sofortige Reaktionsfähigkeit bereitzustellen
- Der Engpass bestehender LLMs liegt in der autoregressiven sequenziellen Decodierung (one token at a time)
- Dadurch summiert sich Latenz in AI-Workflows mit iterativen Schleifen
Diffusionsbasierte Architektur für Echtzeit-Inferenz
- Mercury 2 nutzt parallel refinement statt sequenziellem Decoding
- Mehrere Tokens werden gleichzeitig erzeugt und konvergieren in wenigen Schritten
- Statt wie eine „Schreibmaschine“ zu arbeiten, überarbeitet das Modell eher wie ein „Editor“ wiederholt einen Gesamtentwurf
- Das ermöglicht mehr als fünffach höhere Generierungsgeschwindigkeit und eine neue Geschwindigkeitskurve
- Diffusionsbasierte Inferenz ermöglicht hochwertige Inferenz bei minimaler Latenz und geringen Kosten
Leistung und Spezifikationen
- Geschwindigkeit: 1.009 Tokens/Sekunde auf NVIDIA-Blackwell-GPUs
- Preis: $0,25 pro 1 Million Input-Tokens, $0,75 pro 1 Million Output-Tokens
- Qualität: konkurrenzfähig mit führenden geschwindigkeitsoptimierten Modellen
- Funktionen: anpassbares Reasoning (tunable reasoning), 128K Kontext, Tool-Use, JSON-Schema-ausgerichtete Ausgabe
- Latenzoptimierung: p95-Latenz, konsistente Reaktionsfähigkeit in Umgebungen mit hoher Gleichzeitigkeit, stabile Verarbeitungskapazität
- Ein NVIDIA-Vertreter erwähnte, dass Mercury 2 in Kombination mit NVIDIA-AI-Infrastruktur mehr als 1.000 Tokens/Sekunde erreicht habe
Anwendungsfälle in der Produktion
1. Coding und Editing
- Bietet sofortige Antworten innerhalb von Entwickler-Loops wie Autovervollständigung, Refactoring und Code-Agenten
- Zed-Mitgründer Max Brunsfeld betonte eine „Vorschlagsgeschwindigkeit, die sich wie ein Teil des Denkens anfühlt“
2. Agent-Loops
- Reduziert Aufruflatenzen in Agent-Workflows, die mehrstufige Inferenzaufrufe erfordern
- Viant nutzt Mercury 2 zur Echtzeit-Kampagnenoptimierung und zur Stärkung autonomer Werbesysteme
- Wispr Flow evaluiert die Geschwindigkeit von Mercury 2 für Echtzeit-Gespräche und die Verfeinerung von Transkriptionen
- Skyvern erklärte, es sei „mindestens doppelt so schnell wie GPT-5.2“
3. Echtzeit-Sprache und Interaktion
- Sprachschnittstellen haben die strengsten Latenzgrenzen
- Happyverse AI setzt Mercury 2 für natürliche interaktive Avatare in Echtzeit ein
- OpenCall verwies auf das Potenzial, mit niedriger Latenz und hoher Qualität reaktionsstärkere Sprachagenten zu bauen
4. Search- und RAG-Pipelines
- Ermöglicht Echtzeit-Inferenz, indem die akkumulierte Latenz aus mehrstufiger Suche, Reranking und Zusammenfassung reduziert wird
- SearchBlox hat in Zusammenarbeit mit Mercury 2 Search-AI in Echtzeit umgesetzt
und liefert sekundenschnelle Intelligence in Bereichen wie Kundensupport, Risiko und E-Commerce
Bereitstellung und Integration
- Mercury 2 ist ab sofort verfügbar und vollständig kompatibel mit der OpenAI API
- Ohne Codeänderungen in bestehende Systeme integrierbar
- Bei Enterprise-Evaluierungen werden Unterstützung bei Workload-Eignung, Leistungsvalidierung und Evaluierungsdesign geboten
- Offizielle Formulierung: “Mercury 2 is live. Welcome to diffusion.”
1 Kommentare
Hacker-News-Kommentare
Das Konzept, Intelligenz (Metrik) pro Sekunde zu messen, ist interessant
Zum Beispiel, indem man die Intelligenz pro Token zusammen mit der Zahl der Tokens pro Sekunde betrachtet
Wenn Sonnet 4.6 persönlich für mich 5-mal schneller als Opus 4.6 wäre, würde ich vermutlich meist Sonnet verwenden
In der vorherigen Generation war die Sonnet-Reihe nicht gut genug, aber jetzt hat sich die Lage geändert, weil der Iterations-Vorteil durch Geschwindigkeit groß ist
Früher habe ich OpenAI Deep Research genutzt, aber o3-thinking + Websuche war viel schneller und dabei trotzdem klug genug
Wenn man mit Hardware wie Cerebras oder Groq eine API entwickelt, sind Iterationsgeschwindigkeit und Kosten auf einem völlig anderen Niveau
Auch in einer kürzlich verfassten Forschungsnotiz wird gezeigt, dass sich die Leistung stark verbessert, wenn man Planung als AR-Modell und Generierung als Diffusion-Modell aufteilt
Wenn zum Beispiel 5 Tonnen Kohle ausreichen, man aber 30 Tonnen verbraucht, um 0,0000000001 % Verbesserung zu erzielen, ist das kein echter Fortschritt
Composer- oder Flash-Versionen von Modellen sind Beispiele dafür, und Mercury 2 positioniert sich in dieser Kategorie als starkes Modell
Schnelle Modelle iterieren schneller, große Modelle sind beim ersten Versuch präziser
Momentan mag ich Opus 4.6, aber ich würde den Effizienzunterschied zu Sonnet gern anhand von Daten sehen
Genau deshalb mochte ich Gemini 3 Flash — klug genug und unglaublich schnell
Ich habe einen einfachen Test gemacht und nach „Maradonas Leistungen“ gefragt, worauf Mercury 2 den Tippfehler „Dieadona“ ausgab
Eine lokale 3B-Modellvariante würde diese Frage perfekt beantworten, aber Mercury 2 ist langsam und fehleranfällig
Mercury 2 erzeugt Antworten per paralleler Verfeinerung (parallel refinement)
Es erzeugt mehrere Tokens gleichzeitig und konvergiert in wenigen Schritten; statt wie eine Schreibmaschine zu arbeiten, überarbeitet es einen gesamten Entwurf wie ein Editor
Es wird an Forschung gearbeitet, die DDPM und SGM über SDE zusammenführt, und ich frage mich, ob man jede Layer eines Transformers als Diffusionsschritt sehen könnte
Wenn die L Layer eines Transformers den L Verfeinerungsschritten einer Diffusion entsprechen, wäre vielleicht sogar ein gegenseitiges Fitting zwischen den beiden Modellen möglich
Als Mitgründer und Chief Scientist von Inception beantworte ich gern technische Fragen zu Mercury 2 oder Diffusion-LMs
Ob sich damit Latenz oder Kosten senken lassen, ob die Kurve der autoregressiven Zwischenspeicherung ähnelt oder ob das gar nicht anwendbar ist
Auch dynamische Blocklängen wären interessant
Bei den meisten Sprachsystemen ist TTFT (time-to-first-token) wichtiger als die Verzögerung der vollständigen Antwort
Ich würde gern wissen, wie stark sich der TTFT-Wert von Mercury 2 im Vergleich zu anderen Reasoning-Modellen verbessert
Siehe Beispiellink
Ich frage mich, was die Ursache für dieses Phänomen ist
Am interessantesten finde ich, dass nun Modelle auftauchen, die mehrere tausend Tokens pro Sekunde erzeugen
Dann würden Nutzer Multi-Shot Prompting oder Nudging gar nicht mehr wahrnehmen, was Halluzinationen oder nichtdeterministische Antworten verringern könnte
Mercury 2 ermöglicht schnelle Iterationen bei Agentenaufgaben
Ein einzelner Versuch mag weniger präzise sein, aber dank der kurzen Laufzeit lässt sich viel schneller verbessern
GPT-OSS 20B erreicht zum Beispiel auf einer einzelnen 3090 bei bs=64 etwa 2k tok/s
Ich bin von Diffusionsmodellen noch nicht überzeugt
Auch Google und andere haben es versucht, lagen aber in den meisten Fällen auf der Pareto frontier zurück
Siehe Link zum Preis-/Leistungsvergleich
Bei gleicher Qualitätsstufe ist Mercury mehr als 5-mal schneller als vergleichbare AR-Modelle
Die absolute Intelligenz liegt zwar noch unter Opus oder Gemini Pro, aber bei der Inferenzgeschwindigkeit gibt es einen großen Vorteil
Das Gebiet ist weit weniger erschlossen als autoregressive Transformer, daher gibt es viel technischen Headroom
Wenn es eine Version „Mercury Edit“ wie Morphs Fast Apply gäbe, würde ich sie unbedingt ausprobieren
Der Diffusionsansatz ist äußerst interessant
Traditionelle Transformer erzeugen Tokens sequenziell, Diffusion kann dagegen die gesamte Ausgabe wiederholt verfeinern (refine)
Wenn damit das Latenz-Problem gelöst wurde, könnte das neue Möglichkeiten für komplexe Reasoning-Aufgaben eröffnen
Ich frage mich, ob es ein Open-Weights-Diffusion-LLM gibt, das auf lokaler Hardware laufen kann
Ich würde den Leistungsunterschied in einer Consumer-GPU-Umgebung gern selbst sehen
Mercury 2 ist beim Car Wash Test durchgefallen
Statt auf allgemeine Reasoning-Modelle sollte man sich vielleicht eher auf spezifische Anwendungsfälle (z. B. Coding-Agenten) konzentrieren und mit SOTA-Modellen in diesem Bereich wie Qwen3-Coder-Next vergleichen
Auch bei langen Sessions ist Genauigkeit wichtiger
Wenn dieses Modell auf einem Talaas-Chip laufen würde, könnte es dann vielleicht mehr als 50.000 Tokens pro Sekunde erzeugen?