7 Punkte von GN⁺ 2026-02-26 | 1 Kommentare | Auf WhatsApp teilen
  • Ein Sprachmodell, das mit einem auf Diffusionsmodellen (diffusion) basierenden Verfahren zur parallelen Generierung die Geschwindigkeitsgrenzen bestehender LLMs mit sequenziellem Decoding überwindet
  • Mit einer Struktur zur parallelen Verfeinerung (parallel refinement), die mehrere Tokens gleichzeitig erzeugt und überarbeitet, erreicht es eine mehr als fünffach höhere Antwortgeschwindigkeit
  • Mit 1.009 Tokens/Sekunde Verarbeitungsgeschwindigkeit, 128K Kontext, JSON-Ausgabe und Tool-Use-Funktionen ist es für Echtzeit-Anwendungen optimiert
  • Bewährte Effizienz in latenzkritischen Umgebungen wie Coding-Assistenz, Agent-Loops, Sprachschnittstellen sowie Search- und RAG-Pipelines
  • Vollständig kompatibel mit der OpenAI API und direkt integrierbar, ohne bestehende Infrastruktur anpassen zu müssen

Überblick über Mercury 2

  • Mercury 2 ist das schnellste Inferenz-Sprachmodell der Welt
    • Ziel ist es, in produktiven AI-Umgebungen sofortige Reaktionsfähigkeit bereitzustellen
  • Der Engpass bestehender LLMs liegt in der autoregressiven sequenziellen Decodierung (one token at a time)
    • Dadurch summiert sich Latenz in AI-Workflows mit iterativen Schleifen
Anzeige

Diffusionsbasierte Architektur für Echtzeit-Inferenz

  • Mercury 2 nutzt parallel refinement statt sequenziellem Decoding
    • Mehrere Tokens werden gleichzeitig erzeugt und konvergieren in wenigen Schritten
    • Statt wie eine „Schreibmaschine“ zu arbeiten, überarbeitet das Modell eher wie ein „Editor“ wiederholt einen Gesamtentwurf
  • Das ermöglicht mehr als fünffach höhere Generierungsgeschwindigkeit und eine neue Geschwindigkeitskurve
  • Diffusionsbasierte Inferenz ermöglicht hochwertige Inferenz bei minimaler Latenz und geringen Kosten

Leistung und Spezifikationen

  • Geschwindigkeit: 1.009 Tokens/Sekunde auf NVIDIA-Blackwell-GPUs
  • Preis: $0,25 pro 1 Million Input-Tokens, $0,75 pro 1 Million Output-Tokens
  • Qualität: konkurrenzfähig mit führenden geschwindigkeitsoptimierten Modellen
  • Funktionen: anpassbares Reasoning (tunable reasoning), 128K Kontext, Tool-Use, JSON-Schema-ausgerichtete Ausgabe
  • Latenzoptimierung: p95-Latenz, konsistente Reaktionsfähigkeit in Umgebungen mit hoher Gleichzeitigkeit, stabile Verarbeitungskapazität
  • Ein NVIDIA-Vertreter erwähnte, dass Mercury 2 in Kombination mit NVIDIA-AI-Infrastruktur mehr als 1.000 Tokens/Sekunde erreicht habe

Anwendungsfälle in der Produktion

1. Coding und Editing

  • Bietet sofortige Antworten innerhalb von Entwickler-Loops wie Autovervollständigung, Refactoring und Code-Agenten
  • Zed-Mitgründer Max Brunsfeld betonte eine „Vorschlagsgeschwindigkeit, die sich wie ein Teil des Denkens anfühlt
Anzeige

2. Agent-Loops

  • Reduziert Aufruflatenzen in Agent-Workflows, die mehrstufige Inferenzaufrufe erfordern
  • Viant nutzt Mercury 2 zur Echtzeit-Kampagnenoptimierung und zur Stärkung autonomer Werbesysteme
  • Wispr Flow evaluiert die Geschwindigkeit von Mercury 2 für Echtzeit-Gespräche und die Verfeinerung von Transkriptionen
  • Skyvern erklärte, es sei „mindestens doppelt so schnell wie GPT-5.2

3. Echtzeit-Sprache und Interaktion

  • Sprachschnittstellen haben die strengsten Latenzgrenzen
  • Happyverse AI setzt Mercury 2 für natürliche interaktive Avatare in Echtzeit ein
  • OpenCall verwies auf das Potenzial, mit niedriger Latenz und hoher Qualität reaktionsstärkere Sprachagenten zu bauen

4. Search- und RAG-Pipelines

  • Ermöglicht Echtzeit-Inferenz, indem die akkumulierte Latenz aus mehrstufiger Suche, Reranking und Zusammenfassung reduziert wird
  • SearchBlox hat in Zusammenarbeit mit Mercury 2 Search-AI in Echtzeit umgesetzt
    und liefert sekundenschnelle Intelligence in Bereichen wie Kundensupport, Risiko und E-Commerce

Bereitstellung und Integration

  • Mercury 2 ist ab sofort verfügbar und vollständig kompatibel mit der OpenAI API
  • Ohne Codeänderungen in bestehende Systeme integrierbar
  • Bei Enterprise-Evaluierungen werden Unterstützung bei Workload-Eignung, Leistungsvalidierung und Evaluierungsdesign geboten
  • Offizielle Formulierung: “Mercury 2 is live. Welcome to diffusion.

1 Kommentare

 
GN⁺ 2026-02-26
Hacker-News-Kommentare
  • Das Konzept, Intelligenz (Metrik) pro Sekunde zu messen, ist interessant
    Zum Beispiel, indem man die Intelligenz pro Token zusammen mit der Zahl der Tokens pro Sekunde betrachtet
    Wenn Sonnet 4.6 persönlich für mich 5-mal schneller als Opus 4.6 wäre, würde ich vermutlich meist Sonnet verwenden
    In der vorherigen Generation war die Sonnet-Reihe nicht gut genug, aber jetzt hat sich die Lage geändert, weil der Iterations-Vorteil durch Geschwindigkeit groß ist
    Früher habe ich OpenAI Deep Research genutzt, aber o3-thinking + Websuche war viel schneller und dabei trotzdem klug genug

    • Ich denke, dass „Geschwindigkeit selbst eine Achse von Qualität“ ist
      Wenn man mit Hardware wie Cerebras oder Groq eine API entwickelt, sind Iterationsgeschwindigkeit und Kosten auf einem völlig anderen Niveau
      Auch in einer kürzlich verfassten Forschungsnotiz wird gezeigt, dass sich die Leistung stark verbessert, wenn man Planung als AR-Modell und Generierung als Diffusion-Modell aufteilt
    • Wenn man dieser Metrik noch die Effizienz pro Hardware-Einheit hinzufügen würde, wäre sie realistischer
      Wenn zum Beispiel 5 Tonnen Kohle ausreichen, man aber 30 Tonnen verbraucht, um 0,0000000001 % Verbesserung zu erzielen, ist das kein echter Fortschritt
    • Es entsteht gerade eine neue Modellklasse, die auf schnelle Agenten-Iterationen abzielt
      Composer- oder Flash-Versionen von Modellen sind Beispiele dafür, und Mercury 2 positioniert sich in dieser Kategorie als starkes Modell
    • Bald dürfte man echte Benchmarks durchführen können
      Schnelle Modelle iterieren schneller, große Modelle sind beim ersten Versuch präziser
      Momentan mag ich Opus 4.6, aber ich würde den Effizienzunterschied zu Sonnet gern anhand von Daten sehen
    • Das Konzept „Intelligence per second“ gefällt mir wirklich
      Genau deshalb mochte ich Gemini 3 Flash — klug genug und unglaublich schnell
  • Ich habe einen einfachen Test gemacht und nach „Maradonas Leistungen“ gefragt, worauf Mercury 2 den Tippfehler „Dieadona“ ausgab
    Eine lokale 3B-Modellvariante würde diese Frage perfekt beantworten, aber Mercury 2 ist langsam und fehleranfällig

  • Mercury 2 erzeugt Antworten per paralleler Verfeinerung (parallel refinement)
    Es erzeugt mehrere Tokens gleichzeitig und konvergiert in wenigen Schritten; statt wie eine Schreibmaschine zu arbeiten, überarbeitet es einen gesamten Entwurf wie ein Editor
    Es wird an Forschung gearbeitet, die DDPM und SGM über SDE zusammenführt, und ich frage mich, ob man jede Layer eines Transformers als Diffusionsschritt sehen könnte
    Wenn die L Layer eines Transformers den L Verfeinerungsschritten einer Diffusion entsprechen, wäre vielleicht sogar ein gegenseitiges Fitting zwischen den beiden Modellen möglich

  • Als Mitgründer und Chief Scientist von Inception beantworte ich gern technische Fragen zu Mercury 2 oder Diffusion-LMs

    • Ich frage mich, wie der KV-Cache in Diffusionsmodellen funktioniert
      Ob sich damit Latenz oder Kosten senken lassen, ob die Kurve der autoregressiven Zwischenspeicherung ähnelt oder ob das gar nicht anwendbar ist
    • Diffusionsmodelle scheinen Reasoning auf Textblock-Ebene durchzuführen; ich frage mich, wie sie mit Informationsabhängigkeiten zwischen Blöcken umgehen
      Auch dynamische Blocklängen wären interessant
    • Ich würde gern verstehen, wie die in der Präsentation erwähnte Voice AI tatsächlich funktioniert
      Bei den meisten Sprachsystemen ist TTFT (time-to-first-token) wichtiger als die Verzögerung der vollständigen Antwort
      Ich würde gern wissen, wie stark sich der TTFT-Wert von Mercury 2 im Vergleich zu anderen Reasoning-Modellen verbessert
    • Ich habe ein Festhängen in Schleifen erlebt, ähnlich wie bei schwachen Transformer-Modellen
      Siehe Beispiellink
      Ich frage mich, was die Ursache für dieses Phänomen ist
    • Mich würde auch interessieren, ob geplant ist, das Modell für noch höhere Geschwindigkeit zu einem Drifting-Modell weiterzuentwickeln
  • Am interessantesten finde ich, dass nun Modelle auftauchen, die mehrere tausend Tokens pro Sekunde erzeugen
    Dann würden Nutzer Multi-Shot Prompting oder Nudging gar nicht mehr wahrnehmen, was Halluzinationen oder nichtdeterministische Antworten verringern könnte

    • Wir sehen das genauso
      Mercury 2 ermöglicht schnelle Iterationen bei Agentenaufgaben
      Ein einzelner Versuch mag weniger präzise sein, aber dank der kurzen Laufzeit lässt sich viel schneller verbessern
    • Auch allgemeine Modelle sind mit Batch Inference ziemlich schnell
      GPT-OSS 20B erreicht zum Beispiel auf einer einzelnen 3090 bei bs=64 etwa 2k tok/s
  • Ich bin von Diffusionsmodellen noch nicht überzeugt
    Auch Google und andere haben es versucht, lagen aber in den meisten Fällen auf der Pareto frontier zurück
    Siehe Link zum Preis-/Leistungsvergleich

    • Gegen die Pareto-Sicht gibt es Einwände
      Bei gleicher Qualitätsstufe ist Mercury mehr als 5-mal schneller als vergleichbare AR-Modelle
      Die absolute Intelligenz liegt zwar noch unter Opus oder Gemini Pro, aber bei der Inferenzgeschwindigkeit gibt es einen großen Vorteil
    • Text-Diffusion hat noch viel Entwicklungspotenzial
      Das Gebiet ist weit weniger erschlossen als autoregressive Transformer, daher gibt es viel technischen Headroom
    • Für schnelle Edits scheint dieses Modell perfekt zu sein
      Wenn es eine Version „Mercury Edit“ wie Morphs Fast Apply gäbe, würde ich sie unbedingt ausprobieren
  • Der Diffusionsansatz ist äußerst interessant
    Traditionelle Transformer erzeugen Tokens sequenziell, Diffusion kann dagegen die gesamte Ausgabe wiederholt verfeinern (refine)
    Wenn damit das Latenz-Problem gelöst wurde, könnte das neue Möglichkeiten für komplexe Reasoning-Aufgaben eröffnen

  • Ich frage mich, ob es ein Open-Weights-Diffusion-LLM gibt, das auf lokaler Hardware laufen kann
    Ich würde den Leistungsunterschied in einer Consumer-GPU-Umgebung gern selbst sehen

  • Mercury 2 ist beim Car Wash Test durchgefallen
    Statt auf allgemeine Reasoning-Modelle sollte man sich vielleicht eher auf spezifische Anwendungsfälle (z. B. Coding-Agenten) konzentrieren und mit SOTA-Modellen in diesem Bereich wie Qwen3-Coder-Next vergleichen

    • Ich persönlich bevorzuge langsamere, aber genaue Modelle gegenüber schnellen, aber fehleranfälligen Modellen
      Auch bei langen Sessions ist Genauigkeit wichtiger
  • Wenn dieses Modell auf einem Talaas-Chip laufen würde, könnte es dann vielleicht mehr als 50.000 Tokens pro Sekunde erzeugen?

    • Wenn es als ASIC-artige Schaltung ohne Speicherlatenz eingebettet würde, scheint bei jedem Modell ein enormer Geschwindigkeitsschub möglich zu sein