7 Punkte von GN⁺ 2026-02-26 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Ein Sprachmodell, das mit einem auf Diffusionsmodellen (diffusion) basierenden Verfahren zur parallelen Generierung die Geschwindigkeitsgrenzen bestehender LLMs mit sequenziellem Decoding überwindet
  • Mit einer Struktur zur parallelen Verfeinerung (parallel refinement), die mehrere Tokens gleichzeitig erzeugt und überarbeitet, erreicht es eine mehr als fünffach höhere Antwortgeschwindigkeit
  • Mit 1.009 Tokens/Sekunde Verarbeitungsgeschwindigkeit, 128K Kontext, JSON-Ausgabe und Tool-Use-Funktionen ist es für Echtzeit-Anwendungen optimiert
  • Bewährte Effizienz in latenzkritischen Umgebungen wie Coding-Assistenz, Agent-Loops, Sprachschnittstellen sowie Search- und RAG-Pipelines
  • Vollständig kompatibel mit der OpenAI API und direkt integrierbar, ohne bestehende Infrastruktur anpassen zu müssen

Überblick über Mercury 2

  • Mercury 2 ist das schnellste Inferenz-Sprachmodell der Welt
    • Ziel ist es, in produktiven AI-Umgebungen sofortige Reaktionsfähigkeit bereitzustellen
  • Der Engpass bestehender LLMs liegt in der autoregressiven sequenziellen Decodierung (one token at a time)
    • Dadurch summiert sich Latenz in AI-Workflows mit iterativen Schleifen

Diffusionsbasierte Architektur für Echtzeit-Inferenz

  • Mercury 2 nutzt parallel refinement statt sequenziellem Decoding
    • Mehrere Tokens werden gleichzeitig erzeugt und konvergieren in wenigen Schritten
    • Statt wie eine „Schreibmaschine“ zu arbeiten, überarbeitet das Modell eher wie ein „Editor“ wiederholt einen Gesamtentwurf
  • Das ermöglicht mehr als fünffach höhere Generierungsgeschwindigkeit und eine neue Geschwindigkeitskurve
  • Diffusionsbasierte Inferenz ermöglicht hochwertige Inferenz bei minimaler Latenz und geringen Kosten

Leistung und Spezifikationen

  • Geschwindigkeit: 1.009 Tokens/Sekunde auf NVIDIA-Blackwell-GPUs
  • Preis: $0,25 pro 1 Million Input-Tokens, $0,75 pro 1 Million Output-Tokens
  • Qualität: konkurrenzfähig mit führenden geschwindigkeitsoptimierten Modellen
  • Funktionen: anpassbares Reasoning (tunable reasoning), 128K Kontext, Tool-Use, JSON-Schema-ausgerichtete Ausgabe
  • Latenzoptimierung: p95-Latenz, konsistente Reaktionsfähigkeit in Umgebungen mit hoher Gleichzeitigkeit, stabile Verarbeitungskapazität
  • Ein NVIDIA-Vertreter erwähnte, dass Mercury 2 in Kombination mit NVIDIA-AI-Infrastruktur mehr als 1.000 Tokens/Sekunde erreicht habe

Anwendungsfälle in der Produktion

1. Coding und Editing

  • Bietet sofortige Antworten innerhalb von Entwickler-Loops wie Autovervollständigung, Refactoring und Code-Agenten
  • Zed-Mitgründer Max Brunsfeld betonte eine „Vorschlagsgeschwindigkeit, die sich wie ein Teil des Denkens anfühlt

2. Agent-Loops

  • Reduziert Aufruflatenzen in Agent-Workflows, die mehrstufige Inferenzaufrufe erfordern
  • Viant nutzt Mercury 2 zur Echtzeit-Kampagnenoptimierung und zur Stärkung autonomer Werbesysteme
  • Wispr Flow evaluiert die Geschwindigkeit von Mercury 2 für Echtzeit-Gespräche und die Verfeinerung von Transkriptionen
  • Skyvern erklärte, es sei „mindestens doppelt so schnell wie GPT-5.2

3. Echtzeit-Sprache und Interaktion

  • Sprachschnittstellen haben die strengsten Latenzgrenzen
  • Happyverse AI setzt Mercury 2 für natürliche interaktive Avatare in Echtzeit ein
  • OpenCall verwies auf das Potenzial, mit niedriger Latenz und hoher Qualität reaktionsstärkere Sprachagenten zu bauen

4. Search- und RAG-Pipelines

  • Ermöglicht Echtzeit-Inferenz, indem die akkumulierte Latenz aus mehrstufiger Suche, Reranking und Zusammenfassung reduziert wird
  • SearchBlox hat in Zusammenarbeit mit Mercury 2 Search-AI in Echtzeit umgesetzt
    und liefert sekundenschnelle Intelligence in Bereichen wie Kundensupport, Risiko und E-Commerce

Bereitstellung und Integration

  • Mercury 2 ist ab sofort verfügbar und vollständig kompatibel mit der OpenAI API
  • Ohne Codeänderungen in bestehende Systeme integrierbar
  • Bei Enterprise-Evaluierungen werden Unterstützung bei Workload-Eignung, Leistungsvalidierung und Evaluierungsdesign geboten
  • Offizielle Formulierung: “Mercury 2 is live. Welcome to diffusion.

Noch keine Kommentare.

Noch keine Kommentare.