- Ein Sprachmodell, das mit einem auf Diffusionsmodellen (diffusion) basierenden Verfahren zur parallelen Generierung die Geschwindigkeitsgrenzen bestehender LLMs mit sequenziellem Decoding überwindet
- Mit einer Struktur zur parallelen Verfeinerung (parallel refinement), die mehrere Tokens gleichzeitig erzeugt und überarbeitet, erreicht es eine mehr als fünffach höhere Antwortgeschwindigkeit
- Mit 1.009 Tokens/Sekunde Verarbeitungsgeschwindigkeit, 128K Kontext, JSON-Ausgabe und Tool-Use-Funktionen ist es für Echtzeit-Anwendungen optimiert
- Bewährte Effizienz in latenzkritischen Umgebungen wie Coding-Assistenz, Agent-Loops, Sprachschnittstellen sowie Search- und RAG-Pipelines
- Vollständig kompatibel mit der OpenAI API und direkt integrierbar, ohne bestehende Infrastruktur anpassen zu müssen
Überblick über Mercury 2
- Mercury 2 ist das schnellste Inferenz-Sprachmodell der Welt
- Ziel ist es, in produktiven AI-Umgebungen sofortige Reaktionsfähigkeit bereitzustellen
- Der Engpass bestehender LLMs liegt in der autoregressiven sequenziellen Decodierung (one token at a time)
- Dadurch summiert sich Latenz in AI-Workflows mit iterativen Schleifen
Diffusionsbasierte Architektur für Echtzeit-Inferenz
- Mercury 2 nutzt parallel refinement statt sequenziellem Decoding
- Mehrere Tokens werden gleichzeitig erzeugt und konvergieren in wenigen Schritten
- Statt wie eine „Schreibmaschine“ zu arbeiten, überarbeitet das Modell eher wie ein „Editor“ wiederholt einen Gesamtentwurf
- Das ermöglicht mehr als fünffach höhere Generierungsgeschwindigkeit und eine neue Geschwindigkeitskurve
- Diffusionsbasierte Inferenz ermöglicht hochwertige Inferenz bei minimaler Latenz und geringen Kosten
Leistung und Spezifikationen
- Geschwindigkeit: 1.009 Tokens/Sekunde auf NVIDIA-Blackwell-GPUs
- Preis: $0,25 pro 1 Million Input-Tokens, $0,75 pro 1 Million Output-Tokens
- Qualität: konkurrenzfähig mit führenden geschwindigkeitsoptimierten Modellen
- Funktionen: anpassbares Reasoning (tunable reasoning), 128K Kontext, Tool-Use, JSON-Schema-ausgerichtete Ausgabe
- Latenzoptimierung: p95-Latenz, konsistente Reaktionsfähigkeit in Umgebungen mit hoher Gleichzeitigkeit, stabile Verarbeitungskapazität
- Ein NVIDIA-Vertreter erwähnte, dass Mercury 2 in Kombination mit NVIDIA-AI-Infrastruktur mehr als 1.000 Tokens/Sekunde erreicht habe
Anwendungsfälle in der Produktion
1. Coding und Editing
- Bietet sofortige Antworten innerhalb von Entwickler-Loops wie Autovervollständigung, Refactoring und Code-Agenten
- Zed-Mitgründer Max Brunsfeld betonte eine „Vorschlagsgeschwindigkeit, die sich wie ein Teil des Denkens anfühlt“
2. Agent-Loops
- Reduziert Aufruflatenzen in Agent-Workflows, die mehrstufige Inferenzaufrufe erfordern
- Viant nutzt Mercury 2 zur Echtzeit-Kampagnenoptimierung und zur Stärkung autonomer Werbesysteme
- Wispr Flow evaluiert die Geschwindigkeit von Mercury 2 für Echtzeit-Gespräche und die Verfeinerung von Transkriptionen
- Skyvern erklärte, es sei „mindestens doppelt so schnell wie GPT-5.2“
3. Echtzeit-Sprache und Interaktion
- Sprachschnittstellen haben die strengsten Latenzgrenzen
- Happyverse AI setzt Mercury 2 für natürliche interaktive Avatare in Echtzeit ein
- OpenCall verwies auf das Potenzial, mit niedriger Latenz und hoher Qualität reaktionsstärkere Sprachagenten zu bauen
4. Search- und RAG-Pipelines
- Ermöglicht Echtzeit-Inferenz, indem die akkumulierte Latenz aus mehrstufiger Suche, Reranking und Zusammenfassung reduziert wird
- SearchBlox hat in Zusammenarbeit mit Mercury 2 Search-AI in Echtzeit umgesetzt
und liefert sekundenschnelle Intelligence in Bereichen wie Kundensupport, Risiko und E-Commerce
Bereitstellung und Integration
- Mercury 2 ist ab sofort verfügbar und vollständig kompatibel mit der OpenAI API
- Ohne Codeänderungen in bestehende Systeme integrierbar
- Bei Enterprise-Evaluierungen werden Unterstützung bei Workload-Eignung, Leistungsvalidierung und Evaluierungsdesign geboten
- Offizielle Formulierung: “Mercury 2 is live. Welcome to diffusion.”
Noch keine Kommentare.