7 Punkte von GN⁺ 2025-08-12 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Das OpenAI-Open-Source-LLM GPT-OSS-120B wurde in einer NVIDIA-GPU-Umgebung auf eine Leistung von mehr als 500 Tokens pro Sekunde optimiert
  • Verschiedene Inferenz-Frameworks wie TensorRT-LLM, vLLM und SGLang wurden parallel getestet, wodurch sowohl die Hopper- als auch die Blackwell-Architektur unterstützt wird
  • Bei der Arbeit wurden Kompatibilitätsfehler behoben sowie neue Antwortformate wie Harmony, KV-Cache-aware Routing und Eagle-basiertes Speculative Decoding integriert
  • Nach dem Vergleich von Tensor Parallelism und Expert Parallelism wurde zur geringeren Latenz Tensor Parallelism gewählt und auf Blackwell der TensorRT-LLM-MoE-Backend eingesetzt
  • Für die Zukunft sind weitere Optimierungen geplant, unter anderem Speculative Decoding mit einem kleinen Draft-Modell

Überblick

  • Mit der Veröffentlichung von OpenAIs neuesten Open-Source-LLMs GPT-OSS-120B ging Baseten direkt an die Umsetzung von Top-Performance
    • Baseten ist ein offizieller Launch-Partner von OpenAI
  • Auf Basis echter Nutzerdaten von OpenRouter wurde in einer NVIDIA-GPU-basierten Umgebung die bessere Performance gegenüber Wettbewerbern nachgewiesen
  • Dank des flexiblen Inferenz-Stacks und der Expertise des Modell-Engineering-Teams konnten Optimierungspatches innerhalb von Stunden ausgerollt werden
  • Bereits während der ersten Stunden der Blogserien wurden zusätzlich 100 Tokens pro Sekunde gewonnen, bei 100 % Verfügbarkeit

Leistungsgoptimierung

  • Es wurden Tests und Benchmarks mit verschiedenen Inferenz-Frameworks wie TensorRT-LLM, vLLM und SGLang durchgeführt
  • Gleichzeitig wurde die Kompatibilität mit den GPU-Architekturen Hopper und Blackwell sichergestellt
  • Baseten integrierte den Flexible Inference Stack und Schlüsselkomponenten wie NVIDIA Dynamo
  • Es wurden fortlaufend bewährte Optimierungstechniken wie KV-cache-aware routing und Speculative Decoding (auf Basis von Eagle) angewendet

Im Folgenden sind die Kernschritte für die gleichzeitige Erreichung von SOTA-Performance und vollständiger Kontextfenster-Unterstützung zusammengefasst

Schritt 1: Erste Inferenzausführung

  • Der erste Schritt ist, die Erstinferenz (baseline inference) so schnell wie möglich auszuführen, unabhängig von der gewählten Methode
  • Inspiriert von der GPU-Performance liefen parallel mehrere Ingenieure Tests mit vLLM, SGLang und TensorRT-LLM parallel
  • TensorRT-LLM, das beste Performance lieferte, wurde rasch betriebsbereit gemacht
  • Für Hopper (mit den meisten H100-GPUs) und Blackwell (mit deutlich höherer Geschwindigkeit durch B200) wurde die TensorRT-LLM-Unterstützung sichergestellt
  • Dank der Flexibilität der Baseten Inference Runtime war es einfach, neue Architekturen aufzunehmen und Werkzeuge im Stack schnell auszutauschen

Schritt 2: Kompatibilitätsfehler beheben

  • Neue Modellarchitekturen gehen bei der Framework-Integration oft mit häufigen Bugs einher
  • GPT-OSS enthält neue Features wie das Harmony-Antwortformat, wodurch es bei der Integration in bestehende Frameworks zu Fehlern kam
  • Zur Sicherung von Geschwindigkeit und Genauigkeit wurden wiederholte Korrekturen und Tests durchgeführt; wirksame Fixes wurden in Open Source eingebracht
  • Durch die Zusammenarbeit der globalen Open-Source-Community laufen verschiedene Optimierungspfade und Bugfixes inzwischen sehr schnell

Schritt 3: Modellkonfiguration optimieren

  • Obwohl OpenAI angibt, dass GPT-OSS 120B auch auf einer einzelnen H100 läuft, ist in der Praxis eine Parallelisierung über 4–8 GPUs für bessere Performance vorteilhaft
  • Tensor Parallelism ist bei der Latenz stark, Expert Parallelism bei Durchsatz (throughput)
    • Da Baseten auf Latenzoptimierung ausgerichtet ist, wurde Tensor Parallelism gewählt
  • Auf Blackwell wurde ein TensorRT-LLM-MoE-Backend genutzt, das die CUDA-Kernel-Leistung gegenüber dem bisherigen Triton-Backend verbessert
  • Für Hopper- und Blackwell-Umgebungen wurden jeweils optimierte Einstellungen veröffentlicht, und in der Model API wird das Blackwell-Setup genutzt

Weitere Leistungsoptimierung

  • Mit der ersten Optimierungsrunde wurde bereits SOTA-Durchsatz und -Latenz erreicht, doch es gibt weiterhin viel Verbesserungspotenzial
  • Die wichtigsten geplanten Updates sind die Einführung von Speculative Decoding
    • Dieses Verfahren lässt ein schnelleres kleines „Draft“-Modell Tokens vorhersagen, die anschließend vom Hauptmodell validiert werden
    • Baseten empfiehlt Eagle 3, nutzt im Inferenz-Stack jedoch je nach Scenario flexibel mehr als 10 Algorithmen
  • Speculative Decoding decodiert mehrere Tokens auf einmal und ermöglicht so eine effiziente Beschleunigung

Noch keine Kommentare.

Noch keine Kommentare.