- Das OpenAI-Open-Source-LLM GPT-OSS-120B wurde in einer NVIDIA-GPU-Umgebung auf eine Leistung von mehr als 500 Tokens pro Sekunde optimiert
- Verschiedene Inferenz-Frameworks wie TensorRT-LLM, vLLM und SGLang wurden parallel getestet, wodurch sowohl die Hopper- als auch die Blackwell-Architektur unterstützt wird
- Bei der Arbeit wurden Kompatibilitätsfehler behoben sowie neue Antwortformate wie Harmony, KV-Cache-aware Routing und Eagle-basiertes Speculative Decoding integriert
- Nach dem Vergleich von Tensor Parallelism und Expert Parallelism wurde zur geringeren Latenz Tensor Parallelism gewählt und auf Blackwell der TensorRT-LLM-MoE-Backend eingesetzt
- Für die Zukunft sind weitere Optimierungen geplant, unter anderem Speculative Decoding mit einem kleinen Draft-Modell
Überblick
- Mit der Veröffentlichung von OpenAIs neuesten Open-Source-LLMs GPT-OSS-120B ging Baseten direkt an die Umsetzung von Top-Performance
- Baseten ist ein offizieller Launch-Partner von OpenAI
- Auf Basis echter Nutzerdaten von OpenRouter wurde in einer NVIDIA-GPU-basierten Umgebung die bessere Performance gegenüber Wettbewerbern nachgewiesen
- Dank des flexiblen Inferenz-Stacks und der Expertise des Modell-Engineering-Teams konnten Optimierungspatches innerhalb von Stunden ausgerollt werden
- Bereits während der ersten Stunden der Blogserien wurden zusätzlich 100 Tokens pro Sekunde gewonnen, bei 100 % Verfügbarkeit
Leistungsgoptimierung
- Es wurden Tests und Benchmarks mit verschiedenen Inferenz-Frameworks wie TensorRT-LLM, vLLM und SGLang durchgeführt
- Gleichzeitig wurde die Kompatibilität mit den GPU-Architekturen Hopper und Blackwell sichergestellt
- Baseten integrierte den Flexible Inference Stack und Schlüsselkomponenten wie NVIDIA Dynamo
- Es wurden fortlaufend bewährte Optimierungstechniken wie KV-cache-aware routing und Speculative Decoding (auf Basis von Eagle) angewendet
Im Folgenden sind die Kernschritte für die gleichzeitige Erreichung von SOTA-Performance und vollständiger Kontextfenster-Unterstützung zusammengefasst
Schritt 1: Erste Inferenzausführung
- Der erste Schritt ist, die Erstinferenz (baseline inference) so schnell wie möglich auszuführen, unabhängig von der gewählten Methode
- Inspiriert von der GPU-Performance liefen parallel mehrere Ingenieure Tests mit vLLM, SGLang und TensorRT-LLM parallel
- TensorRT-LLM, das beste Performance lieferte, wurde rasch betriebsbereit gemacht
- Für Hopper (mit den meisten H100-GPUs) und Blackwell (mit deutlich höherer Geschwindigkeit durch B200) wurde die TensorRT-LLM-Unterstützung sichergestellt
- Dank der Flexibilität der Baseten Inference Runtime war es einfach, neue Architekturen aufzunehmen und Werkzeuge im Stack schnell auszutauschen
Schritt 2: Kompatibilitätsfehler beheben
- Neue Modellarchitekturen gehen bei der Framework-Integration oft mit häufigen Bugs einher
- GPT-OSS enthält neue Features wie das Harmony-Antwortformat, wodurch es bei der Integration in bestehende Frameworks zu Fehlern kam
- Zur Sicherung von Geschwindigkeit und Genauigkeit wurden wiederholte Korrekturen und Tests durchgeführt; wirksame Fixes wurden in Open Source eingebracht
- Durch die Zusammenarbeit der globalen Open-Source-Community laufen verschiedene Optimierungspfade und Bugfixes inzwischen sehr schnell
Schritt 3: Modellkonfiguration optimieren
- Obwohl OpenAI angibt, dass GPT-OSS 120B auch auf einer einzelnen H100 läuft, ist in der Praxis eine Parallelisierung über 4–8 GPUs für bessere Performance vorteilhaft
- Tensor Parallelism ist bei der Latenz stark, Expert Parallelism bei Durchsatz (throughput)
- Da Baseten auf Latenzoptimierung ausgerichtet ist, wurde Tensor Parallelism gewählt
- Auf Blackwell wurde ein TensorRT-LLM-MoE-Backend genutzt, das die CUDA-Kernel-Leistung gegenüber dem bisherigen Triton-Backend verbessert
- Für Hopper- und Blackwell-Umgebungen wurden jeweils optimierte Einstellungen veröffentlicht, und in der Model API wird das Blackwell-Setup genutzt
Weitere Leistungsoptimierung
- Mit der ersten Optimierungsrunde wurde bereits SOTA-Durchsatz und -Latenz erreicht, doch es gibt weiterhin viel Verbesserungspotenzial
- Die wichtigsten geplanten Updates sind die Einführung von Speculative Decoding
- Dieses Verfahren lässt ein schnelleres kleines „Draft“-Modell Tokens vorhersagen, die anschließend vom Hauptmodell validiert werden
- Baseten empfiehlt Eagle 3, nutzt im Inferenz-Stack jedoch je nach Scenario flexibel mehr als 10 Algorithmen
- Speculative Decoding decodiert mehrere Tokens auf einmal und ermöglicht so eine effiziente Beschleunigung
Noch keine Kommentare.