NVIDIA veröffentlicht Open Source für TensorRT-LLM zur Beschleunigung der LLM-Inferenz

xguru · 2023-09-13T10:17:02+09:00

Enthält den TensorRT-Deep-Learning-Compiler und optimierte Kernel, Vorverarbeitungs-/Nachverarbeitungsschritte sowie grundlegende Bausteine für Multi-GPU-/Multi-Node-Kommunikation Ermöglicht es, LLMs auch ohne tiefgehendes Wissen über C++ oder CUDA schnell mit Höchstleistung und benutzerdefinierten Funktionen bereitzustellen Bietet eine modulare Open-Source-Python-API für einfache Nutzung und Erweiterbarkeit Unterstützt Ampere-, Lovelace- und Hopper-GPUs Bei Tests mit TensorRT-LLM auf Basis von H100 GPT-J-6B erreichte eine 8-fach höhere Inferenzleistung, 5,3-fach geringere TCO und 5,6-fach geringeren Energieverbrauch Llama2 70B erreichte eine 4,6-fach höhere Inferenzleistung, 3-fach geringere TCO und 3,2-fach geringeren Energieverbrauch Enthält eine optimierte Scheduling-Technologie namens In-flight Batching NVIDIA H100-GPUs mit TensorRT-LLM bieten Nutzern die Möglichkeit, Modellgewichte einfach in das neue FP8-Format zu konvertieren und das Modell zu kompilieren, um automatisch optimierte FP8-Kernel zu nutzen Möglich durch die Hopper-Transformer-Engine-Technologie, ohne dass Änderungen am Modellcode erforderlich sind Derzeit als Early Access verfügbar, Veröffentlichung in den kommenden Wochen geplant

(developer.nvidia.com)

9 Punkte von xguru 2023-09-13 | Noch keine Kommentare. | Auf WhatsApp teilen

Enthält den TensorRT-Deep-Learning-Compiler und optimierte Kernel, Vorverarbeitungs-/Nachverarbeitungsschritte sowie grundlegende Bausteine für Multi-GPU-/Multi-Node-Kommunikation
Ermöglicht es, LLMs auch ohne tiefgehendes Wissen über C++ oder CUDA schnell mit Höchstleistung und benutzerdefinierten Funktionen bereitzustellen
Bietet eine modulare Open-Source-Python-API für einfache Nutzung und Erweiterbarkeit
Unterstützt Ampere-, Lovelace- und Hopper-GPUs
Bei Tests mit TensorRT-LLM auf Basis von H100
- GPT-J-6B erreichte eine 8-fach höhere Inferenzleistung, 5,3-fach geringere TCO und 5,6-fach geringeren Energieverbrauch
- Llama2 70B erreichte eine 4,6-fach höhere Inferenzleistung, 3-fach geringere TCO und 3,2-fach geringeren Energieverbrauch
Enthält eine optimierte Scheduling-Technologie namens In-flight Batching
NVIDIA H100-GPUs mit TensorRT-LLM bieten Nutzern die Möglichkeit, Modellgewichte einfach in das neue FP8-Format zu konvertieren und das Modell zu kompilieren, um automatisch optimierte FP8-Kernel zu nutzen
- Möglich durch die Hopper-Transformer-Engine-Technologie, ohne dass Änderungen am Modellcode erforderlich sind
Derzeit als Early Access verfügbar, Veröffentlichung in den kommenden Wochen geplant

NVIDIA veröffentlicht Open Source für TensorRT-LLM zur Beschleunigung der LLM-Inferenz

Verwandte Beiträge

Noch keine Kommentare.