- Enthält den TensorRT-Deep-Learning-Compiler und optimierte Kernel, Vorverarbeitungs-/Nachverarbeitungsschritte sowie grundlegende Bausteine für Multi-GPU-/Multi-Node-Kommunikation
- Ermöglicht es, LLMs auch ohne tiefgehendes Wissen über C++ oder CUDA schnell mit Höchstleistung und benutzerdefinierten Funktionen bereitzustellen
- Bietet eine modulare Open-Source-Python-API für einfache Nutzung und Erweiterbarkeit
- Unterstützt Ampere-, Lovelace- und Hopper-GPUs
- Bei Tests mit TensorRT-LLM auf Basis von H100
- GPT-J-6B erreichte eine 8-fach höhere Inferenzleistung, 5,3-fach geringere TCO und 5,6-fach geringeren Energieverbrauch
- Llama2 70B erreichte eine 4,6-fach höhere Inferenzleistung, 3-fach geringere TCO und 3,2-fach geringeren Energieverbrauch
- Enthält eine optimierte Scheduling-Technologie namens In-flight Batching
- NVIDIA H100-GPUs mit TensorRT-LLM bieten Nutzern die Möglichkeit, Modellgewichte einfach in das neue FP8-Format zu konvertieren und das Modell zu kompilieren, um automatisch optimierte FP8-Kernel zu nutzen
- Möglich durch die Hopper-Transformer-Engine-Technologie, ohne dass Änderungen am Modellcode erforderlich sind
- Derzeit als Early Access verfügbar, Veröffentlichung in den kommenden Wochen geplant
Noch keine Kommentare.