9 Punkte von xguru 2023-09-13 | Noch keine Kommentare. | Auf WhatsApp teilen
  • Enthält den TensorRT-Deep-Learning-Compiler und optimierte Kernel, Vorverarbeitungs-/Nachverarbeitungsschritte sowie grundlegende Bausteine für Multi-GPU-/Multi-Node-Kommunikation
  • Ermöglicht es, LLMs auch ohne tiefgehendes Wissen über C++ oder CUDA schnell mit Höchstleistung und benutzerdefinierten Funktionen bereitzustellen
  • Bietet eine modulare Open-Source-Python-API für einfache Nutzung und Erweiterbarkeit
  • Unterstützt Ampere-, Lovelace- und Hopper-GPUs
  • Bei Tests mit TensorRT-LLM auf Basis von H100
    • GPT-J-6B erreichte eine 8-fach höhere Inferenzleistung, 5,3-fach geringere TCO und 5,6-fach geringeren Energieverbrauch
    • Llama2 70B erreichte eine 4,6-fach höhere Inferenzleistung, 3-fach geringere TCO und 3,2-fach geringeren Energieverbrauch
  • Enthält eine optimierte Scheduling-Technologie namens In-flight Batching
  • NVIDIA H100-GPUs mit TensorRT-LLM bieten Nutzern die Möglichkeit, Modellgewichte einfach in das neue FP8-Format zu konvertieren und das Modell zu kompilieren, um automatisch optimierte FP8-Kernel zu nutzen
    • Möglich durch die Hopper-Transformer-Engine-Technologie, ohne dass Änderungen am Modellcode erforderlich sind
  • Derzeit als Early Access verfügbar, Veröffentlichung in den kommenden Wochen geplant

Noch keine Kommentare.

Noch keine Kommentare.