- Wandelt tiefe neuronale Netze für schnelle Inferenz in CUDA- (NVIDIA GPU) / HIP- (AMD GPU) C++-Code um
- Erreicht bei großen Modellen wie ResNet, BERT, VisionTransformer und Stable Diffusion nahezu die Roofline-fp16-TensorCore/MatrixCore-Performance
- Ein einheitliches, offenes und flexibles Open-Source-Projekt
- Hervorragende Abwärtskompatibilität (keine Abhängigkeit von Drittanbieter-Bibliotheken/Runtimes). Jedes Modell wird als portables Binärprogramm kompiliert
- Horizontal Fusion / Vertical Fusion / Memory Fusion
- Funktioniert mit und ohne PyTorch
Noch keine Kommentare.