- AMD hat kürzlich den Grafikbeschleuniger MI300X vorgestellt und behauptet, im Vergleich zu Nvidias H100 eine bis zu 1,6-fach höhere Leistung zu erzielen
- Nvidia entgegnete darauf, dass AMD beim Vergleich mit dem H100 nicht die eigenen Optimierungen von Nvidia verwendet habe
- AMD weist darauf hin, dass Nvidia die in Server-Workloads häufig auftretenden Latenzen nicht berücksichtigt und nur den Durchsatz unter nicht realitätsnahen Bedingungen gezeigt habe
- Außerdem behauptet AMD, Nvidia habe das interne TensorRT-LLM des H100 verwendet, um einen ausgewählten Satz von Inferenz-Workloads zu benchmarken
- AMD betont, dass die Tests mit dem weit verbreiteten vLLM und dem Datentyp FP16 durchgeführt wurden und dass vLLM FP8 nicht unterstützt
- AMD kritisiert Nvidia dafür, Leistungswerte zum Durchsatz zu präsentieren, die weder reale Serverumgebungen widerspiegeln noch Latenzen berücksichtigen
Aktualisierte Testergebnisse von AMD unter Berücksichtigung von Optimierungen und Latenz
- AMD hat drei Leistungstests unter Verwendung von Nvidias TensorRT-LLM durchgeführt
- Im ersten Test wurden beide Unternehmen mit vLLM und einem FP16-Datensatz verglichen: MI300X ist 2,1-mal schneller
- Im zweiten Test wurde die vLLM-Leistung des MI300X mit TensorRT-LLM verglichen: MI300X ist 1,3-mal schneller
- Im dritten Test wurde vLLM (FP16) auf dem MI300X mit TensorRT-LLM (FP8) verglichen: Mit 1,6 Sekunden gegenüber 1,7 Sekunden ist der H100 etwas schneller
- Es wird auch eingeräumt, dass man für den Einsatz von FP8 das geschlossene System von TensorRT-LLM nutzen und FP16 aufgeben muss, was im Wesentlichen bedeutet, vLLM dauerhaft aufzugeben
Noch keine Kommentare.