Zespół naukowców przeprowadził szczegółową analizę wydajności modelu Med-DDPM do syntezy 3D MRI na procesorach NVIDIA poprzez pomiary na trzech generacjach architektur. Model Med-DDPM wymaga setek ewaluacji sieci U-Net na próbkę, co generuje ogromne zapotrzebowanie na zasoby GPU i heterogeniczne zachowanie kerneli.

Analiza wdrażania ujawniła, że szkolenie zdominowane jest przez kernele konwolucji cuDNN i implicit-GEMM. Nieefektywności wynikają z niekorzystnych wzorców dostępu do pamięci, konwersji formatów tensorów i niskiego stopnia wykorzystania Tensor Core, który sięgał zaledwie 1,45x. Badacze zidentyfikowali, że IPC (Instructions Per Cycle) można poprawić, optymalizując sposób, w jaki dane przepływają przez architekturę.

Po wdrożeniu dwóch optymalizacji stwierdzono znaczące usprawnienia: aktywacja Tensor Core TF32 oraz zmiana na układ channels-last dla danych 3D. Optymalizacje te zmniejszyły cykle SM nawet o 100 razy, ograniczyły liczbę dynamicznych instrukcji o 100x i podniosły wykorzystanie Tensor Core do 9,98x, zwiększając IPC o 7 procent na GPU A100, bez żadnego pogorszenia jakości syntezy. To pokazuje, że architektura-aware optymalizacje mogą dramatycznie poprawić wydajność modeli dyfuzji medycznych.