ParallelKernelBench: Najlepsze modele LLM nie potrafią pisać szybkich kerneli GPU

Together AI przedstawiło ParallelKernelBench, nowy benchmark mierzący czy modele LLM potrafią pisać szybkie kernele CUDA dla obliczeń rozproszczonych na wielu GPU. Test obejmuje 87 rzeczywistych zadań obliczeniowych i sprawdza nie tylko poprawność kodu, ale przede wszystkim jego wydajność - kluczową metryką przy pracy z GPU.

Wyniki są mieszane: najlepszy z testowanych modeli rozwiązał poprawnie mniej niż 33 procent benchmarku. To pokazuje, że nawet najzaawansowane modele AI wciąż mają znaczące braki w pisaniu zoptymalizowanego kodu niskopoziomowego, gdzie trzeba uwzględniać szczegóły architektury sprzętu, synchronizację wątków czy alokację pamięci. Niemniej jednak kilka kerneli wygenerowanych przez AI pobiło wszystkie publiczne implementacje - co sugeruje, że modele czasem trafiają na oryginalne, efektywne rozwiązania, które niedawno napisano ręcznie.

Benchmark jest ważny dla branży, bo pokazuje realne możliwości i ograniczenia AI w roli asystenta programisty przy najwymagającszych obliczeniowo zadaniach. Sugeruje to, że kod GPU wymaga ciągle ludzkiej intuicji i ekspertyzy, choć modele mogą wspomóc w eksplorowaniu rozwiązań alternatywnych.