Together AI przedstawiło ParallelKernelBench, nowy benchmark mierzący czy modele LLM potrafią pisać szybkie kernele CUDA dla obliczeń rozproszczonych na wielu GPU. Test obejmuje 87 rzeczywistych zadań obliczeniowych i sprawdza nie tylko poprawność kodu, ale przede wszystkim jego wydajność - kluczową metryką przy pracy z GPU.
Wyniki są mieszane: najlepszy z testowanych modeli rozwiązał poprawnie mniej niż 33 procent benchmarku. To pokazuje, że nawet najzaawansowane modele AI wciąż mają znaczące braki w pisaniu zoptymalizowanego kodu niskopoziomowego, gdzie trzeba uwzględniać szczegóły architektury sprzętu, synchronizację wątków czy alokację pamięci. Niemniej jednak kilka kerneli wygenerowanych przez AI pobiło wszystkie publiczne implementacje - co sugeruje, że modele czasem trafiają na oryginalne, efektywne rozwiązania, które niedawno napisano ręcznie.
Benchmark jest ważny dla branży, bo pokazuje realne możliwości i ograniczenia AI w roli asystenta programisty przy najwymagającszych obliczeniowo zadaniach. Sugeruje to, że kod GPU wymaga ciągle ludzkiej intuicji i ekspertyzy, choć modele mogą wspomóc w eksplorowaniu rozwiązań alternatywnych.