Moonshot AI opublikowała open-source FlashKDA, zoptymalizowane kernele GPU CUTLASS dla mechanizmu Delta Attention w modelu Kimi. Rozwiązanie wspiera zmienną długość sekwencji w batching oraz zawiera benchmarki dla akceleratora H20. To ważne dla wydajności dużych modeli języka, umożliwiając szybsze przetwarzanie zmiennych długości danych przy niższym zużyciu pamięci.
Badania
MarkTechPost