Team Qwen udostępnił FlashQLA, wysokowydajną bibliotekę kerneli dla linear attention, która osiąga do 3-krotne przyspieszenie na GPU NVIDIA Hopper.