Naukowcy przedstawili Parallax, nową metodę lokalnej atencji liniowej, która zachowuje softmax i dodaje gałąź korekcji kowariancji. Podejście to łączy zalety tradycyjnych mechanizmów atencji z efektywnością obliczeniową atencji liniowej. Parallax może poprawiać wydajność transformerów przy niższym zużyciu pamięci, co ma znaczenie dla trenowania większych modeli. Innowacja stanowi krok w kierunku bardziej efektywnych architektur neuronowych.