Naukowcy przedstawili nową metodę cache'owania dla transformerów, która wykorzystuje pamięć asocjacyjną warunkowaną mechaniką wyparcień. Technique ma na celu bardziej efektywne zarządzanie pamięcią podręczną podczas inferencji, poprawiając trade-off pomiędzy szybkością a zużyciem pamięci. Innowacja ta może zwiększyć wydajność dużych modeli języka i umożliwić lepsze działanie na urządzeniach z ograniczonymi zasobami.