Nowa metoda optymalizacji transformerów, która umożliwia inteligentne dzielenie pamięci cache między warstwami, zmniejszając zużycie zasobów przy utrzymaniu wydajności modelu.