Nowa metoda optymalizacji dużych modeli językowych poprzez zmniejszenie liczby warstw attention z uwzględnieniem ich specyficznych roli w modelu, prowadząca do zwiększenia efektywności obliczeniowej.