PairSAE: Interpretacja modeli białkowych poprzez analizę par reprezentacji

Zespół naukowców zaproponował PairSAE, nowatorską metodę do mechanistycznej interpretacji modeli AI zajmujących się prognozowaniem struktur białkowych. Standardowe podejścia do analizy działania transformerów zawodzą w przypadku architektur pairformer, które operują na wektorach par aminokwasów, a nie pojedynczych - prowadzi to do ekspotencjalnego wzrostu liczby cech do analizy i rozmywa się semantyka koncepcji rozproszonych między reprezentacjami sekwencji a par.

PairSAE rozwiązuje ten problem stosując dekompozycję N-mode SVD do tensorów parowych, aby zamienić je na role interakcji na poziomie tokenów. Następnie używa sparse autoencoder do nauki wspólnego zestawu cech na poziomie tokenów, które mogą się dekodować zarówno do reprezentacji sekwencji, jak i par. To podejście unika pułapek typowych dla pairformerów i umożliwia bardziej czytelną interpretację.

Badacze testowali PairSAE na aktywacjach modelu Boltz-2 dla białko-ligand kompleksów z bazy PLINDER. Wyekstrahowane cechy wykazały silną korelację z adnotacjami strukturalnymi z UniProtu i mogły przewidywać wartości powinowactwa wiązania. To wskazuje, że PairSAE skutecznie łączy utajoną przestrzeń dużych modeli biologii strukturalnej z pojęciami dostępnymi człowiekowi, odsłaniając jakie wiedzę te modele faktycznie posiadają.