AI Engram: szukanie śladów pamięci w sieciach neuronowych

Badacze z arXiv przedstawili przełomowe podejście do rozumienia, jak sztuczne sieci neuronowe przechowują pamięć. Zamiast traktować naukę jako rozproszoną zmianę parametrów, zespół opracował formalny framework do identyfikacji "AI engram" — wyodrębnionych śladów pamięci analogicznych do biologicznych jednostek pamiętających informacje. Kluczowe osiągnięcie to zamknięta formuła matematyczna, która potrafi wyciągnąć indywidualne ślady pamięci z globalnie splątanych parametrów sieci.

Metoda opiera się na sformalizowaniu czterech neuronaukowych kryteriów pamięci: specyficzności (konkretny ślad), reaktywacji (przywrócenia go do działania), wystarczalności (że wystarczy do funkcji) i konieczności (że jest rzeczywiście potrzebny). Interesujące jest to, że matematyczne rozwiązanie odpowiada naturalnemu gradientowemu aktualizowaniu parametrów na rozmaitości — co sugeruje, że algorytmy uczenia maszynowego mogą być głębiej powiązane z biologią niż się do tej pory myślało.

Najpraktyczniejszym wynikiem jest możliwość chirurgicznej manipulacji wiedzą w modelach. Można teraz komponować lub usuwać dowolne podzbiory pamięci za pomocą prostej arytmetyki liniowej, bez potrzeby iteracyjnego optymalizowania sieci na nowo. Eksperymenty na prostych sieciach MLP aż do zaawansowanych modelach językowych pokazują, że metoda działa i skaluje się. To otwiera nowe możliwości dla interpretabilności sztucznej inteligencji, debugowania modeli i potencjalnie bezpieczniejszego kształtowania zachowania AI poprzez precyzyjne ingerencje w reprezentacje pamięci.