Nous Research opublikował nową metodę o nazwie Contrastive Neuron Attribution (CNA), która pozwala na precyzyjne sterowanie zachowaniem modeli AI poprzez identyfikację i manipulację konkretnymi neuronami w warstwach MLP. Innowacyjność podejścia polega na tym, że nie wymaga trenowania dodatkowych modeli (SAE) ani modyfikacji wag sieci. Metoda ta ma znaczenie dla interpretacyjności AI oraz kontroli nad zachowaniem dużych modeli językowych, otwierając nowe możliwości w bezpieczeństwie i optymalizac
Badania
MarkTechPost