Konstruktywne wyrównanie: sterowanie dynamiką preferencji w interakcji człowiek-AI

Naukowcy proponują fundamentalną zmianę podejścia do wyrównania AI, traktując preferencje człowieka jako zmienne dynamicznie ewoluujące zamiast stałych celów do osiągnięcia. Dotychczasowe systemy wyrównania zakładały, że preferencje są nieruchome - trzeba je odkryć, zrozumieć i optymalizować. Constructive Alignment zmienia tę logikę, pokazując że w rzeczywistości preferencje ludzi są warstwowe, konstruowane społecznie i nieustannie przekształcane przez interakcje, szczególnie z systemami AI które są coraz bardziej spersonalizowane i wszechobecne.

Proponowany framework wykorzystuje teorię kontroli z ekonomii behawioralnej, psychologii i konstruktywizmu społecznego. Preferencje modeluje się jako zmienne stanu, które ewoluują pod wpływem działań systemów AI i projektowania interakcji. To oznacza, że wyrównanie AI nie chodzi głównie o kontrolowanie zachowania sztucznej inteligencji, ale o regulowanie tego jak systemy wpływają na kształtowanie się wartości ludzi w dłuższym horyzoncie czasowym.

Nowe podejście postuluje, że alignment powinien zapewniać iż trajektorie wartości pozostają spójne, rzeczywiście zaakceptowane przez ludzi, ugruntowane epistemicznie, chronione przed manipulacją i wspierające ludzi wobec niepewności. To przesunięcie perspektywy z krótkoterminowego zadowalania statycznych preferencji na długoterminowe zarządzanie formowaniem się wartości jest szczególnie ważne dla coraz bardziej zakorzenionego społecznie AI, które aktywnie uczestniczy w definiowaniu tego na czym ludzie się skupiają i co cenią.