Zespół badawczy opracował wielocelowy framework uczenia ze wzmacnianiem, który ma przełamać efekt bańki informacyjnej w systemach rekomendacji. Dotychczasowe modele, w tym tradycyjne sieci Deep Q-Networks, optymalizują jedynie bezpośrednie zaangażowanie użytkownika, co prowadzi do homogenizacji semantycznej i ograniczania dostępu do zróżnicowanych treści.
Nowaczesne podejście łączy zaawansowane semantic embeddingi z agentem Pareto-DQN, traktując zaangażowanie, różnorodność i uczciwość jako odrębne, niemożliwe do agregacji sygnały nagrody. To unika tradycyjnego problemu sprowadzania wszystkich celów do jednej funkcji, którą często robi się sztucznie. Framework formalizuje rekomendację jako semantyczny wielocelowy proces decyzyjny Markowa.
Ewaluacja na małym zestawie MovieLens wykazała, że selekcja akcji oparta na hiperobjętości Pareto skutecznie przerywa pętle sprzężenia zwrotnego odpowiedzialne za zapaść semantyczną. Model utrzymuje wysoką wariancję trajektorii stanów, efektywnie mapując granicę Pareto - osiąga zyski w pomocniczych celach społecznych z jedynie marginalnym wpływem na zaangażowanie. To badanie otwiera ścieżkę do bardziej odpowiedzialnych systemów rekomendacji, uwzględniających wartości społeczne obok komercyjnych celów platform.