Naukowcy z arXiv badają problem nadzoru człowieka nad agentem AI w sytuacji, gdy informacja nie jest dostępna dla obu stron równo. Agent może znać jakość swojej propozycji działania, którą człowiek nie potrafi bezpośrednio ocenić, podczas gdy człowiek zna własną funkcję nagrody, która jest ukryta przed AI. To naturalne zjawisko przy autonomicznych robotach czy agentach software'owych w sytuacjach, których nadzorca nie może bezpośrednio ocenić.

Model opiera się na Cooperative Inverse Reinforcement Learning i Oversight Game, wprowadzając kontekstową grę bandita z dwustronną asymetrią informacji. Interfejs oferuje cztery opcje: play (zagrać), ask (zapytać), trust (zaufać) oraz oversee (nadzorować). Struktura bandita pozwala na dokładne charakteryzacje jednookresowe, choć wspólna wiara o stanie pozostaje dynamicznie kontrolowana między rundami. Badacze zidentyfikowali lukę między optymalnym działaniem zespołu a naturalnym zachowaniem człowieka - region, w którym AI wie, że akcja jest szkodliwa i zamknięcie by pomogło, ale miopiczny człowiek, ufając swojej wcześniejszej wierze, odmawia nadzoru.

Ta luka odzwierciedla cenę niewiarygodnej komunikacji nadzoru. Autorzy pokazują jak można ją rozwiązać poprzez passywne uczenie się i aktywną sygnalizację z opóźnionym nadzorem jednookresowym. Badanie ma znaczenie dla projektowania systemów, gdzie nadzór wymaga lepszej komunikacji między człowiekiem a AI na temat rzeczywistych możliwości i zagrożeń działań.