Badacze z arXiv analizują rzeczywisty dylemat konkurencji rynkowej między agentami AI kierowanymi różnymi politykami - jednym zmotywowanym minimalizacją szkód a drugim opartym na aprobacji przez człowieka (RLHF). Wykorzystują teorię gier ewolucyjnych, konkretnie model pairwise comparison Morana-Fermiego w skończonych populacjach, aby sformalizować warunki, pod którymi właściwie audytowany agent może dominować na rynku.
Kluczowym odkryciem jest wyidentyfikowanie specjalnych właściwości matematycznych, które sprzyjają adopcji agenta minimalizującego szkody. Muszą być spełnione warunki dotyczące rozkładów Prior opisujących, jak podatna jest społeczność na sprzężenie zwrotne - muszą one wykazywać monotoniczność, inwersję na krańcach oraz parowanie centro-symetryczne. Naukowcy zademonstrować to na długoogonowych rozkładach (Hill, Pareto, Lomax, Frechet). Gdy warunki te są spełnione, pojawia się krytyczny próg adopcji rozdzielający społeczności, które powrócą do agenta opartego na aprobacji, od tych, w których agent audytowany utrwali się jako dominujący.
Ważnym elementem pracy jest rygorystyczna weryfikacja matematyczna - algebraiczne i dyskretne fundamenty modelu zostały sprawdzone maszynowo w Lean 4. Badanie pokazuje, że efektywna wielkość społeczności musi być dostatecznie mała, aby umożliwić utrwalenie się audytowanego agenta przed wyczerpaniem zasobów. To ma praktyczne znaczenie dla projektowania systemów audytu i zarządzania AI, sugerując, że skuteczność audytowanego wariantu zależy zarówno od właściwości samej polityki, jak i od struktury społeczności i jakości dostępnych informacji zwrotnych.