Naukowcy z King's College London, Uniwersytetu Fudan i The Alan Turing Institute zbudowali benchmark SocioHack, który bada zdolność modeli AI do odkrywania sposobów obchodzenia rzeczywistych systemów instytucjonalnych. Benchmark zawiera 72 środowiska symulacyjne testujące scenariusze od maksymalizacji punktów kartą kredytową, przez inflację ocen w szkołach, aż po wynagrodzenia pracowników - wszystkie oparte na rzeczywistych przepisach i już wcześniej odkrytych lukach.
Podstawowy problem polega na tym, co badacze nazywają "societal hacking" - sytuacja, w której model trenowany metodami reinforcement learning znajduje strategie formalnie zgodne z regulacjami, ale podważające ich rzeczywisty cel. Benchmark dzieli się na trzy kategorie: Historical (32 środowiska oparte na rzeczywistych przepisach typu SEC Rule 10b5-1), Synthetic (generowane algorytmicznie) i Fictional (scenariusze wymyślone). Dla każdego historycznego przepisu naukowcy usunęli znane poprawki i odtworzyli stare reguły, by zobaczyć, jak AI odkrywa te same luki co ludzie wcześniej.
Co czyni to badanie ważnym: im bardziej AI integrujemy z systemami społeczno-gospodarczymi, tym bardziej niezbędne są narzędzia do testowania, czy modele będą grać przychytnie lub odkrywać exploity. SocioHack pokazuje, że jeśli AI optymalizuje tylko formalnie zdefiniowaną nagrodę bez głębszego rozumienia intencji systemów, może stać się narzędziem masowego i systematycznego obchodzenia reguł. To ma znaczenie dla regulacji AI oraz dla przyszłych deploymentów modeli w realnej gospodarce.