Zespół badaczy wprowadził BehaviorBench, nowe narzędzie do testowania algorytmów, które mają uczyć się przewidywać zachowania konkretnych użytkowników. W przeciwieństwie do dotychczasowych benchmarków opartych na symulowanych użytkownikach, ten zestaw danych pochodzi z prawdziwych decyzji finansowych ludzi na rynkach predykcyjnych i blockchain'ach. Benchmark zawiera ponad 141 tysięcy przykładów przewidywania przekonań użytkownika i prawie 1,5 miliona przykładów przewidywania transakcji.

Uderzającym elementem badania jest obserwacja, że istniejące symulacje oparte na modelach AI systematycznie różnią się od rzeczywistego zachowania człowieka. Dlatego właśnie autorzy zdecydowali się na wykorzystanie historii prawdziwych portfeli i transakcji. Benchmark ma dwie główne warstwy zadań: przewidywanie ostatecznego stanowiska i pewności użytkownika wobec danego rynku, oraz przewidywanie kierunku i wielkości poszczególnych transakcji.

Wyniki testów pokazują zainteresujące wzorce. Personalizacja — czyli dostosowanie modelu do indywidualnego użytkownika — polepsza przewidywania przekonań bardziej konsekwentnie niż przewidywania transakcji. Ponadto ranking modeli zmienia się w zależności od tego, które zadanie oceniamy, co sugeruje, że różne podejścia mają różne mocne i słabe strony. Badacze zauważyli również, że sposób, w jaki dostarczamy historię użytkownika modelowi (czy bierz ostatnie transakcje, czy wygenerowany profil użytkownika, czy podobne przykłady z innych użytkowników) wpływa na rodzaje błędów, które model popełnia.