ForecastBench-Sim to nowy benchmark do oceny zdolności prognozowania AI, zbudowany na symulacjach tury z gry Freeciv. Badacze stworzyli narzędzie, które pozwala AI otrzymać raport o bieżącym stanie gry i odpowiedzieć na pytania o ukryte przyszłe stany, a następnie system kontynuuje symulację i punktuje prognozy — wszystko w kontrolowanym, sztucznym środowisku.

Podejście oparte na symulacji rozwiązuje wiele problemów, które utrudniają praktyczne benchmarki prognozowania: w rzeczywistym świecie wyniki rozstrzygają się powoli, zdarzenia ekstremalne są rzadkie, a scenariusze warunkowe czy przyczynowe są trudne do punktowania. W świecie symulowanym można generować pytania prognostyczne na dowolne okresy czasowe, tworzyć warianty świata do testowania pytań warunkowych czy przyczynowych, oraz obserwować bardzo rzadkie i destrukcyjne scenariusze bez czekania na nich w rzeczywistości.

Benchmark zawiera opis pełnej procedury testowania, rodzin pytań, protokołu punktowania oraz rezultaty walidacji z ocen modeli i pilotażu z udziałem ludzi. Naukowcy przedstawiają to rozwiązanie jako uzupełnienie istniejących benchmarków opartych na danych rzeczywistych — ForecastBench-Sim ma zatem skupiać się na badaniu głębokim rozumowania probabilistycznego w dynamicznych, zmiennych warunkach, tam gdzie benchmark empiryczny jest powolny lub niemożliwy.