MIT PRIMES--Art of Problem Solving to program badawczy, w którym uczestniczy społeczność rozwiązująca otwarte problemy matematyczne. Dyskusje w tym programie prowadzą do publikacji w peer-reviewed journalach. Teraz naukowcy opracowali CrowdMath, zbiór 164 expertów anotowanych łańcuchów postępu z lat 2016-2025. Każdy łańcuch to pełna trasa dyskusji na forum od sformułowania problemu do gotowego dowodu.

Dane zostały starannie etykietowane. Każdy post otrzymał etykietę opisującą jego rolę w ewoluującym procesie rozwiązywania: partial progress, proof completion, erroneous reasoning czy error identification. To pozwala modelom uczyć się, jak wygląda rzeczywista kolaboracja naukowa, a nie tylko rozwiązywanie gotowych zadań ze znanych zasobów. CrowdMath to pierwszy dataset tego typu, który oddaje złożoność współpracy między wieloma uczestnikami w matematyce.

Wyniki benchmarkingu są mieszane. Sześć najnowszych modeli (w tym najpewniej GPT-4 czy Claude) osiągnęło 83-88% dokładności w przedskazywaniu, jaki post powinien pojawić się dalej w dyskusji. To sugeruje, że modele mogą śledzić lokalny przepływ matematycznej rozmowy. Jednak klasyfikacja roli postu zdała się znacznie trudniejsza—najlepszy model osiągnął zaledwie 0,42 macro-F1. To oznacza, że AI ma problem z zrozumieniem, dlaczego dany wkład jest istotny dla procesu. Gap między zdolnością do rozwiązywania statycznych problemów a rozumieniem dynamicznej kolaboracji to kluczowe wyzwanie dla przyszłych modelów matematycznych.