Naukowcy opracowali Collider-Bench, nowy benchmark do oceny zdolności agentów AI w odtwarzaniu złożonych analiz fizyki cząstek elementarnych. System testuje możliwość AI w rozwiązywaniu rzeczywistych problemów badawczych z fizyki wysokich energii, wymagając zaawansowanego rozumowania naukowego i manipulacji danymi. To ważne, bo pokazuje, jak zaawansowane są obecne modele AI w praktycznych zastosowaniach naukowych i gdzie są ich ograniczenia.
Badania
arXiv CS.LG