Artificial Analysis i IBM opublikowały ITBench-AA, pierwszy benchmark oceniający zdolności modeli AI w wykonywaniu agentic zadań IT w środowisku enterprise. Zaskakująco, nawet najzaawansowane modele frontier osiągają wynik poniżej 50%, ujawniając znaczące braki w praktycznych możliwościach automatyzacji procesów IT. Wynik podkreśla, że mimo postępu w ogólnych zdolnościach AI, specjalistyczne zadania enterprise wymagają dalszych ulepszeń w zakresie planowania, debugowania i interakcji ze złożonym