ITBench-AA: Modele frontier poniżej 50% w pierwszym benchmarku dla agentic IT

Pierwszy benchmark oceniający zdolności modeli AI w automatyzacji procesów IT pokazuje bezlitosny obraz rzeczywistości - nawet najzaawansowane modele frontier nie potrafią wykonać połowy zadań poprawnie. ITBench-AA, stworzony przez Artificial Analysis i IBM, to pierwszy test mierzący, jak dobrze systemy AI radzą sobie z agentycznymi pracami w środowisku enterprise, czyli tam, gdzie rzeczywiście działają firmowe infrastruktury. Wynik poniżej 50% dla czołowych modeli jest zaskakujący i ukazuje ogromną przepaść między tym, co marketing obiecuje, a co te systemy faktycznie potrafią robić w codziennej praktyce.

To odkrycie ma duże znaczenie dla branży zajmującej się automatyzacją procesów biznesowych. Mimo że modele takie jak GPT-4, Claude czy Gemini wykazują imponujące wyniki w ogólnych testach i potrafią prowadzić złożone rozmowy, okazuje się, że automatyzacja rzeczywistych zadań IT jest zupełnie innym zwierzęciem. Benchmark ITBench-AA skupia się na zadaniach wymagających planowania wieloetapowego, debugowania problemów, interakcji ze złożonymi systemami i nieoczekiwanym radzeniu sobie z błędami - dokładnie tym, co robią seniorscy administratorzy i inżynierowie.

Raport Artificial Analysis i IBM wskazuje konkretne luki: modelom brakuje umiejętności systematycznego podejścia do problemów, trudno im pracować z fragmentarycznymi informacjami i zmiennym kontekstem, a także nie radzą sobie z sytuacjami wymagającymi rzeczywistego zrozumienia systemów enterprise. To означa, że pełna automatyzacja IT bez nadzoru człowieka jest jeszcze odległa, a dla firm inwestujących w AI agentów to ostrzeżenie, by podchodzić do nich z realistycznymi oczekiwaniami i zawsze włączać człowieka w pętlę krytycznych decyzji.