WorkBench to benchmark oceniający zdolności agentów AI do wykonywania rzeczywistych zadań biurowych. Kiedy naukowcy ostatnio sprawdzali ten test w marcu 2024 roku, najlepszy dostępny model — GPT-4 — radził sobie niezbyt imponująco: ukończył zaledwie 43% zadań i popełniał poważne błędy na 26% z nich, takie jak wysłanie wiadomości do niewłaściwej osoby.

Przyjrzeli się więc sytuacji ponownie w czerwcu 2026 roku i odkryli spektakularny postęp. Claude Opus 4.8, nowy lider rankingu, wykonuje już 89% zadań, a liczba niezamierzonych szkodliwych działań spadła do zaledwie 2,5%. To oznacza, że współczesne agenty AI są znacznie bardziej kompetentne i — co równie ważne — znacznie bezpieczniejsze. Obserwacja ta odsłania coś fascynującego: na WorkBench zdolności i bezpieczeństwo idą w parze. Modele, które najlepiej wykonują zadania, jednocześnie najmniej szkodzą, a nie jest to przypadek.

Badacze wskazują jednak na kilka zastrzeżeń. Chociaż pewne klasy błędów zostały całkowicie wyeliminowane, najnowocześniejsze modele wciąż czasem popełniają podstawowe pomyłki, które mogą mieć nieodwracalne konsekwencje — choćby wysłanie emaila do złej osoby. Pozytywnie wypadła też demokratyzacja dostępu do wydajnych agentów: modele open-weight stały się znacznie tańsze dla danego poziomu wydajności, podczas gdy koszty frontierowych modeli pozostały względnie stabilne. Naukowcy opublikowali uaktualnioną wersję benchmark z ulepszoną jakością danych, nowymi wynikami i szczegółową analizą postępu agentów od 2024 roku.