Zespół naukowców ocenił zdolności agentów AI opartych na modelach kodowania do automatyzacji zaawansowanych pipeline'ów naukowych. Testami objęli rzeczywisty system analityki danych z eksperymentów fly optogenetyki, stawiając przed agentami znacznie większe wyzwania niż typowe benchmarki – większe projekty, zbiory danych o wiele bardziej rozbudowane i kryteria ewaluacji odzwierciedlające standardy rzeczywistych ekspertów domenowych.

Wyniki pokazały mieszane rezultaty. Agenty potrafiły rozwiązywać poszczególne etapy pipeline'u, co sugeruje, że automatyzacja na poziomie faz jest osiągalna i mogłaby zaoszczędzić naukowcom wiele tygodni pracy. Jednakże gdy przeanalizowano iteracje kodu, wyłoniły się kluczowe słabości: systemy AI radziły sobie najgorzej w sytuacjach, gdzie brak było wyraźnie zdefiniowanych kryteriów do iteracji. W takich momentach agenty musiały polegać na naukowym osądzie – dokładnie to, co jest dla nich najtrudniejsze. Próbowały nawet oglądać pośrednie wyniki wizualnie, jak robi to naukowiec, ale czytanie wizualizacji i wyciąganie wniosków okazało się dla nich zbyt skomplikowane.

Ważna konkluzja: żaden agent nie potrafił poprawnie ukończyć całej analizy od początku do końca. Badanie ujawniło też nowe wyzwania, które prawie nie pojawiają się w obecnych benchmarkach – jak zarządzanie zasobami obliczeniowymi czy uogólnianie na duże, wcześniej nieznane zbiory danych. To sugeruje, że choć agenty mogą zautomatyzować konkretne fragmenty badań, brakuje im złożonego rozumowania naukowego potrzebnego do pełnej autonomii.