OpenAI zaprezentował LifeSciBench, kompleksowy benchmark do oceny możliwości modeli AI w realnych badaniach z zakresu nauk o życiu. Narzędzie zawiera 750 zadań ekspercko napisanych, rozsianych po siedmiu bioprocesom i siedmiu domenach biologicznych, a jego tworzeniem zajęło się 173 naukowców doktorskich, którzy opracowali aż 19 020 kryteriów oceny.

Od zwykłych testów benchmark LifeSciBench różni się tym, że ocenia rozumowanie i procedury decyzyjne modeli, a nie tylko pamięć czy znajomość faktów. Zadania przeprowadzają modele przez autentyczne etapy pracy naukowej, od projektowania eksperymentów po interpretację wyników. Wśród testowanych modeli najlepiej wypadł GPT-Rosalind, osiągając wynik 36,1% — liczba która paradoksalnie pokazuje potencjał rozwojowy, bo pozostawia ogromne pole do poprawy.

Wynik ten ma znaczenie dla całej branży AI w naukach o życiu. Choć systemy takie jak GPT-4 robią wrażenie w rozmowach ogólnych, benchmark ujawnia, że nawet najlepsze modele zdecydowanie nie są gotowe do pełnozamiennego wsparcia naukowców w zaawansowanych projektach. LifeSciBench otwiera drogę do bardziej systemowego doskonalenia AI dla nauk ścisłych i może kształtować przyszłość wdrażania sztucznej inteligencji w laboratoriach na całym świecie.