Zespół naukowców postanowił sprawdzić, jak geospacyjny model AI zachowuje się w rzeczywistych warunkach. Wziął popularny model Prithvi-EO-2.0 i wysłał go do mapowania 19 zupełnie nowych zdarzeń powodziowych, które nigdy wcześniej go nie "widziały" — od powodzi w Pakistanie po zalania w Ameryce Południowej. Wyniki były niejednorodne i zdecydowanie bardziej skomplikowane niż chciałoby się sądzić.
Okazało się, że dokładność detektora zależy od dwóch głównych czynników: jak wygląda teren i jaki typ powodzi tam występuje. Najlepiej model radził sobie z detekcją zalań pól uprawnych, osiągając znaczącą trafność (IoU=52%). Powodzie rzeczne były też stosunkowo dobrze widoczne (F1=0.69). Ale gdy trzeba było znajdować zalane tereny zalesione lub zabudowane, model praktycznie się poddawał — dokładność spadała do niemal zera (IoU=4%). To oznacza, że bez względu na drobne różnice w rodzaju powodzi, gęsty las czy miasto są dla modelu niemal niewidoczne.
Co zadziwiające, część tych porażek nie wynika wyłącznie z ograniczeń samego modelu. Gdy naukowcy porównali wyniki z dwoma niezależnymi zestawami danych referencyjnych, odkryli, że model czasami się nie mylił — po prostu różne mapy powodziowe definiowały zalanie inaczej. A gdy zespół dokładnie przeanalizował całą procedurę mapowania (preprocessing, kalibracja, post-processing), znalazł 23 miejsca, gdzie coś mogło pójść nie tak. Okazało się, że problemy z pipeline'em narzędziowym dominowały nad rzeczywistymi błędami modelu. To ważny wniosek: sama architektura AI nie jest głównym wąskim gardłem — inżynieria procesu jest.