Naukowcy z arXiv zidentyfikowali poważne problemy w benchmarkach KB-VQA, które obecnie stanowią główny sposób ewaluacji modeli językowo-wizualnych w kontekście rozumowania opartego na zewnętrznej wiedzy. Audyt wykazał, że istniejące datasety naruszają trzy kluczowe założenia - odpowiedzi mają być wyprowadzane z bazy wiedzy, pytania muszą być dobrze sformułowane z wystarczającymi ograniczeniami, a sceny wizualne powinny wymagać powiązania z wiedzą. W praktyce jednak te założenia są systematycznie łamane, co czyni metrykę dokładności niesprawdzonym wskaźnikiem rzeczywistych zdolności rozumowania.

Problemy obejmują zaginione lub sprzeczne odpowiedzi, niewyspecyfikowane pytania oraz wizualnie trywialne sceny z pojedynczymi obiektami, które pozwalają modelom omijać złożone mapowanie wizualno-wiedzowe. Badacze pokazali, że te wady prowadzą do zniekształconych rankingów modeli i przeszacowania ich umiejętności rozumowania. Zaproponowane rozwiązanie zawiera dwa główne elementy - zasadniczy protokół audytu i naprawy, który przywraca wyprowadzalność odpowiedzi i jasność pytań, oraz kontrolowany protokół augmentacji wieloobiektowej, który wzbogaca datasety o bardziej złożone sceny wizualne wymagające rzeczywistego rozumowania.

Ta praca ma znaczenie dla wiarygodności ewaluacji modeli wizualno-językowych i pokazuje, że pozornie wysokie wyniki mogą być artefaktem niedoskonałych benchmarków, a nie rzeczywistej wydajności. Naprawione i wzbogacone datasety mogą stać się bardziej wiarygodnymi narzędziami do oceny postępów w dziedzinie multimodalnego AI i wizualnego rozumowania.