Problem Knowledge-Based Visual Question Answering polega na tym, że modele muszą połączyć informacje z obrazu z wiedzą zewnętrzną, aby odpowiedzieć na pytania. Istniejące podejścia z multi-modal retrieval augmented generation traktują identyfikację encji i ranking dowodów jako jeden krok, co prowadzi do wysokich kosztów obliczeniowych i słabej generalizacji na nowe dane.
Zauważenie kluczowe: podczas gdy duże modele multimodalne (MLLMs) mają trouble ze wskazaniem właściwej encji w otwartej formie, znacznie lepiej radzą sobie, gdy muszą wybrać encję z niewielkiego zestawu kandydatów. Na tej obserwacji opiera się nowa metoda IBA. Jej przepływ pracy jest prosty - najpierw MLLM wskazuje wysokoufną encję na podstawie listy kandydatów, a następnie tekstowy re-ranker wybiera najlepsze sekcje lub fragmenty jako dowód.
Eksperymentalne rezultaty pokazują, że takie podejście bez treningu konsekwentnie przewyższa dostrojone baseline'y oparcie na multi-modal re-rankingu. Redukcja złożoności zarówno w fazie treningu, jak i inferencji czyni tę metodę praktyczniejszą. Badania dodatkowo ujawniają, że podział zadania na dwa etapy zmniejsza błędy propagacji i poprawia ogólną niezawodność systemu.