Naukowcy z arXiv opublikowali pracę poświęconą fundamentalnej słabości obecnych systemów multimodalnych. Problem polega na tym, że kiedy model rozumuje na podstawie tekstu i obrazu jednocześnie, musi spełnić wiele różnych wymogów — od prawidłowego zrozumienia wizualnej zawartości po logiczną konsekwencję wnioskowania. Tymczasem current Process Reward Models traktują wszystkie te wymiary równoprawnie.

To podejście ma poważną wadę. Gdy jeden wymiar (na przykład logika) działa dobrze, może przesłonić problemy w innym wymiarze (wizualny grounding), prowadząc do fałszywego poczucia, że system działa prawidłowo. W rzeczywistości rozumowanie może być nieważne w kilku kluczowych aspektach, a my o tym nie wiemy.

Optymalizacja najsłabszego wymiaru zmienia tę strategię. Zamiast uśredniać wydajność, metoda skupia się na tym, gdzie model zawodzi najgorzej, i priorytetowo naprawia te problemy. To gwarantuje bardziej solidne rozumowanie multimodalne, w którym każdy aspekt procesu — wizualny, semantyczny i logiczny — osiąga co najmniej minimalny, zadowalający poziom. Taki podход jest szczególnie ważny dla zadań wymagających niezawodności, jak analiza medyczna czy autonomous reasoning.