Jak dźwięk i obraz podróżują przez multimodalne modele języka

Nowe badanie z arXiv pokazuje, jak dokładnie dźwięk i obraz wpływają na ostateczne odpowiedzi generowane przez audio-wizualne duże modele językowe (AVLLM). Badacze śledzili ścieżki, którymi tokeny audio i wizualne podróżują przez sieć neuronową, a wyniki okazały się fascynujące.

Główne odkrycie mówi, że modele stosują różne strategie routingu w zależności od typu InputData. Dla wideo audio-wizualnego system podąża sekwencyjnym tokiem informacji znanym z poprzednich VideoLLM, gdzie udziały audio i wizualne przepływają proporcjonalnie do tego, które dane są ważniejsze dla zadania. Natomiast w sytuacjach z wieloma przeplatanymi elementami audio-wizualnymi algorytm przełącza się na równoległy routing przez różne kanały.

Najciekawsze jest to, że tokeny audio-wizualne mogą być usuwane z sieciuz minimalnym wpływem na jakość odpowiedzi, a czasami nawet z lekką poprawą. To odkrycie ma praktyczne znaczenie: umożliwia bardziej efektywne wnioskowanie bez utraty precyzji. Badanie zostało przeprowadzone na wielu modelach i skalach, od 3B do 7B parametrów, co sugeruje, że te mechanizmy są fundamentalne dla działania takich systemów.