MER-R1: Rozpoznawanie emocji przez synergię szybkiego i wolnego myślenia

Zespół badawczy opublikował MER-R1, framework oparty na uczeniu ze wzmacnianiem, który łączy szybkie intuicyjne odpowiedzi z wolnym deliberacyjnym myśleniem w zadaniu rozpoznawania emocji w danych multimodalnych. Przekonanie, że wyraźne rozumowanie zawsze prowadzi do lepszych wyników okazało się błędne - szybkie myślenie często osiąga wyższą dokładność, choć jest mniej interpretowalne.

Badania ujawniły komplementarność między dwoma podejściami: szybkie myślenie wyzwala bezpośrednie odpowiedzi z szerszym recall i wyższą pewnością prognoz, podczas gdy wolne myślenie faworyzuje precyzję poprzez ostrożne filtrowanie nieprawidłowych kategorii emocji. Zamiast zmuszać model do wyboru między tymi strategiami, MER-R1 wprowadza rozdzielenie podwójnego celu - recall i precision są optymalizowane jako osobne sygnały, a następnie łączone razem. Dodatkowa kalibracja ufności wyrównuje ostateczną odpowiedź wolnego myślenia z intuicją szybkiego myślenia, wzmacniając prawidłowe emocje i tłumiąc błędne.

Framework zawiera teoretyczne uzasadnienie tej synergii, wykazując że zmniejsza ona interference indukowane wariancją podczas optymalizacji. Eksperymenty na benchmarkach MER-UniBench i MME-Emotion pokazują, że MER-R1 osiąga wyniki na poziomie state-of-the-art, demonstrując że wielowarstwowe rozumowanie może autentycznie wspomóc dokładność rozpoznawania emocji zamiast ją utrudniać.