SynIB: nowa metoda do maksymalizacji synergii w uczeniu multimodalnym

Zespół badawczy opracował nową podejście do problemu, który długo nurtował specjalistów od uczenia maszynowego: jak sprawić, aby modele rzeczywiście korzystały z informacji z wielu źródeł? SynIB (Synergistic Information Bottleneck) to funkcja celu treningowego, która zmusza model do uczenia się synergii między modalnościami — informacji zadaniowo-istotnej, dostępnej tylko gdy połączy dane z tekstu, obrazu czy dźwięku.

Tradycyjne podejścia stawiały na coraz bardziej zaawansowane architektury i mechanizmy fuzji danych. SynIB idzie w innym kierunku: zmienia samą funkcję straty. Model trenuje się normalnie na wszystkich modalościach, ale dodatkowo wykonuje forward passes z ukrytą jedną modalnością na raz i jest karani za wysoką pewność w takich scenariuszach. Jeśli model pozostaje pewny swojej prognozy bez tekstowego wkładu, to znaczy, że w rzeczywistości opiera się tylko na obrazie — czego chcemy uniknąć. Takie podejście zmusza go do faktycznego cross-modalnego rozumowania.

Walencja podejścia potwierdza się na sztucznych danych i rzeczywistych benchmarkach. Na syntetycznych zadaniach XOR, gdzie rozwiązanie wymaga właśnie synergii (żadna z modalności sama nie wystarczy), standard training zawsze zawodzi, a SynIB je rozwiązuje. Na rzeczywistych testach — zadaniach afektywnych z MultiBench, Hateful Memes z backbonami CLIP-ViT i DeBERTa, oraz nowym wariancie CREMA-D ze zmienną ironią — metoda wykazuje istotne ulepszenia. To oznacza, że model lepiej nauczył się korzystać z pełnego potencjału dostępnych danych.