Fuzja multimodalna do przewidywania czasu zdarzeń: framework z wyrównaniem reprezentacji

Zespół badawczy zaproponował nowy framework do integracji informacji z obrazów CT i danych historycznych pacjentów z elektronicznej dokumentacji medycznej. Problem polega na tym, że te dwie modalności mają różne charakterystyki i nie zawsze można je łatwo połączyć - mówi się o imbalansie i przesunięciu rozkładu danych. Rozwiązaniem jest przetworzenie każdej modalności oddzielnie za pomocą dedykowanych modeli fundamentalnych, a następnie wyrównanie ich reprezentacji w wspólnej przestrzeni latentnej.

Autorzy przetestowali cztery różne strategie fuzji: late fusion (połączenie na ostatnim etapie), wyrównanie kontrastywne, cross-attention i co-attention. Każdą metodę ewaluowali na dwóch rzeczywistych problemach klinicznych: przewidywaniu śmiertelności z powodu zatorów płucnych (PE) oraz wyników sercowo-naczyniowych (MACE). Dane pochodziły z dużych, wieloośrodkowych kohorty pacjentów, co pozwoliło testować zarówno na danych wewnętrznych, jak i zewnętrznych instytucji.

Wyniki pokazują, że łączenie modalności konsekwentnie daje lepsze rezultaty niż używanie tylko obrazów lub tylko danych tekstowych. Najlepsze rezultaty osiągnęła fuzja kontrastywna, szczególnie dla przewidywania śmiertelności z PE. Dla innych zadań metodę trzeba dostosować - na danych wewnętrznych lepiej sprawdzała się cross-attention, natomiast na danych z innych placówek medycznych lepsze było podejście z image-guided co-attention. To badanie jest ważne, bo pokazuje, że nie ma uniwersalnego podejścia do fuzji multimodalnej w medycynie - trzeba eksperymentować i dostosowywać strategie do konkretnego problemu i charakterystyki danych.