Naukowcy systematycznie ocenili, jak dobrze pięć modeli bazowych wyodrębnia cechy z medycznych danych wielomodalnych do zadań klasyfikacyjnych w onkologii. Badanie obejmowało obrazy całych preparatów histologicznych (whole-slide images) oraz profile transkriptomowe z dwóch rzeczywistych kohorty pacjentów (IH-BC i IH-NSCLC) pochodzących z licencjonowanego zbioru danych wewnętrznych. Rezultaty pokazują, że reprezentacje z obu modalności niosą komplementarne sygnały predykcyjne — obrazy i dane genomiczne zawierają różne informacje przydatne do diagnozy.
Ważnym wkładem pracy jest demonstracja, że fuzja wielomodalna przynosi największe korzyści, gdy żadna z pojedynczych modalności nie dominuje całkowicie w sygnale predykcyjnym. Zespół przetestował trzy strategie łączenia reprezentacji obrazów i danych genomicznych, porównując je z wynikami samych obrazów lub samych danych. Modele bazowe zachowały konkurencyjną wydajność nawet na danych z innym rozkładem niż dane treningowe, co jest kluczowe dla praktycznego zastosowania w medycynie.
Najmocniejsza część pracy to ocena zaufania poprzez predykcję konforemną — technikę, która nie tylko wydaje diagnozę, ale również wskazuje zestaw możliwych wyników z określonym poziomem pewności. Okazało się, że w większości przypadków, gdzie pojedyncza predykcja się myli, prawidłowa diagnoza pozostaje dostępna w zbiorze predykcji. To ma praktyczne znaczenie dla wspierania decyzji klinicznych — zamiast pełnego zaufania do wyniku modelu, lekarze mogą znać zakres możliwych diagnoz, co zmniejsza ryzyko błędów diagnostycznych.