Naukowcy z arXiv opublikowali IMCBench, nowy benchmark przeznaczony do oceny multimodalnych dużych modeli językowych w kontekście medycznym. Łączy on rzeczywiste obrazy kliniczne z syntetycznymi profilami pacjentów, tworząc realistyczne wieloturowe rozmowy między pacjentem a klinikiem - coś czego brakuje w dotychczasowych benchmarkach medycznych, które albo wspierają dialogowe rozmowy bez obrazów, albo oferują multimodalne dane ale tylko dla zadań jednokrotnych pytań-odpowiedzi.
Badacze przetestowali osiem modeli z czterech rodzin: Claude (Opus 4.6 i Sonnet 4.6), GPT (GPT-5.2), Nova i Llama. Każdy model oceniano na skali 1-5 pod trzema klinicznymi aspektami: bezpieczeństwo (czy model nie daje niebezpiecznych rad), dokładność diagnostyczna i odpowiednie wyrażanie niepewności przy stawianiu diagnoz. Ocenę przeprowadzał system LLM-as-Jury skalibrowany względem adnotacji rzeczywistych lekarzy. Claude Opus 4.6 wypadł najlepiej z wynikiem 3,61, przed Claude Sonnet 4.6 (3,30) i GPT-5.2 (3,29).
Wyniki jednak ujawniają poważne wyzwania dla praktycznego zastosowania w klinice. Żaden z testowanych modeli nie dominuje we wszystkich wymiarach - są mocne w jednym aspekcie, słabe w innym. Szczególnie niepokojące jest pogorszenie bezpieczeństwa dla chorób złośliwych i rzadkich, ze spadkami średnio o 0,27 punktu dla każdej kategorii. Badania ablacyjne pokazały, że zarówno dane wizualne z obrazów, jak i kontekst z elektronicznej dokumentacji medycznej (EHR) są kluczowe - usunięcie każdego z nich powoduje spadek bezpieczeństwa o 0,18-0,23 punktu. To sugeruje, że multimodalne podejście jest istotne, ale samo w sobie niewystarczające do zapewnienia bezpiecznych rekomendacji dla wszystkich typów pacjentów.