Zespół badaczy z arXiv wykazał, że modele dyfuzji mogą konkurować z tradycyjnymi modelami autoregresywnymi w generowaniu raportów radiologicznych. DiffusionGemma-26B, zaadaptowana za pomocą LoRA do zadań medycznych, dorównuje lub przewyższa swojego autoregresywnego odpowiednika Gemma-4-26B na wszystkich testowanych datasetach visual question answering. Finetuned wersja z 3,8B aktywnymi parametrami jest konkurencyjna dla czołowych modeli vision-language, a jej dekodowanie jest 3,5-4,4 razy szybsze.
Ale rzeczywisty przełom tkwi w unikalnej możliwości dyfuzji - infill w dowolnym porządku. W odróżnieniu od modeli autoregresywnych, które generują tekst sekwencyjnie od lewej do prawej, model dyfuzji pracuje bidirekcjonalnie na całym "płótnie" tokenów. To oznacza, że radiolog może naprawić części istniejącego raportu, a model uzupełni tekst między zmienionymi fragmentami - operacja wbudowana w naturę dyfuzji, której autoregresywne modele robią słabo.
To ma realne zastosowanie kliniczne. Rzeczywiste raporty radiologiczne są często lapidarne, niespójne między klinicystami czy instytucjami. Możliwość interaktywnego naprawiania i dokańczania tekstu pasuje do rzeczywistych workflow'ów lekarzy lepiej niż czysty generacyjny model od zera. Takie podejście mogłoby zmienić sposób, w jaki AI wspomaga pracę radiologów - nie zastępując ich, ale oferując narzędzie do szybszego czyszczenia i ulepszania już istniejących notatek.