Fine-tuning z syntetycznymi wyjaśnieniami pogarsza predykcję chorób

Nowe badanie kwestionuje popularne podejście do szkolenia modeli AI w klinice. Naukowcy testowali hipotezę, że nauczanie modeli języka na syntetycznych wyjaśnieniach — czyli powodach stojących za predykcjami — powinno poprawiać ich wydajność w przewidywaniu chorób. Okazało się jednak, że w rzeczywistości to pogarsza dokładność. W eksperymencie obejmującym 504 różnych konfiguracji modeli fine-tuning oparty na rationales (wyjaśnieniach) konsekwentnie i znacząco obniżał wydajność w stosunku do zwykłego fine-tuningu na samych etykietach choroby.

Zaskakujące jest to, że problem nie wynikał z niskiej jakości wyjaśnień. Eksperci medyczni potwierdzili, że wygenerowane rationales były medycznie dokładne i trafnie ugruntowane w specyficznych danych pacjentów. Nie był to więc problem jakości danych treningowych. Zamiast tego naukowcy zidentyfikowali fundamentalny konflikt strukturalny: wyjaśnienia mają tendencję do bycia narracyjnie wiarygodne, ale ta wiarygodność może się różnić od tego, co faktycznie dyskryminuje pacjentów z chorobą od zdowych. Ciekawe, że te same wyjaśnienia poprawiały wydajność, gdy były używane podczas inferencji (jako few-shot demonstrations), a nie jako dane treningowe.

To odkrycie ma istotne implikacje dla bezpiecznego wdrażania AI w medycynie. Sugeruje, że po prostu zwiększanie ilości wyjaśnień w danych treningowych nie jest panaceum dla zaufania i wydajności modeli klinicznych. Wskazuje na potrzebę bardziej precyzyjnego zrozumienia, kiedy rationales pomagają, a kiedy szkodzą — wiedza kluczowa dla odpowiedzialnego rozwijania systemów AI w wysokiego ryzyka zastosowaniach medycznych.