Badacze z Guangzhou w Chinach stworzyli nowy framework do przewidywania ryzyka niealcoholowej stłuszczeniowej choroby wątroby (NAFLD), która dotyka około miliarda ludzi na świecie. Model wykorzystuje gradient-boosted decision trees – czyli jeden z najpotężniejszych algorytmów machine learning – w połączeniu z conformal prediction. Ta kombinacja daje coś cennego: calibrowane prognozy z matematycznymi gwarancjami na pokrycie (coverage guarantee), które nie zależą od rozkładu danych.
Key innowacją jest podejście do selekcji cech. Zamiast brać wszystkie 78 zmiennych (demograficzne, biomarkery metaboliczne, styl życia), zespół zastosował procedurę stabilności bazującą na informacji wzajemnej. Wynik? Kompaktowy zestaw predyktorów – талия, ALT, GGT, triglicerydy, glukoza na czczo, BMI – które są łatwe do interpretacji klinicznie. Model zaliczył zewnętrzną walidację: na niezależnych pacjentach osiągnął AUROC 0,891, pokonując głębokie sieci neuronowe i inne podejścia.
Co najważniejsze, conformal prediction garantuje 91,3% empiryczne pokrycie przy nominalnym poziomie 90%. To oznacza, że można mówić pacjentom: jeśli nasz model klasyfikuje cię do wysokiego ryzyka, to z taką a taką pewnością to się okaże prawdą. Stratyfikacja trzystopniowa ujawniła dramatyczne różnice: pacjenci w grupie wysokiego ryzyka wykazywali progresję choroby 4,7 razy częstszą niż w grupie niskiego ryzyka w ciągu 12 miesięcy. To konkretny narzędzie, które mogłoby zmienić przesiewowe strategie na poziomie populacyjnym.