Filtrowana mieszanina generatorów do syntetycznego treningu modeli przeżycia

Naukowcy z arXiv zaproponowali nową metodę FoGS do tworzenia syntetycznych danych dla modelowania czasu do zdarzenia w analizie przeżycia. Zamiast polegać na tradycyjnym generowaniu danych, system działa jako inteligentny selektor - czerpie kandydujące próbki z czterech architekturnie różnych generatorów tabelarycznych, a następnie każdą próbkę ocenia za pomocą zespołu siedmiu modeli przeżycia wytrenowanych na rzeczywistych danych. Punktacja opiera się na właściwych regułach scoringowych, które działają jako proxy wiarygodności dla każdej próbki.

Problem, który adresuje ta metoda, jest dobrze znany w medycynie: dane treningowe w badaniach klinicznych są drogie i rzadkie - zdarzenia narastają przez lata obserwacji, kohorty są małe, a przepisy dotyczące prywatności utrudniają udostępnianie danych między instytucjami. Choć generatywne modele tabelaryczne obiecują augmentację danych i bezpieczne dzielenie kohort, same są głodne danych - na małych zbiorach typowych dla analizy przeżycia pojedynczy generator zazwyczaj nie charakteryzuje populacji wystarczająco dobrze.

FoGS optymalizuje selektywną politykę wyboru próbek poprzez dwupoziomowy pipeline. Pętla zewnętrzna dostrojenia wybiera ilorazy generatorów, wagi scorer'ów, losowy komplement i zrównoważenie warstwowe pod względem czasu zdarzenia i cenzury - wszystko względem wydajności na wstrzymanych danych testowych. Wewnętrzna pętla dostrajania trenuje model downstream (XGBoost-Cox). Na 16 publicznych zbiorach danych metoda uzyskała średnią poprawę o 2,17 w C-index i 0,67 w metryce IBS, poprawiając obie metryki na 9 z 16 zbiorów i co najmniej jedną na 13 zbiorach.