Modelowanie brakujących danych w nieregularnych szeregach czasowych z danych klinicznych

Zespół badaczy zaproponował podejście dyfuzyjne do generowania klinicznych szeregów czasowych, które modeluje zarówno wartości pomiarów laboratoryjnych, jak i wzorce ich obserwacji. Stanowiło to odpowiedź na rzeczywisty problem w ochronie zdrowia: testy laboratoryjne w elektronicznych kartach pacjentów są zbierane nieregularnie, a sama nieobecność polecenia badania niesie informacje o zdrowiu pacjenta i decyzjach lekarza.

Mechanika rozwiązania opiera się na pracy z publicznym benchmarkiem DACMI (Data Analytics Challenge on Missing Data Imputation) pochodzącym z bazy MIMIC-III. Dane wejściowe zostały wyrównane do przedziałów 4-godzinnych, a pobyty pacjentów podzielone na okna 7-dniowe. Każda wartość wyniku laboratoryjnego łączy się ze wskaźnikiem obserwacji. Badacze zastosowali standardowe transformacje i normalizację do stabilizacji treningu, a następnie rozszerzyli istniejący framework TimeDiff o zdolność nauki zarówno ciągłych wartości (wyniki testów), jak i dyskretnych wzorców brakujących danych (czy test został wykonany).

Wyniki eksperymentów pokazują, że dane wygenerowane przez model ściśle odwzorowują rzeczywiste trajektorie pacjentów zarówno pod względem rozkładów poszczególnych parametrów, jak i wspólnych zależności między wartościami a wskaźnikami obserwacji. To oznacza, że model dyfuzji zdolny jest do uchwycenia klinicznie istotnych zależności między fizyologią pacjenta a zachowaniem testowania lekarzy w warunkach MNAR (missing-not-at-random). Takie podejście ma potencjał zastosowania w syntetycznej generacji danych medycznych do badań i validacji algorytmów diagnostycznych.