Naukowcy z zastosowaniem sieci KAN opracowali nową metodę scKDGM do analizy skupień w danych sekwencjonowania RNA pojedynczych komórek. Problem, który rozwiązują, to złożoność High-dimensional danych biologicznych - sekwencjonowanie scRNA-seq wytwarza tysiące wymiarów, a dodatkowo dane zawierają wiele luk (dropouty), szum techniczny i zbyt wiele zer. Istniejące metody bazujące na autoencoderowcach skupiały się głównie na odtwarzaniu ekspresji genów, podczas gdy metody grafowe używały stałych grafów KNN i nie incorporowały zwrotnie odzyskanej ekspresji do optymalizacji topologii.
scKDGM wprowadza kilka innowacyjnych komponentów do tej puzzle. Głównym pomysłem jest dynamiczny graf, który się zmienia wraz z lepszym zrozumieniem danych - zamiast raz skonstruowanego grafu sąsiedztwa, metoda iteracyjnie ulepsza strukturę grafu na podstawie odzyskanej ekspresji. Framework wykorzystuje KAN (Kolmogorov-Arnold Networks) w enkoder TAKGCN do nauki reprezentacji z zamaskowaniem, co jest bardziej zaawansowane niż tradycyjne grafy liniowe. Dodatkowe elementy to specjalny mechanizm maskowania GDP-Mask, który zaburza tożsamość komórek w inteligentny sposób, oraz contrastive learning do transfer sygnałów odtwarzania w aktualizacje topologii sieci.
Wyniki na 12 zbiorach danych scRNA-seq pokazują, że scKDGM konsystentnie przewyższa 10 istniejących benchmarków w metrykach NMI i ARI - standardowych miarach jakości grupowania. Znaczenie tej pracy leży w tym, że dokładne grupowanie komórek jest fundamentem dla odkrywania nowych typów komórek w biologii, diagnozy chorób i rozwoju nowych leków. Połączenie dynamicznych grafów z zaawansowanymi architekturami neuronowymi otwiera drogę do bardziej niezawodnych analiz danych biologicznych wysokowymiarowych.