Geometry-Aware Tabular Diffusion – nowa metoda syntezy danych tabelarycznych

Naukowcy z arXiv zaproponowali Geometry-Aware Tabular Diffusion (GATD), nową metodę do syntezy danych tabelarycznych. Kluczowa innowacja polega na tym, że modele dyfuzji tradycyjnie ucz się relacji między kolumnami w implicite, podczas gdy GATD dodaje jawne geometryczne informacje – konkretnie kąty i długości wektorów obliczane z różnic wartości w kolumnach.

Model w wersji MLP (perceptron wielowarstwowy) osiągnął imponujące wyniki: wygrał w 8 z 10 testów na metryce Shape (strukturalna poprawność), 7 z 10 na Trend (zachowanie trendów w danych) i 9 z 10 w testach użyteczności dla zadań downstream (F1/RMSE). Co ważne, robił to używając średnio 3,5 raza mniej parametrów niż konkurencyjne podejścia – dla zadań klasyfikacyjnych oszczędność sięgała nawet 25x. Błędy w Shape i Trend spadły odpowiednio o 27% i 20%.

To znalezisko ma znaczenie zarówno naukowe jak i praktyczne. Syntetyczne dane tabelaryczne są kluczowe dla ochrony prywatności oraz augmentacji zbiorów danych w przemyśle. Wykazanie, że eksplicytna relacyjna supervizja działa jako portable inductive bias dla modeli dyfuzji, otwiera nowe możliwości projektowania bardziej efektywnych modeli. Metoda transferuje się na inne architektury (GNN, Transformery), co sugeruje uniwersalność podejścia.