LLM jako narzędzie do wykrywania syntetycznych tabel

Naukowcy z arXiv zaproponowali nowatorską metodę audytu prywatności danych tabelarycznych, która wykorzystuje zdolności dyskryminacyjne dużych modeli językowych. Zamiast tradycyjnych podejść, poprosili LLM o klasyfikację próbek tabel jako RZECZYWISTE lub SYNTETYCZNE. Testowali dwa warianty: bez dodatkowych informacji i z metadanymi dotyczącymi rozkładu danych.

Badacze porównali działanie open-source'owego modelu LLaMA oraz komercyjnego Gemini na trzech algorytmach generowania danych syntetycznych: CTGAN, TVAE i Gaussian Copula. Eksperyment przeprowadzili na dwóch publicznie dostępnych zbiorach danych - UCI Adult i ACS Census, realizując łącznie 451 ważnych prób. Wyniki pokazały znaczące różnice między modelami. Na zbiorze Adult, LLaMA nie zdołał prawidłowo zidentyfikować sztucznych danych, podczas gdy Gemini osiągnął niemal doskonałą detekcję dla większości metod syntezy.

Metoda stanowi praktyczne narzędzie do audytu prywatności, z zastrzeżeniem że wymaga ostrożnego traktowania różnic między dostawcami, wyborem modelu i kodowaniem danych. Badacze uwzględnili również porównania z tradycyjnymi testami klasyfikacyjnymi i testami linkowania rekordów, a także przeprowadzili pilotażowe badania z udziałem człowieka. Kod i skrypty eksperymentów zostały udostępnione publicznie na GitHubie, co ułatwi reprodukowalność badań i dalszy rozwój tego podejścia.