Problem w testowaniu detekcji anomalii: niestabilność wyników przy podziału klas

Naukowcy z arXiv odkryli fundamentalną wadę w metodzie testowania systemów do detekcji anomalii. Standardowa procedura oceny, zwana class-split evaluation, polega na ukryciu jednej klasy danych jako anomalii i testowaniu, czy model ją prawidłowo identyfikuje. Jednak badania pokazują, że ta metoda całkowicie zawodzi, gdy anomalna klasa i normalne dane mają podobne reprezentacje w modelach neuronowych.

Problema jest poważna: w takiej sytuacji anomaly scores mogą się zapaść do przypadkowego poziomu lub nawet całkowicie się odwrócić. Oznacza to, że model może zacząć klasyfikować anomalie jako normalne i odwrotnie, a kierunek tego błędu zależy od tego, którą konkretnie klasę potraktujemy jako anomalię. To fundamentalnie podważa wiarygodność wyników uzyskanych tą metodą.

Zesp zaproponował prosty, niezwiązany z trenowaniem diagnostyk zwany neighborhood class leakage, który może przewidywać takie problemy. Testując swoją metodę na popularnych datasetach (Fashion-MNIST, CIFAR-10, Imagenette), zarówno na oryginalnych obrazach jak i w ukrytych reprezentacjach VAE, potwierdzili, że problem jest rzeczywisty i powszechny. Wnioski są jasne: benchmarki detekcji anomalii powinny być traktowane raczej jako stress-testy zależne od geometrii danych niż jako bezwarunkowy dowód umiejętności modelu.