Sztuczne augmentowanie danych dla regresji poprzez residua kontrafaktyczne

Naukowcy zaproponowali nową technikę o nazwie Counterfactual Residual Data Augmentation do rozwiązania problemu ograniczonych zbiorów treningowych w regresji. Problem jest rzeczywisty: w wielu praktycznych aplikacjach zbieranie danych jest kosztowne, a szum obserwacji utrudnia modelowanie.

Klucz do metody CRDA leży w spostrzeżeniu, że po tym, gdy model naucza się systematycznego komponentu danych, pozostałe residua (różnice między przewidywaniami a rzeczywistymi wartościami) pozostają stabilne nawet gdy dokonamy małych zmian w wybranych cechach wejściowych. To oznacza, że można wygenerować nowe, realistyczne próbki treningowe poprzez perturbacje tych cech, zachowując strukturę residuów. Podejście jest niezależne od modelu i działa z różnymi typami regresorów.

W eksperymentach na zbiorach benchmark CRDA osiągnęła imponujące rezultaty: zmniejszyła błąd MSE dla regresora MLP o 22,9% i dla XGBoost o 6,4%. Przy porównaniu z innymi istniejącymi technikami generowania i augmentacji danych, CRDA konsekwentnie wypadła lepiej. To szczególnie ważne dla scenariuszy z szumowymi, małymi zbiorami danych, gdzie augmentacja może znacząco poprawić wydajność modelu bez potrzeby zbierania dodatkowych obserwacji.