Regresja z latentnymi czynnikami Gaussian Process dla problemów wysokowymiarowych z małą ilością dan

Naukowcy z arXiv opublikowali artykuł opisujący GPLFR — nową metodę regresji przeznaczoną dla sytuacji, gdzie mamy mało danych treningowych, ale wiele zmiennych do przewidzenia. Problem, który rozwiązują, to rzeczywisty wyzwanie w naukach empirycznych: eksperymentalne lub obserwacyjne zbiory danych są często bardzo małe, a jednocześnie chcemy przewidywać wiele wielkości fizycznych na raz.

Istnieją już narzędzia do tego problemu — wielowymiarowe procesy Gaussowskie radzą sobie dobrze z małą ilością danych, ale nie skalują się do wysokich wymiarów. Z drugiej strony, popularne podejście "kompresja plus regresja" (na przykład PCA-GP) najpierw redukuje wymiarowość, a potem buduje model — ale optymalizuje kompresję dla rekonstrukcji, a nie dla trafności przewidywań. GPLFR zmienia to by obie części pracowały razem.

Model reprezentuje każdy output jako dekodowanie liniowo-Gaussowskie ukrytego stanu niskowymiarowego, który pochodzi z priors Gaussian process. Kluczowy trick to analityczne całkowanie (marginalizacja) wag dekodera, co pozwala skalować się do wysokowymiarowych outputów bez komplikacji numerycznych. Naukowcy zademonstrowano to budując pierwszy przestrzennie rozdzielczo emulator globalnych modeli klimatycznych dla egzoplanet — coś, co dotąd nie było możliwe z takimi danymi.