Zespół badaczy z arXiv opublikował nową metodę do dynamicznego ustalania cen w sektorze wynajmów krótkoterminowych. Głównym wyzwaniem w tym obszarze jest to, że feedback rynkowy przychodzi bardzo rzadko — na każdą noc listing może przynieść co najwyżej jedną rezerwację. Tradycyjne podejścia oparte na czystym online learning wymagają wtedy miesięcy, aby algorytm nauczył się optymalnych cen.
Rozwiązanie, które zaproponowali, nosi nazwę Human-in-the-Loop Gated Bandit (HITL-GB). Algorytm bandit generuje rekomendacje cen, ale ostateczną decyzję zawsze podejmuje człowiek — może zaakceptować sugestię, ją zmodyfikować lub całkowicie odrzucić. To podejście ma znaczenie nie tylko dla bezpieczeństwa finansowego, ale i dla transparentności: operator wynajmu zawsze wie, dlaczego cena się zmieniła.
Klucz do przyspieszenia nauki leży w sprytnym wykorzystaniu historycznych danych. Badacze wykazali matematycznie, że dane cenowe zebrane pod starą polityką cenową zawierają informacje równoważne danym z fazy rozgrzewania algorytmu. Eksperymenty na rzeczywistych danych z wynajmów (2 apartamenty, 4 lata obserwacji) pokazały, że ta metoda zmniejsza potrzebny czas nauki z około 150 noclegów do zaledwie 30. Autorzy argumentują, że ich rezultat ma uniwersalne zastosowanie — dla każdej branży, gdzie wysokie stawki finansowe i wymogi regulacyjne wymagają zatwierdzenia człowieka.