Problem dotyczy sytuacji, gdzie system musi w czasie rzeczywistym decydować, które z kilku modeli embeddingowych powinno obsłużyć konkretne zapytanie użytkownika. To zadanie jest bardziej złożone niż mogłoby się wydawać, ponieważ system ma ograniczoną wiedzę o tym, jak dobrze dany model sprawdził się w praktyce, a ponadto może napotykać niestandardowe lub adversarial zapytania.

Badacze sformalizowali ten problem jako kontekstualny bandit liniowy z niskorangowymi ekspertami. Zamiast traktować każdy wymiar embeddingu niezależnie, ich podejście wykorzystuje fakt, że modele operują w niskowymiarowych przestrzeniach ukrytych. Kluczowym odkryciem było zidentyfikowanie klasy funkcji polityki zwanych log-kwadratycznymi, które są wystarczająco elastyczne, aby wychwytywać złożone strategie routingu, ale jednocześnie wystarczająco strukturalne, aby umożliwić efektywne uczenie online.

Proponowany algorytm HPG osiąga linearizowany policy regret na poziomie Õ(s√MT), gdzie s to wewnętrzny rank ekspertów, M to liczba modeli, a T to liczba rund. Oznacza to, że złożoność nie rośnie wykładniczo z wymiarem przestrzeni — algorytm unika klątwy wymiarowości. Dodatkowo zespół dostarczył wydajną obliczeniowo i pozbawioną parametrów implementację, co czyni rozwiązanie praktycznym do wdrożenia.