Prawidłowości skalowania dla przybliżonego wyszukiwania najbliższych sąsiadów opartego na siatce

Metoda siatki z multiprobe pokazuje dotąd nieobserwowaną odporność na wzrost wymiarów, utrzymując mniej więcej stały wykładnik skalowania w stosunku do wymiarowości d, podczas gdy inne podejścia - oparte na grafach, drzewach czy partycjonowaniu - degradują się wraz ze wzrostem wymiarów danych.

Wyniki badań na zbiorze embeddingów GloVe wskazują, że algorytm siatki ma bliskie liniowe skalowanie względem rozmiaru zbioru danych N, ale jednocześnie wykazuje niższe koszty indeksacji niż konkurencyjne metody ANN. Przewaga ta sprawia, że podejścia sieciowe mogą być szczególnie konkurencyjne w scenariuszach, gdzie indeksacja jest przeprowadzana często lub gdzie wymiarowość danych jest duża, a niezawodność w wysokich wymiarach ma znaczenie.

To badanie ma znaczenie nie tylko dla klasycznych aplikacji wyszukiwania, ale także dla nowoczesnych architektur transformerów. Ostatnie prace wykazały, że self-attention można sformalizować jako operację ANN, co oznacza, że właściwości skalowania algorytmów wyszukiwania najbliższych sąsiadów mogą bezpośrednio wpłynąć na analizę kosztów efektywnych implementacji transformerów.