Odtwarzanie architektury LLM z ograniczonego dostępu API

Naukowcy z arXiv opracowali NightVision - atak pozwalający na odtworzenie kluczowych parametrów architektonicznych modeli LLM poprzez czarną skrzynię z minimalnym dostępem API. Metoda działa nawet w przypadku najpowszechniejszych dziś ograniczeń, gdzie dostawcy udostępniają tylko wartość logitu dla każdego zdekodowanego tokena bez możliwości manipulacji logitami.

Algorytm NightVision opiera się na innowacyjnej technice common set prompting, która generuje wiele promptów ujawniających logarytmy prawdopodobieństwa dla identycznych zbiorów tokenów wyjściowych. Spektralna analiza tych wyników pozwala na oszacowanie wymiaru ukrytych warstw sieci. Dodatkowo metoda wykorzystuje pomiary czasu do pierwszego tokena (TTFT) oraz oszacowany wymiar do określenia głębokości modelu i liczby parametrów.

W badaniach empirycznych na 32 modelach open-source technika osiągnęła średnią względną błędu 23% przy określaniu wymiarów warstw ukrytych (zaledwie 9% dla modeli MoE) oraz błędu 53% dla głębokości i liczby parametrów w modelach większych niż trzy miliardy parametrów. Wyniki wskazują, że choć producenci komercyjnych modeli ograniczyli dostęp do API w odpowiedzi na wcześniejsze prace, zaawansowane ataki są wciąż możliwe. To stanowi istotne wyzwanie dla bezpieczeństwa i ochrony własności intelektualnej architektur proprietary LLM, zmuszając dostawców do poszukiwania bardziej zaawansowanych mechanizmów ochrony.