Kompresja promptów jako przycinanie grafów wymyślane spacerami Levy'ego

Naukowcy opublikowali nową metodę kompresji promptów o nazwie RAGP, która traktuje tekst jako graf zamiast płaskiej sekwencji tokenów. Tradycyjne podejścia do kompresji promptów nie radzą sobie dobrze z informacjami rozproszonymi w tekście i powiązanymi zarówno poprzez lokalne zależności syntaktyczne, jak i globalne relacje semantyczne.

RAGP formułuje kompresję jako redundancy-aware graph pruning na multiplex grafie, który jednocześnie modeluje zarówno szczegółowe zależności oparte na attention, jak i ogólne relacje semantyczne. Kluczową innowacją jest użycie spacerów Levy'ego - matematycznego podejścia z rozkładem ciężkiego ogona, które naturalnie balansuje pomiędzy lokalnym wykorzystaniem gęstych podgrafów a globalnym badaniem rzadkich połączeń. Ta strategia pozwala efektywnie identyfikować węzły (tokeny lub zdania) które nie są redundantne.

W benchmarkach na LongBench RAGP wykazał solidne wyniki: przy kompresji 4x osiągnął średni wynik 49.3, przewyższając LongLLMLingua (48.8 przy kompresji 3x) oraz metody oparte na wizji. To podejście mogłoby istotnie poprawić efektywność przetwarzania długich dokumentów przez duże modele językowe, zmniejszając zapotrzebowanie na tokeny obliczeniowe bez znacznej utraty ważnych informacji.