SPSD: kompresja promptów na urządzeniu dla wydajniejszej chmurowej inferencji LLM

Naukowcy z arXiv opracowali SPSD, nowatorską metodę kompresji promptów działającą bezpośrednio na urządzeniu użytkownika. Problem, który rozwiązują, to rosnący koszt energetyczny etapu prefill w inferencji dużych modeli językowych w chmurze — a znaczną część tokenów wejściowych stanowią elementy społeczne jak grzeczności i przeprosiny, które są ważne dla człowieka, ale mało informatywne dla maszyny.

System SPSD kompresuje zapytania za pomocą skwantyzowanego 4-bitowo małego modelu (Gemma-2-2B-Instruct) na urządzeniu przed wysłaniem do chmurowego LLM (Llama-3.1-8B-Instruct). Badania na 248 promptach wykazały średnią oszczędność 99,9 tokenów na kompresję, przy czym wszystkie 146 testowanych przypadków przyniosły pozytywny rezultat. Ocena jakości odpowiedzi przez LLM-as-judge pokazała, że odpowiedzi z kompresji są nie gorsze od oryginalnych — sędzia przyznał 43 procent remisów, 28 procent wygranych dla wersji kompresowanej i 29 procent dla wersji surowej.

Importantne jest to, że system jest inteligentnie zbudowany: domeny wymagające wysokiej precyzji (bezpieczeństwo krytyczne) są automatycznie kierowane do wariantu bez kompresji. Estymowane oszczędności energii wynoszą 70-270 mikrowatów na wywołanie. Badania pokazują, że edge-based przetwarzanie prompts może znacznie zmniejszyć zarówno opóźnienia, jak i koszty inferencji chmurowej, otwierając nowe możliwości dla skalowania LLM w systemach o ograniczonej energii.