Dustin: Efektywna weryfikacja dla szybszej generacji tekstu w długim kontekście

Speculative decoding to technika przyspieszająca generowanie tekstu w modelach językowych, ale okazuje się być nieefektywna dla długich kontekstów ze względu na wąskie gardło przy załadowywaniu cache'u Key-Value. Istniejące metody kompresji albo tracą dokładność przy statycznym usuwaniu tokenów, albo wprowadzają zbyt duże opóźnienia obliczeniowe.

Dustin rozwiązuje ten problem poprzez sparse verification - ramę pracy, która łączy sygnały lookahead z modelu roboczego z historyczną informacją o uwadze z modelu głównego. Dzięki temu system potrafi wybrać naprawdę krytyczne tokeny z dużą precyzją, bez przetwarzania całego widoku. Dodatkowo zastosowano efektywny schemat szacowania, który ogranicza obliczenia do minimalnego zestawu głowic atencji.

Wyniki testów na modelach Qwen2.5-72B wykazują imponujące przyspieszenie - 27,85x szybciej dla samej mechaniki self-attention i 9,17x dla całego procesu dekodowania przy sekwencjach długości 32k tokenów. Kluczowe jest to, że przyspieszenie osiągnięto praktycznie bez pogorszenia dokładności. To ma znaczenie dla praktycznych zastosowań takich jak analiza długich dokumentów, gdzie obecne podejścia byłyby zbyt wolne.