Badacze z UC San Diego opracowali DFlash - ultraleką metodę speculative decoding, która zamiast generować tokeny sekwencyjnie, proponuje całe bloki w jednym przebiegu sieci neuronowej. Problem w generowaniu tekstu przez duże modele lingwistyczne polega na tym, że każdy token czeka na poprzedni - to sekwencyjne podejście zmusza nowoczesne GPU do niedoużytku, szczególnie w przypadku długich łańcuchów rozumowania. Standardowym rozwiązaniem jest speculative decoding: mały model draft-owy proponuje tokeny, a duży model je weryfikuje równolegle. Jednak większość dotychczasowych metod, w tym stanowiące dotychczas best practice EAGLE-3, wciąż drafuje tokeny jeden po drugim, co limituje przyspieszenie do zaledwie 2-3x.
DFlash zmienia to podejście dzięki modelowi dyfuzji bloków, który pracuje na całych blokach masowanych tokenów zaraz po sobie. Zamiast autoregressyjnego generowania proponuje cały blok tokenów naraz, a docelowy model weryfikuje go równolegle. Zgodnie z raportami zespołu badawczego, metoda osiąga przyspieszenie ponad 6x na różnych modelach i zadaniach - to 2,5x wyższa wydajność niż EAGLE-3. Na najnowszych procesorach NVIDIA Blackwell zespół NVIDIA osiągnął nawet 15x wyższą przepustowość dla modelu gpt-oss-120b, utrzymując jednocześnie docelową interaktywność dla użytkownika.
Rozwiązanie to ma znaczące implikacje dla produkcji - długie zapytania i modele Chain-of-Thought mają szansę na istotnie szybsze czasy odpowiedzi, a zarazem wyniki pozostają bit-to-bit identyczne z naturalnym generowaniem. Dla zastosowań wymagających wysokiej przepustowości, takich jak obsługa wielu użytkowników jednocześnie, DFlash otwiera możliwości skalowania, które były dotychczas niedostępne.