EntMTP: przyspieszanie inference LLM z przewidywaniem wielu tokenów kierowanym entropią

Zespół badaczy opracował EntMTP - algorytm optymalizujący szybkość generowania tekstu przez LLM-y poprzez inteligentne sterowanie głębokością multi-token prediction. W miejsce stałej strategii spekulacji, EntMTP dynamicznie dostosowuje liczę jednocześnie przewidywanych tokenów na podstawie bieżącego oszacowania entropii lokalnej tekstu.

Tradycyjne rozwiązania jak Hydra czy Medusa stosują statyczne topologie uwagi oparte na drzewach, niezależnie od kontekstu generacji. To podejście ignoruje naturalną strukturę języka, gdzie niektóre fragmenty są przewidywalne (niska entropia), a inne wymagają ostrożności (wysoka entropia). EntMTP zmienia to podejście - gdy model napotyka łatwy do przewidzenia tekst, spekuluje głębiej (więcej tokenów naraz), zaś w trudnych momentach redukuje spekulację do minimum koniecznego.

System nie wymaga retrainingu istniejących modeli i działa jako scheduler, który wybiera optymalny schemat uwagi z zbioru pre-obliczonych topologii. Testowanie na benchmarkach takich jak Humaneval, ShareGPT, GSM8k i Litbench wykazało konsekwentne przyspieszenie 1.15x wobec Hydry i do 1.36x wobec Medusa, bez utraty jakości generowanych tekstów. To oznacza znaczny krok ku bardziej wydajnemu inference'owi dużych modeli bez kompromisów na jakości.