Google wprowadził nowe otwarte modele Gemma 4 z zaawansowaną techniką speculative decoding, która przyspeszy generowanie tekstu nawet 3 razy. Ta technologia pozwala modelowi przewidywać kilka kolejnych tokenów jednocześnie, zamiast czekać na każdy z nich oddzielnie. Optymalizacja ma znaczenie dla praktycznego wdrażania dużych modeli języka, zwłaszcza w aplikacjach wymagających szybkiej odpowiedzi, co czyni otwarte modele bardziej konkurencyjne wobec zamkniętych rozwiązań.
Badania
Ars Technica