Google AI wypuściło technologię Multi-Token Prediction (MTP) dla modelu Gemma 4, która umożliwia przyspieszenie inferencji do 3 razy bez utraty jakości odpowiedzi. Rozwiązanie wykorzystuje specjalne draftery do przewidywania wielu tokenów jednocześnie, co znacznie zmniejsza liczbę operacji obliczeniowych. Ta innowacja ma istotne znaczenie dla praktycznych aplikacji AI, gdzie szybkość odpowiedzi jest kluczowa, szczególnie w kontekście kosztów i dostępności modeli na urządzeniach końcowych.
Badania
MarkTechPost