Wydajne uruchamianie modelów dyfuzyjnych na mobilnych NPU

Zespół badawczy przedstawił llada.cpp, innowacyjny framework przeznaczony do efektywnego uruchamiania diffusion LLM (dLLM) bezpośrednio na mobilnych procesorach. Diffusion-based large language modele przyspieszają generowanie tekstu dzięki denoisingowi wielu tokenów równocześnie, co zmniejsza opóźnienia — dokładnie to, czego potrzebują aplikacje mobilne.

Haupt wyzwaniem jest to, że procesory mobilne (NPU) mają ograniczone możliwości, a powtarzający się proces czyszczenia obciąża system. llada.cpp rozwiązuje to trzema kluczowymi technikami. Pierwszy: Multi-Block Speculative Decoding — wypełnia wolne miejsca w obliczeniach spekulacyjnymi tokenami z przyszłych bloków. Drugi: Dual-Path Progressive Revision — utrzymuje tokeny możliwymi do poprawy przez CPU bez zatrzymywania intensywnych obliczeń na NPU. Trzeci: Swap-Optimized Memory Runtime — optymalizuje wykorzystanie dostępnej pamięci i nakłada przygotowanie danych na samo obliczanie.

Wyniki pokazują, że framework znacznie skraca czas generowania tekstu na modelach takich jak LLaDA-8B. To otwiera nowe możliwości dla zaawansowanych LLM na telefonach — bez zależności od chmury i z prawdziwą prywatnością użytkownika. Dla branży mobilnej to potencjalnie przełomowe osiągnięcie w dostępności AI.