Xiaomi osiąga 1000 tokenów na sekundę dla modelu bilionparametrowego

Xiaomi zaprezentowało wynik, który stawiałby się na czole szybkości obsługi modeli — ich wersja MiMo-V2.5-Pro-UltraSpeed przetwarza ponad 1000 tokenów na sekundę, pracując z modelami o wielkości biliona parametrów. Osiągnięcie to dotyczy rzeczywistych warunków produkcyjnych: wystarczą standardowe GPU (osiem kart) w jednym węźle obliczeniowym.

Do tego wyniku doprowadziła optymalizacja TileRT, którą zespół zintegrował z modelem MiMo. Szybkość dekodowania ma kluczowe znaczenie dla praktycznego wdrażania dużych modelów — im więcej tokenów na sekundę, tym szybciej system generuje odpowiedzi, a użytkownicy czekają mniej. To szczególnie ważne w scenariuszach real-time, gdzie latencja decyduje o doświadczeniu.

Wynik pokazuje, że możliwe jest uruchamianie modelów tri-sekcyjnych rozmiarów na sprzęcie, który jest faktycznie dostępny dla szerszego grona firm i badaczy, bez konieczności inwestowania w specjalistyczną, ultra-zaawansowaną infrastrukturę. To może zmienić dostępność najnowocześniejszych rozwiązań AI poza największymi korporacjami technologicznymi.