NVIDIA wypuściła Nemotron-Labs-TwoTower, model dyfuzji wyposażony w dwie odrębne wieże sieciowe, który osiąga 2,42 raza wyższą przepustowość generowania tekstu niż tradycyjne modele autoregresywne. Model oparty jest na zamrożonym backbone'ie Nemotron-3-Nano-30B-A3B i dostępny jest na warunkach licencji NVIDIA Nemotron Open Model License. Propozycja rozwiązuje fundamentalny problem autoregresywnych modeli języka - ich zdolność do dekodowania tylko jednego tokenu na raz, co ogranicza szybkość generacji tekstu.

Inowacyjnym rozwiązaniem jest podział architekury na dwie wieże. Pierwsza wieża to zamrożony kontekst autoregresywny, druga to trenowana sieć denoisingu. Podczas gdy tradycyjne modele dyfuzji wykorzystują jedną sieć do obsługi czystych tokenów i ich iteracyjnego odszumiania na każdym kroku, TwoTower rozdzielił te zadania. Model wciąż osiąga 98,7 procenta jakości baseline'u autoregresywnego, co jest imponującym wynikiem biorąc pod uwagę przyspieszenie. Backbone interleaves warstwy Mamba-2, self-attention i mixture-of-experts, z 52 warstwami w każdej wieży - razem około 60 miliardów parametrów, choć aktywnych jest około 3 miliardów na token.

Denoisser trenowany był na około 2,1 biliona tokenów, podczas gdy oryginalny backbone wykorzystał 25 bilionów. Pojedynczy checkpoint obsługuje tryby dyfuzji, mock-autoregresywny i standardowy autoregresywny, co czyni model elastycznym dla różnych zastosowań. To stanowi znaczący postęp w przyspieszaniu generowania tekstu bez istotnej utraty jakości modelowania.