NVIDIA zaprezentowała nowatorską metodę pretrainingu modeli AI w 4-bitowej precyzji numerycznej przy użyciu formatu NVFP4. Podejście zostało zwalidowane na hybrydowym modelu Mamba-Transformer o rozmiarze 12 miliardów parametrów trenowanym na 10 bilionach tokenów. Innowacja ta ma znaczący wpływ na redukcję kosztów obliczeniowych i pamięciowych podczas treningu dużych modeli, jednocześnie utrzymując jakość wyniku.