Modele językowe z dyfuzją: analiza eksperymentalna

Naukowcy z arXiv przeprowadzili pierwszą systematyczną, na dużą skalę analizę modeli języka opartych na dyfuzji (DLM), alternatywnego podejścia do generowania tekstu, które konkuruje z dominującymi modelami autoregresyjnymi takimi jak GPT.

DLM generują tekst poprzez iteracyjne usuwanie szumu zamiast przewidywania kolejnych słów token po tokenie. Pozwala to na równoległe udoskonalanie całych sekwencji. W badaniu oceniono osiem najnowocześniejszych DLM na ośmiu różnych benchmarkach obejmujących rozumowanie, kodowanie, tłumaczenie, wiedzę ogólną i rozwiązywanie strukturyzowanych problemów. Badacze szczegółowo przeanalizowali zarówno jakość generowanych tekstów, jak i wydajność obliczeniową, co nie było wcześniej robione w takim zakresie ze względu na różne protokoły ewaluacji i parametry używane przez różne zespoły.

Analiza uwzględniała wpływ kluczowych czynników czasu wnioskowania, takich jak liczba kroków denoisingu, długość kontekstu, rozmiar bloku i strategie równoległa maskowania. Badacze porównali również mniejsze modele trenowane w identycznych warunkach, aby lepiej zrozumieć różnice między architekturami. Wyniki pokazują, że zachowanie DLM jest silnie uzależnione od konkretnych zadań, architektur i budżetów obliczeniowych dostępnych podczas wnioskowania, co stanowi ważny wkład w zrozumienie alternatyw dla tradycyjnych LLM.