Nous Research prezentuje Token Superposition Training - przyspieszenie treningu modeli LLM do 2,5x

Nous Research opracowała nową metodę treningową o nazwie Token Superposition Training, która może przyspieszyć szkolenie dużych modeli językowych aż 2,5 raza. Odkrycie dotyczy modeli o rozmiarach od 270 milionów do 10 miliardów parametrów i stanowi potencjalnie znaczący krok w efektywności produkcji sztucznej inteligencji. Technika zmniejsza zasoby obliczeniowe niezbędne do pre-trainingu, co bezpośrednio przekłada się na niższe koszty i skrócony czas przygotowania nowych modeli.

W praktyce chodzi o zmianę sposobu, w jaki trenowana jest sieć neuronowa. Zamiast przetwarzania tokenów sekwencyjnie, Token Superposition Training pozwala na równoczesne przetwarzanie wielu tokenów w jednym kroku obliczeniowym, wykorzystując superpozycję - koncepcję zaczerpniętą z informatyki kwantowej. To powoduje drastyczne zmniejszenie liczby iteracji potrzebnych do osiągnięcia tego samego poziomu wydajności modelu. Dla zespołów badawczych i firm zajmujących się rozwojem AI oznacza to konkretnie: mniej czasu na GPU, mniejsze rachunki za moc obliczeniową, szybszy time-to-market dla nowych produktów.

Znaczenie tego odkrycia sięga poza samą optymalizację kosztów. Barier technicznych w dostępie do treningu LLM-ów jest już wiele, ale zasobochłonność pozostaje głównym ograniczeniem dla mniejszych zespołów i start-upów. Jeśli metoda Nous Research zostanie szeroko zaadaptowana, może demokratyzować dostęp do budowania najnowszych modeli AI. Dla branży oznacza to przyspieszenie iteracji, więcej eksperymentów i potencjalnie bujny rozwój nowych zastosowań sztucznej inteligencji w nadchodzących miesiącach.