Transformery uczą się od abstrakcji: badanie rozwojowego procesu nauki modeli języka

Transformery uczą się języka w bardzo określonym porządku - najpierw przyswajają abstrakcyjne, globalne wzorce statystyczne, a potem dopiero zajmują się bardziej subtelnymi, lokalnymi zależnościami. Takie wnioski wynikają z badania, w którym naukowcy trenowali modele na sztucznej gramatyce i monitorowali, jak zmieniały się ich reprezentacje wewnętrzne na poszczególnych etapach nauki.

Meritum obserwacji: modele od samego początku dokonują nadmiernych uogólnień. Na przykład ucząc się nowych reguł, najpierw stosują je zbyt szeroko - ale te przesady są stopniowo korygowane w kolejnych fazach treningu. To przypomina nieco sposób, w jaki dzieci uczą się języka, najpierw uogólniając reguły gramatyczne (na przykład mówiąc "piliśmy" zamiast "piliśmy"), aby później je precyzować.

Nowe ramy teoretyczne zaproponowane przez badaczy mogą istotnie przyczynić się do lepszego rozumienia, jak działają duże modele języka i jakie procesy kognitywne symulują. Wyjaśnienie porządku, w jakim sieci neuronowe uczą się abstraktowych koncepcji, może być kluczowe dla interpretowania decyzji modeli i ewentualnie poprawiania ich wydajności w zadaniach wymagających głębokich zrozumienia języka.